997
小米MIX
“双11”幕后:支付宝曾差4秒就崩溃,今年只需十几人待命!
今年的天猫“双11”临近了。2016年的“双11”,支付宝交易峰值达到每秒12万笔,是前一年的1.4倍,但你可能意料不到:支付宝专门为此提供技术保障的不到30人。
“今年‘双11’,技术保障人员会降到十几人,到2019年,‘双11’将从一年一度的‘支付大考’变为常态化。”10月25日,蚂蚁金服副总裁、首席技术架构师胡喜说。
在大家印象中,“双11”当天,阿里应该是所有员工严阵以待,公司里到处是帐篷、睡袋,桌上堆满“红牛”。
“以前确实是这样,但现在越来越轻松了,希望今年不喝‘红牛’,能慢悠悠喝红酒。”胡喜笑称。
2016年的“双11”,支付宝交易峰值达到每秒12万笔,是前一年的1.4倍。
记者了解到,三四年前,支付宝还要将公司80%左右的技术人员投入“双11”技术保障。更早的2010年,即“双11”启动第二年,支付宝当时几百名技术人员全部坐在电脑前。
“一有问题立马要处理,不行就重启机器,容量不够就加机器,靠‘人肉云计算’撑着。”胡喜告诉记者,可问题还是出现了,险些让支付宝乃至整个淘宝崩盘。
2010年“双11”前,支付宝的系统规划是按每年增长100%的余量预估的,即系统保持一倍余量。
“大家都觉得肯定够了,出现问题也可以等到交易量增长到一定程度时加资源。”蚂蚁金服首席技术官程立回忆,但当天零点刚过,交易量迅速攀升到平时最高值三倍,到7点还没有下降。
“我们意识到当天的交易量一定会远超系统容量。”程立说,所有技术人员如临大敌,开始不停“搬资源”,哪里有富余的计算资源就拿来应急,再不够就“砍业务”,把一些暂时可以牺牲的业务砍掉,将资源搬过来。
到23时59分30秒,眼看“双11”就要结束,支付宝核心账务系统突然报警。一名当时在场的技术人员向记者描述:“嘀嘀嘀的警报声让每个人发急,负责数据库的同事冲过来喊‘资源马上耗尽!赶紧杀掉非关键应用!’”
那时,支付宝的账务数据库还没有拆分,而所有交易都经过虚拟账户,一旦核心账务系统出问题,支付宝所有业务都会停掉,数据库再想恢复要很长时间——出现这种情况,对淘宝和支付宝都是灾难性的。
几秒钟内,技术团队决定临时把一个会计系统的应用“杀掉”,腾出系统资源。
负责消息系统的技术人员争分夺秒地在机器上敲入一行行代码,紧急杀掉非关键应用。键入最后一行代码,将一个会计系统的应用“杀掉”,把资源释放出来时,离数据库崩溃只剩四秒。
“我们开始反思,支付宝怎么顶住每年‘双11’的业务量?”程立说,传统型构架已无法支撑,“双11”倒逼支付宝开始搭建云计算技术构架。
胡喜说,2010年是支付宝技术发展的拐点,“我们分析了整个业界架构,支付宝遇到的问题已不是任何现有业界技术可以解决的,必须自己趟出解决之道。”
从传统型构架向云计算构架过渡,支付宝花了三年,自主研发了中间件、数据库、大数据平台。这个云计算架构,使后来的天猫“双11”平稳进行。
“如果这件事做得晚一点,这几年的‘双11’就别想挺过来。”程立说,现在蚂蚁金服已开始研发下一代构架,是一个适应数据开放、互联、全球化的架构。
“2016年‘双11’的技术保障可以说毫无压力,理论上可以做到每秒百万级的交易支付能力,今年应该会更轻松。”胡喜表示。
而双十一不仅是电商销售的狂欢,也是一场对支付机构和银行的大考。
网联首迎“双十一”大考
与往年不同的是,今年考场中多了一名特别的“考生”,即由7家“央行系”机构和38家支付机构共同发起成立的网联清算有限公司(下称“网联”)。
“网联在成立之初就对行业支付峰值做过预测,业务处理逻辑相对简单,最大的挑战即来自对峰值交易的处理能力。”网联相关人士称。
2016年11月11日,支付宝支付峰值刷新记录,达到12万笔/秒,这包含支付宝支付账户交易(提前充值或花呗等)和支付宝账户涉及银行交易(通过支付宝向银行账户发起指令完成交易)。按照计划目标,今年双十一,支付宝拟将半数涉及银行交易通过网联平台完成。据悉,支付宝方面预估,今年这一峰值或达到20万笔/秒,涉及银行账户的业务达8万笔/秒,据此,网联需达到4万笔/秒的峰值处理能力。
不同于传统金融机构交易数据和灾备“两地三中心”模式,网联采取分布式云架构,在北京、上海、深圳三地建立6个数据中心,保证平台交易达到高性能、高一致、高扩展、高可用、高安全、高扩展、高可控的特征。
9月26日凌晨3点至6点,网联协同6家主要商业银行以及支付宝开展联合压力测试,共进行3轮,压测峰值超过2万笔/秒。此次压测启用了6个数据中心中的3个,据此简单推算,当6个数据中心都投入使用,可达到4万笔/秒的业务处理规模要求。近日网联还计划组织更多机构、银行进行全部数据中心同时处理更高峰值量的联合压测。
网联相关人士称,网联平台规划的平稳处理能力为12万笔/秒,而极值处理能力达到18万笔/秒。这还是在银行能力和平台能力没有充分使用的情况下。之所以留出高达50%的冗余,是为了保证即便某一数据中心出现问题仍可以保持业务连续不中断。
这也意味着,按照既定设计能力和目前压测情况,在“双十一”开启的那一刻,数百万消费者涌入电商平台付款时网联可以提供有力的基础支撑,支持用户顺畅“买买买”。
在今年6月30日,9家支付机构和18家全国性商业银行即已经开始接入网联启动业务切量,9家支付机构占到市场全部交易量的96%。按照工作规划,到今年年底,至少200家银行和40家支付机构接入网联,目前支付机构及银行接入工作态度积极,接入进展符合计划预期。到2018年6月30日,网联将彻底切断第三方支付机构与银行直连。
网联在较短时间内构建起这一高性能交易处理平台,被央行人士称为完成了一项“不可能的任务”。
“网联是站在巨人肩膀上成立的。”网联相关人士表示。网联从30多家支付机构抽调近200名业务骨干,包括支付宝、财付通、百度、京东金融等机构的顶级架构师,各机构贡献其已经运营成熟的技术,通过模块化开发,保证了网联平台在短时间完成上线。
文:澎湃新闻 陆玫 ,21世纪经济报道 王晓
最后更新:2017-10-28 00:07:27