阅读935 返回首页    go 阿里云 go 技术社区[云栖]


【复盘】从肩挑背扛到99%聚石塔订单,AliCloudDB四年双11技术突破!

2015年天猫双11购物狂欢节已经完美落下帷幕,高峰期间订单创建每秒达到了14万笔(达每秒14万笔),总订单量达到了4.78亿,技术指标再次刷新世界纪录。其中99%的订单通过聚石塔订单推送,并在阿里云云数据库服务(RDS)中完成存储和处理。在持续高压力冲击下,整个双11期间AliCloudDB表现坚如磐石:

AliCloudDB上稳定运行,全网实现了0故障,0丢单。

AliCloudDB是如何保障在零点洪峰来临时候稳定、安全和顺畅?如此庞大规模的数据库实例集群又是怎样一步步成长起来的?“云栖社区”特别邀请连续4年支持天猫双11的AliCloudDB团队核心专家玄惭,深入分享这4年双11背后的AliCloudDB是如何实现技术突破的。


57e99b745a3908dd81049d73b5206cdbe4c935b3

图:天猫双11背后的“护航侠”——阿里云数据库

2012,肩挑背扛和逐个优化

阿里云数据库短短一个月内帮助用户手工迁移了数百规模的数据库实例到云上。

阿里云数据库团队白天要准备资源和双11所有工作,夜里还需要协助用户将数据库迁移上云。弹性升级需要对实例逐个进行升级,商家的数据库也需要逐个进行优化,并为商家提出优化建议。天猫双11能否扛过零点高峰?我的心里是打鼓的,但结果让我们深受鼓舞。完全OK。而后几年,我们不断打磨产品,沉淀出了众多的产品需求:例如上云迁移,资源自动扩容,收容和离散,性能诊断自动化等。在我们看来,只有把双11的经验和能力产品化,才是真正长远发展之计。

2013,指数增长和数据链路改造迁移

阿里云数据库支撑双11商家后台核心数据库的第二年。其承担了天猫50%的订单量。如果用一个关键词来形容2013年的双11,那就是变化。第一年双11实例规模量不是很大,然而2013年的双11实例数规模则是成指数级别增长。原来的数据访问链路层的容量已经不能再支持如此规模的用户量。所以我们开始对数据链路访问层进行改造迁移。改造迁移过程的时间点与双11的备战时间点重合,由此触发了非常多的变化,给双11的备战工作造成了很大的压力。一路拼搏,终于在双11之前把链路架构稳定下来。双11当天,记忆尤深的是下午6点左右出现的惊心动魄的场面。由于一个用户发送了超大长度的SQL到阿里云数据库,同时由于Proxy本身问题,所以整个proxy集群出现异常。虽然问题很快得到了处理,影响可控,但给我们敲响了警钟——2014年要重点把数据链路中间层稳定下来。这一年中,我们挑战很大,经验也得到很多:

2014,注入拦截保证安全和数据库优化

阿里云数据库在经历了两年的成长期之后开始迎来成熟。汲取了2013年数据链路改造的惨痛教训,我们在双11前统一了所有集群的数据链路访问。在支持灵活数据链路访问模式,高安全链路访问模式下,实现了SQL注入的拦截功能,帮助用户更简单地防护数据库的安全,避免数据库被注入攻破。双11当天表现平稳。承担了天猫96%的订单量。集群QPS峰值达到142W。集群RDS实例数也达到了历史新高。

2015,资源自动离散与收容和自动化诊断

AliCloudDB在稳定性以及产品功能的丰富上不断进步。未来,我们希望能够出去多走一走,接近云用户,多多倾听他们的声音,将最佳实践和保障经验传承给用户,帮助他们一起把系统稳定性保障起来,是我们最大的心愿。

任何数据库技术问题,都找云栖社区数据库团队,大牛都在这里!

最后更新:2017-04-01 13:44:33

  上一篇:go 阳振坤深度解析OceanBase如何支撑支付宝双十一14万/秒笔交易
  下一篇:go ALICloudDB for PostgreSQL 试用报告 - 3 水平分库 vs 单机 性能