一商宇洁是一商创信旗下国有大型电商运营企业,在快销品电商领域独树一帜,是宝洁全球最大分销商,同时代理Olay,SK-II,沙宣,帮宝适,吉列等一系列家喻户晓的品牌,其运营的宝洁天猫官方旗舰店是天猫单量第一的店铺。
一商宇洁是一商创信旗下国有大型电商运营企业,在快销品电商领域独树一帜,是宝洁全球最大分销商,同时代理Olay,SK-II,沙宣,帮宝适,吉列等一系列家喻户晓的品牌,其运营的宝洁天猫官方旗舰店是天猫单量第一的店铺。
618是一商宇洁全年6次促销中仅次于双11最重要的一次大促。截止六月上海疫情已经持续1月有余,品牌方预测部分地区可能会出现消费反弹,系统需要承受比去年618更大的压力。阿里云TAM团队协同ISV、业务线同学,根据单量预测和业务中台的系统特点,制定了全链路优化、生产环境压测、应急方案演练、大促高峰护航等四套方案,历经54天的重保护航,识别并修复了17项系统稳定性风险,完成两轮生产环境压测,在超预期单量的冲击下保障系统平稳度过业务高峰,实现了大促期间0故障的目标,并修复了系统疑难问题,为日后的护航打下了坚实的基础。
5月的北京突发疫情。客户、护航团队及ISV伙伴大多被隔离在家,压测被迫转为线上进行。生产环境压测需要各方大量技术沟通协同,护航团队为此制定了针对性计划,将疫情的影响降至最低,最终如期完成了两轮生产环境压测,同时积累了大量多方远程协同的经验。
为了更加逼近大促真实场景,本次压测在生产环境进行,每次压测后需要清除生产数据库中的测试数据。由于压测数据量大、数据清除耗时长,导致压测时间非常紧张。护航团队在综合分析后提出了先禁用索引再清理数据重建索引的快删方案,将原来数个小时的清理工作压缩到一小时以内。极大地提高了压测的时效和灵活性。
31日晚8点,所有参与护航的同学都紧盯大屏,618的流量洪峰即将到来!8点10分业务同学报告转单速率下降,有31万单待转。9点58分平台报告16个转单Pod水位全面打满,此时转单QPS已下降到133单/秒,系统性能严重不足。护航团队立即启动应急预案,将转单Pod进行扩容,并将部分流量割接到新扩资源上。在扩容后转单速率恢复正常,堆积单量逐步追平,高峰平稳度过。
大促高峰后,由TAM牵头对转单慢问题进行了彻底排查,发现在高峰的前半小时内,中台逆向转单明显高于实际退款单量。约七成订单被转移两次及以上,甚至多达15次,均属无效转单。经发现是由于平台乱序推单,如果逆向单先于正向单被处理则会失败并反复重试直到找到正向单为止,消耗大量系统性能。在定位根因后,提出了同时提高增加拉单转单资源避免正向单晚于逆向单到达,增加逆向转Hold单等一系列方案,彻底解决了这一问题。此次大促订单瞬时峰值超过双11同期单量,超额完成了客户预估业务目标。
在骄人的业绩背后,业务中台经受住了超预期单量的冲击,系统坚如磐石。这得益于前期的充分的全链路系统检查,生产环境真实压测和周密的应急方案。大促护航服务保障了系统在极端场景下的可用性,极大地提升了客户使用阿里云的体感,得到了客户的高度认可,也为双方进一步深化合作奠定了坚实基础。
你好,我是AI助理
可以解答问题、推荐解决方案等