云游戏超1亿小时稳定运行的背后,元境保障体系的最佳实践
节假日一直是游戏行业的旺季,在“就地过年”的倡导下,春节期间的流量持续高涨,大多数游戏发行商非常重视这个时间窗口,众多游戏更新了新春版本,期待着为玩家带来一场节日盛宴。2022年的春节,是中国云游戏产业走向规模化迎来的第一个春节。相比去年,云游戏整体流量上升了很大一个台阶,这对行业意义重大,对于阿里巴巴云游戏/元境的技术及运维团队来讲,也将经历一个前所未有的考验。
2021年云游戏从点对点云化全面进入到大规模云移植阶段,技术的进一步成熟使得玩家体验大幅提高,云游戏在跨端、精品化、内容创新等方面产生的价值日益突显,大批游戏厂商在云游戏上加大投入力度。元境基于全平台、全终端、企业级服务保障的特点,以及低延迟、云边协同弹性调度、弱网对抗等技术优势,达成了众多中大型客户的合作,其中不乏头部、现象级的游戏厂商和平台。截至2021年底,元境累计服务的云游戏时长已突破1亿小时。
数字增长的同时,也对云游戏的运行效率、运维保障提出更高的要求和更全面的挑战
挑战一:云化适配与部署的效率和吞吐能力
春节期间,为提升用户的活跃度及付费率,与元境合作的多家游戏厂商对其云游戏版本进行了更新,增加全新的角色、场景、活动等内容,更新的包体较大;而游戏平台类客户则会批量上线和更新云游戏,上线数量多、时间集中。大包体更新、大批量云化、集中性部署,这些需求对于云游戏技术服务商而言挑战很大。不仅需要具备弹性扩容的基础设施,还要拥有更加智能化的技术方案。考验着服务商的云化适配与部署效率和并发吞吐能力。
挑战二:高流量、复杂场景的调度能力
春节期游戏流量高峰加之云游戏规模化上量,双重因素影响下,元境面临的核心课题是:如何在突发的流量高峰、复杂的使用场景下,在极短的时间内把云游戏实例有效的调度给玩家,从而降低玩家排队时间、保障玩家流畅的游戏体验和稳定的运行环境。
揭秘元境“从云基座到业务层”的一体化保障体系
面对春节期间游戏厂商、平台、玩家等多角色的需要,元境技术和运维团队基于大规模高并发的企业级服务经验、专项7x24h实时监控、自动化系统等能力,实现从云基座到业务层的一体化保障,出色地完成了百余家客户的云游戏稳定运行,保障了云游戏玩家流畅、稳定的体验。以下为保障体系大图。
自研云边协同弹性调度,确保以最近的节点高效服务玩家
要把云游戏的基础能力用好,需要投入一些新的研发工作,过去的云端计算,其运行环境与基础条件相对标准化。而云游戏作为一个新的云端很重的计算任务,需要更低的延迟和更稳定的数据交互,这就需要将算力高效的使用起来,将基础设施的优势更好的发挥出来。
云游戏最容易被提出来的挑战是延迟高,在整个链路中浮动最大的是网络延迟,在这方面主要关注云主机离这个玩家多远、边缘部署多广泛,能不能找到离玩家足够近的节点。
元境基于阿里云在全国范围内可覆盖的数千个边缘节点,实现31个省运营商全覆盖,网络延迟可低于5ms。与此同时,元境在去年非常重要的一个投入就是把边缘云和公共云真正的协同调度起来,把边缘节点的算力、存储等资源和云计算资源统一管理起来,形成“逻辑集中,物理分散”的高效协同。
正因为元境在云边协同上的投入,今年春节期间才得以在流量突增、运维工作量增加和环境复杂度变高的情况下,实现了更高的运行效率,保障了玩家的低延迟、流畅的云游戏体验。
针对游戏行业的特性提供专属的保障方案
春节期间,元境支持了多家客户的大包体更新。通常情况下,云游戏版本更新会将其全量包体进行更新,但当更新包体较大且用户数量较多时,受限于机房及带宽的容量和弹性,常规方案很难支持。元境基于充足的机房、带宽及自研的更新方案,帮助客户以增量的方式完成大包体的快速更新,在线上高流量的情况下,版本更新时长降低了80%,保障了游戏更新的及时性和安全性。
对于平台类客户,保障平台上数百款游戏的云化适配、平台云游戏批量上线的时效性非常重要。元境通过自动适配能力加之春节期间值班保障,分钟级响应客户更新适配诉求,全力保障云化适配的产量,提升云化适配的效率。
建立云游戏场景下的AIOps智能运维大脑,保障客户业务的稳定运行
元境基于阿里巴巴主流AIOps理念,建立云游戏场景下的智能运维大脑,从发现故障,到根因分析,再到具体的修复动作,实现云游戏的自动化运维流程。
传统的运维工作大多在事中和事后进行处理,运维工作需要耗费大量的人力及物力,在传统方式下无法满足高质量的云游戏体验和大规模服务的诉求。因此元境运维大脑引入AI算法,通过软硬件故障预测、检测的方式,来科学指导稳定性的工作,分别在游戏运行环境性能衰退前和触发故障前进行提前处理。
诊断是一个根因分析的过程,非常强调领域知识,在元境服务的过程中,与阿里云IaaS团队共同分析各类软硬件故障及修复方案,结合归因分析方法论,沉淀出一整套的根因分析方案。最后修复动作的选择依赖充分的决策,即使在全自动化的方式下,由于各客户的业务场景不同,游戏运行环境的不同,也需要针对不同的触发源具备不同的修复策略,通过智能化决策能够有效地提升故障修复的时效性和有效性。
春节期间智能运维大脑日决策数千次,自动化治愈率达到96%,极大的提升了云游戏基座的稳定性,在春节期间大规模扩量的情况下,为客户带来稳定的运行和玩家流畅的体验。
保障团队与运营方式:复用阿里双11的保障体系与平台
为保障客户的云游戏在春节期间稳定运行,元境的技术及运维团队早在两个月前便开始制定作战计划。考虑到假期的各种影响因素,元境在智能化运维大脑的基础上,结合了阿里双11的保障经验,复用阿里双11的保障体系和系统平台。前期从业务规划、容量准备、风险盘点、应急预案、性能优化、封网管控、安全加固、值班协同等方面开展全方位的准备工作,把保障工作在事前扎实准备;保障期间开展多次故障场景与业务场景突袭演练,验证技术平台的运维稳定性,以及人员的应急响应速度和质量;结合移动化的平台工具,做到了掌间运维,高效协同。
与传统游戏的运维、运行都在厂商这一侧不同,云游戏的运维和运行一般由服务商来完成,这就对云游戏的技术服务商提出了非常高的要求。
随着游戏产业内容精品化、运行全端化的需求日渐强烈,将会有更多游戏企业布局云游戏,云游戏产业将会迎来新一轮的增长。元境作为面向云游戏时代的研运一体化服务平台,将会持续地在技术上、运维能力上做更多投入,不断提升自动化、智能化的运维水平,更好地支持广阔的云游戏世界,为中国云游戏产业进入规模化时代提供有力的支撑。
以上是 云游戏超1亿小时稳定运行的背后,元境保障体系的最佳实践 的全部内容,来自【游乐园】,转载请标明出处!