Russinovich说微软在他的CTO办公室创建了一个新的质量工程团队。将与其网站可靠性工程(SRE)团队合作,寻找使Azure更加可靠的新方法。
Russinovich表示,微软正在开展其他一些旨在提高微软云服务弹性的举措。他表示,从现在到2021年,微软正致力于为10个下一个最大的Azure区域提供可用区域。可用区域已经存在于十大Azure区域。可用区域旨在帮助保护客户免受数据中心级故障的影响。这些区域位于Azure区域内,提供独立的电源,网络和冷却。启用区域中至少有三个分隔的区域位置。
微软正在扩展其安全部署实践框架包括软件定义的基础架构更改,如网络和DNS。此框架旨在确保Azure中发生的所有代码和配置更改在推出到区域对之前经历一组特定的开发/测试,登台,私有预览,硬件多样性试验和更长的验证期。微软还在进行更多投资,以改善零影响和低影响力的更新技术,如热补丁,实时迁移和就地迁移。
Microsoft目前优先考虑数据保留以及恢复时间。但有些客户表示,他们希望自己做出这种权衡决定,因此微软正在预测在存储帐户级别启动自身故障转移的能力。
其Tardigrade项目服务用于在发生硬件故障或内存泄漏之前检测它们,以便Azure可以简单地冻结虚拟机,以便将可能受影响的工作负载移动到其他主机。Microsoft未提供有关何时以预览或最终形式提供此服务的任何信息。
“持续,实时改进的能力是云服务的巨大优势之一,虽然我们永远不会消除所有这些风险,但我们非常注重减少服务问题的频率和影响,同时透明我们的客户,合作伙伴和更广泛的行业,“Russinovich说。