云计算事故不断,企业上云如何避免因事故造成损失?

阿里云再次发生故障,这已是2019年的第二起。3月2日23时55分左右,阿里云开始出现大规模宕机故障,位于华北地区的多家互联网公司的IT运维人员发现多个APP和网站开始陷入卡顿。这场事故,持续了三个小时左右。经紧急排查处理后,3月3日早间云服务全部恢复正常。针对故障,阿里云表示会根据SLA协议(服务合同),尽快处理赔偿事宜。

十天前,阿里云今年的第一起事故被曝光。2月22日,有媒体报道了阿里云云效平台的源代码泄露问题,涉及40 家企业共 200 余项目,甚至还波及用户隐私敏感数据。此事还引起了“Internal之争”,即Internal权限到底是公司内部公开还是对整个云效平台公开,不同企业有不同理解,但最终还是造成了源码泄露。后来,阿里云就此事作出回应,并在网站醒目标识并给出告警。

事实上,阿里云源代码泄露问题在去年8月就已被用户发现,只是到今年2月份才被媒体曝出。

01

纵观近几年云计算发展,云计算事故就没有停止过。不管是知名云计算厂商,还是刚上路的云计算初创企业,服务器中断以及客户数据丢失等问题,频频困扰着云计算企业。

2012年圣诞节前夕,亚马逊AWS的弹性负载均衡服务出错,导致Netflix停机。

2014年11月18日,由于软件更新及性能增加,微软zure存储服务发生大规模断电,这种情况在2015年12月再次发生。

2016年5月9日,Salesforce.com的硅谷NA14实例脱机,导致其断电超过24个小时。从那之后,Salesforce将其大部分工作量转移到了AWS上。

2016年10月21日,甲骨文旗下的DYN(DNS业务)遭遇了一系列分布式拒绝服务(ddos)攻击,致使Airbnb、Twitter、 Amazon、Ancestry、 Netflix及PayPal等公司的业务均受到不同程度的影响。

02

即便云计算安全技术及防御设施不断进步,云计算故障仍旧时有发生。据不完全统计,单是2018年就有数十起云计算故障发生,涉及国内外各大知名云计算平台。其中比较有影响的,包括以下几个事故。

4月6日,微软Office 365和Azure Active Directory访问出现问题,几年来微软云计算出现多次此类故障。

6月15日,因重复分配内部IP地址,谷歌云虚拟机实例大量出现联不上网的问题。

6月27日,由于运维失误,导致一些客户访问阿里云官网控制台和使用部分产品功能时出现问题。受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。这次故障被阿里云内部定义为S1级别(在阿里巴巴的线上业务故障级别中,对S1的定义是:核心业务重要功能不可用,影响部分用户,造成一定损失)。

7月24日,腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。经排查,是因腾讯云广州一区的主备两条运营商网络链路同时中断所导致。但业内人士均知,两条运营商网络链路同时被挖断的情况并不常见,所以对腾讯云这次事故的主要原因仍有存疑。

8月,腾讯云发生故障,直接导致北京的一家初创公司数据全部丢失。事实上,此事发生于7月,只是到8月才被曝光。

03

在2018年的云计算事故中,影响面比较广的当属腾讯云的两次故障事件。

第一个事件,正是上文提到的初创公司数据丢失事件。2018年7月,北京一家主要产品为“前沿数控自媒体”初创公司,在腾讯云的存储数据全部丢失了。某个是时间段,前沿数控的程序员发现无法登录云服务器,就反馈给腾讯云。得到的回复是“北京三区部分云硬盘出现故障,正在紧急恢复中”。几天后,腾讯云告知前沿数控,这些丢失的数据无法找回了。于是,双方开始赔偿协商。前沿数控索赔1101.6万元,而腾讯云只愿意赔偿13.29万,双方陷入僵持。

而此事之所以传播开去,是因为腾讯云承诺9个9(腾讯云承诺99.9999999%的数据可靠性)的安全保障,也没能保住前沿数控的数据,且不能给予客户认为合理的赔偿,进而引发了诸多云服务使用者的热烈讨论。最终舆论演变为,前沿数控在操作上存在失误,但腾讯云服务的可靠性到底又有多高?广告宣传又有多少真实的存在?

此事表明,即便云服务商给予再高的承诺,云服务使用者也应本着对数据服务的态度,数据一定要多云或者异地备份,不能完全依赖云服务商。否则,一但出现问题,就是赔偿的再多,之前的经营数据也是无法挽回,甚至足以毁掉一个项目。

04

如果说数据丢失事故属于“天灾”,那腾讯云的第二个事故则可以归结为“人祸”。2018年8月,女性短视频社区App“她拍”上线了一款名为“她face+”的P图小程序,可将用户五官和脸型融合到其他图片素材中。她拍与腾讯云签订一年合同,购买其云服务及一项名为“人脸融合”的技术服务,每月支付500万左右费用。腾讯云的“人脸融合”技术由天天P图提供支持,此前两个团队均属腾讯SNG事业群。9月27号天天P图停止向腾讯云提供技术支持,并力推同类小程序“疯狂变脸”。期间恰逢腾讯架构调整,因分属不同事业群两团队沟通协商难度加大。双方多次沟通,但原合同无法继续履行。

最终,10月17日达成结果,45天过渡期后“天天P图”不再为“她face+”提供技术支持服务。“她拍”创始人王宏达认为腾讯为推同类产品损害企业客户的利益,起诉起诉腾讯云违约,并索赔一个亿。

这个事件,意味着企业上云用云的风险除了云计算平台本身,还有很大的人为因素在内。这也是很多企业一直担心的问题,如果核心数据与模式被云计算厂商掌握并推出同类产品,企业又该如何是好?云计算厂商能够拿到所服务企业的任何数据,想要挤兑竞品那是易如反掌之事。

05

看完上面所述事故,大家应该已经发现,云计算事故难以避免,至少现在这个阶段是这样。但是在工业互联网发展的大趋势下,企业上云的进程又是不可逆的,换言之就是不管企业如何考虑及看待云计算,最终都要主动或者被动上云的。因此,对亟待互联网转型的企业而言,云计算安全的问题就变成了出现事故如何赔偿的问题。

其实对企业来说,要解决上云安全问题,至少要遵循两点:一是将安全提到最高,二是把损失降到最低。这两点,对于云计算平台和上云企业都非常重要。笔者认为,在安全问题上,云计算平台当尽量做到以下几点:

首先,云计算平台当尽量通过技术及管控手段将安全事故率降到最低,但再先进的技术也不能保证万无一失,仍旧需要相应的运营措施保证安全的最大化。

其次,还要在维护人员的管理方面,做更详尽的管理规划,杜绝技术之外的人为安全因素。

同时,还要明确安全责任问题,便于发生事故之后在处理问题上有据可依。对于这一点,目前很多厂商都已在做,譬如AWS和阿里云和AWS都提出了安全责任共担模型,阿里云负责云平台基础安全防护,用户负责虚拟化层以上的组件安全、业务安全等。

还有一点,云平台作为服务提供方,应该对企业用户提供一定的安全使用培训,确保每个客户全面了解云计算的应用操作,避免因误操作而造成平台与企业的多方损失。

06

从企业用户安全角度考虑,云计算安全就是企业应该学会识云用云。

首先,企业要有上云安全意识。 当时刻提醒企业管理者云计算安全的重要性,云平台安全措施并不能保障数据的绝对安全。

其次,企业上云尽量不要把鸡蛋放到同一个篮子。 一但云计算平台出现事故,就有可能导致企业多年经营全军覆没。目前来说,多云方案是最有效的降低数据丢风险的手段,企业应该将多云方案应该由之前的备选方案转变为首选,以将数据安全隐患降到最低。

第三,对于没有能力搞混合云以及多云方案的初创企业,要学会“狡兔三窟”。 除了应用云计算之外,至少应该做到数据的异地存储,以免出现“前沿数控”哪种数据全丢的情况。

第四,小企业在大型云计算平台往往会受到不公待遇,还需一定的监管及规则。 小微企业话语权小,甚至会出现上述案例中被“随意处置”的情况。关于这一点,呼吁相关机构尽快介入监管,以确保在推动企业上云的同时,保证中小企业的合法权益。

第五,企业要尽量了解各种云计算平台。 公有云、混合云、私有云每个方案都不是唯一的,上云企业出于安全考虑,当充分了解几种类型的优缺点,然后根据企业自身情况选择不同方案,以确保企业数据的绝对安全。

此外,企业亦应多关注更多保障安全的途径。 在理赔方面,除了云平台的赔偿,上云企业亦可关注一下相关理财机构推出的云保险等安全理赔项目。

07

得益于工业互联网的快速发展,企业上云乃是大势所趋。政策及经济形势造就了企业上云红利,云计算厂商规模得以快速扩大。但在扩大的同时更要保证用户的数据安全,只有解决了安全问题才能打消企业心中顾虑,才能让企业安心选择云服务厂商,安心上云。所以,阿里云、腾讯云等多个云计算平台的事故,反映的是整个云计算行业当前存在的安全问题。解决或者不能说明这些安全问题,无疑会对即将上云的企业造成一定的心理阻碍。

事实上,平台与用户双方谁也不想发生安全事故。但若出现问题,平台就应确保以更稳妥合理的方式去解决问题。不然,就会造成企业对云计算平台的信任度下降。上文也有提及,综合而言解决用户信任问题关键在于两点:

一是如何尽量避免出现此类问题。 一方面需要云服务商在安全层面上做足功夫,优先保障云服务的安全最大化;另一方面从用户角度考虑云服务商的便捷性与安全性,只有让用户以最简单的方式享受高效安全的云服务,使安全问题概率降到最低,才能增加用户的信任感,进而实现口碑效应。

二是出现问题之后,如何妥善的处理。 随着企业上云数量的增加,可以预见今后此类事件会更多。以前此类事件可能影响不会太大,但现在安全事件的发生概率关联着潜在上云企业对云服务商的品牌形象的认知。对某些小问题处理不当,可能就会引发用户的不满,进而放弃使用云服务。所以,不怕出现问题,怕的是出现问题以后不能妥善合理的解决。只要云计算平台能够妥善解决善后问题,其他问题的解决也就不在话下了。

最后,再次叮嘱云平台与企业都要引以为戒,尽量避免出现云计算事故造成企业重大损失的情况。

工业互联网趋势下的企业上云大有可为,希望云平台和正在数字化转型的企业,都能最大化享受这波红利。

(原文作者:王吉伟)

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8261;邮箱:jenny@west.cn。本站原创内容未经允许不得转载,或转载时需注明出处::西部数码资讯门户 » 云计算事故不断,企业上云如何避免因事故造成损失?

赞 (0)