導語:根據IDC數據顯示,阿里雲公有云市場份額達到43%,相當於第二至九名總和,穩居中國市場第一,並大幅甩開國內競爭對手。去年12月,阿里雲發佈最新服務等級協議SLA,其中單實例可用性提升至99.975%,多可用區多實例可用性提升至99.995%。通俗易懂來説,這也代表着阿里雲能夠提供99.9%以上的穩定性,但大家都知道,只要有概率,那麼必然會有事件發生的一天,哪怕是 0.1%的概率。2020年7月23日,長沙艾德寶信息科技有限公司使用阿里雲數據庫時就發生了一起宕機事故,時至今日,兩個月過去雙方仍未就協商賠償事宜達成一致意見。
阿里雲服務等級協議SLA
7月23日,長沙艾德寶信息科技有限公司發生阿里雲宕機事件,事件造成產品平台無法登陸、業務數據無法讀取、用户充值通道無法打開等一系列後果。事發後艾德寶公司技術部門曾嘗試了所有預備方案,但最終都沒有起到效果。
事發後,艾德寶公司技術部門負責人向阿里雲公司提出事故的賠償要求,但阿里雲方面表示不考慮服務公司實際遭受的損失,只按照SLA協議故障時間補償(具體算法自行搜索)。這一回應也讓艾德寶技術負責人十分氣憤,認為“SLA協議事故時間補償完全彌補不了我們的損失,而且對方一直都在走流程當中”,並稱像他們這種創業公司也無力進行維權。其實艾德寶公司受到的故障在阿里雲並不是第一次出現,從相關渠道可以獲知,歷年來阿里雲出現過多起類似事故。2019年3月,華北2地域可用區C部分ECS實例狀態異常,導致該區域眾多網站和App都無法正常使用。
2018年6月,阿里雲官網控制枱和產品功能故障,導致訪問阿里雲網站出現問題。
另外在2016年7月,阿里雲北京機房內網發生故障,導致大量互聯網公司業務受到影響;10月11日,阿里雲華東地區部分ECS服務器出現IO HANG問題,導致部分網站癱瘓,一些用户無法連接雲服務器。12月,阿里雲域名解析出現故障,官方稱故障原因為突發大流量攻擊導致的部分解析服務器異常。綜合上述信息,也可以看到阿里雲所謂的“99.99%的穩定性”也並不是説就一定穩定,實際上也會出現相應波動以及故障。
對現在的企業來説,上雲是一種趨勢,更是數字化轉型的必走之路。而全球任何一家雲服務商對服務可靠性的承諾都不是100%,也做不到100%,這也意味着,雲服務提供商總會出現一些不可避免的問題,比如自然災害類的颱風、暴雨、閃電等,人為的誤刪、誤操作等。這些事情的發生,都會讓雲上企業的服務受到影響,出現宕機等。現在的關鍵問題是,對中小企業來説,如何在上雲之後更好地實現自我保障?
對艾德寶公司來説,這不是第一次出現故障,相信也不會是最後一次。對雲服務提供商而言,阿里雲發生的故障也可能在自己身上不斷重演。但對其他上雲企業來説,“事故”的一次次發生不僅讓他們擔憂,自己離下一次故障還有多久?一旦發生自己也會像艾德寶公司一樣損失得不到保障嗎?這,也許是值得所有業內人士深思的一個問題。