【編者按】
在企業(yè)上云成主流趨勢的今天,上云的風(fēng)險(xiǎn)備受關(guān)注,云服務(wù)器若宕機(jī)一分鐘都會(huì)給企業(yè)的業(yè)務(wù)帶來不可估量的損失。前段時(shí)間,微軟Azure圣安東尼奧數(shù)據(jù)中心被雷擊中,引發(fā)故障,系統(tǒng)中斷超過24小時(shí)。再一次證明,跨AZ(Availability Zones:可用區(qū))高可用,建立容災(zāi)備份機(jī)制,是每個(gè)企業(yè)上云所要關(guān)注的重點(diǎn)之一。
微軟Azure被雷擊 服務(wù)中斷超24小時(shí)據(jù)媒體報(bào)道,2018年9月4日,微軟在美國中南部地區(qū)的圣安東尼奧數(shù)據(jù)中心由于雷電天氣影響導(dǎo)致電壓激增,數(shù)據(jù)中心的冷卻系統(tǒng)發(fā)生故障。為保證數(shù)據(jù)和硬件完整性,數(shù)據(jù)中心的自動(dòng)化措施強(qiáng)制關(guān)閉了系統(tǒng)電源以防止機(jī)器因過熱造成損壞。
這一事故引發(fā)了 Azure 中斷,Office 365 以及 Azure Active Directory 服務(wù)都受到影響,并且恢復(fù)相關(guān)存儲(chǔ)服務(wù)經(jīng)歷了很長時(shí)間。
故障從9月4日上午 9 點(diǎn)(北京時(shí)間 9 月 4 日 17:00)左右開始出現(xiàn)問題,到9月5日 13點(diǎn)左右(北京時(shí)間9月5日21:00左右),微軟大多數(shù)受影響服務(wù)的存儲(chǔ)可用性已經(jīng)恢復(fù),整個(gè)故障中斷時(shí)間超過 24 小時(shí)。
雖然Azure Support 將事故稱為“網(wǎng)絡(luò)問題”,并表示中斷只會(huì)影響美國中南部的客戶,但是很多用戶表示中斷已經(jīng)影響了包括西歐、亞洲在內(nèi)的其他地區(qū)。
Azure Support 在對用戶的回復(fù)中澄清了為什么其他地區(qū)會(huì)受到影響:“在某種程度上,我們所有的數(shù)據(jù)中心都是相互聯(lián)系的。因此,如果一個(gè)數(shù)據(jù)中心出現(xiàn)故障,它將轉(zhuǎn)移到其他數(shù)據(jù)中心。此外,在歐洲的客戶可能會(huì)在受影響的數(shù)據(jù)中心托管一些資源?!?/p>
包括 Office 365 和 VSTS (Visual Studio Team Services)在內(nèi)的近 40 個(gè) Azure 服務(wù)受到影響。
9月5日,Azure 狀態(tài)更新中表示,工程師正在優(yōu)先恢復(fù)存儲(chǔ)資源,以便恢復(fù)依賴于這些受影響資源的所有服務(wù),但是恢復(fù)過程需要一段時(shí)間。到北京時(shí)間9月5 日晚 9 點(diǎn)左右,大多數(shù)受影響的服務(wù)已經(jīng)恢復(fù)。
到底應(yīng)該怎么上云?
此次 Azure 服務(wù)中斷時(shí)間長,影響較大,又引發(fā)了大家對上云風(fēng)險(xiǎn)的討論。討論中出現(xiàn)了這樣的疑惑:區(qū)域性中斷應(yīng)該不會(huì)拖垮那么多服務(wù),地理冗余在哪里?
雖然很多細(xì)節(jié)都圍繞在具體是哪里的冷卻系統(tǒng)發(fā)生了故障,但Azure的這次服務(wù)中斷也讓大家認(rèn)識(shí)到AZ(可用區(qū))的重要性。AZ能讓使用云服務(wù)的用戶在給定云計(jì)算區(qū)域內(nèi)的幾個(gè)獨(dú)立建筑周圍分散工作量,以期避免單個(gè)數(shù)據(jù)中心會(huì)帶來的問題。
上云必須要防止這些基礎(chǔ)設(shè)施問題,即使 99%的SLA(等級(jí)服務(wù)協(xié)議)也意味著一年 365 天大約可以有 4 天不在線。所以很多公司會(huì)提到 99.9% 和 99.99%。當(dāng)以年為單位來看,小數(shù)點(diǎn)后面的位數(shù)也不可小覷。
公有云提供的高度冗余意味著公司需要在全國各地?fù)碛袨檎军c(diǎn)提供服務(wù)并充當(dāng)備份的數(shù)據(jù)中心。公有云應(yīng)當(dāng)建立自己的容災(zāi)備份機(jī)制,那么,作為公有云的落地實(shí)踐,行業(yè)云又該如何保證跨區(qū)高可用,為企業(yè)提供穩(wěn)定可靠的服務(wù)呢?
呼叫中心云服務(wù)如何跨可用區(qū)呼叫中心云服務(wù),是云計(jì)算在呼叫中心行業(yè)的應(yīng)用與實(shí)踐。作為呼叫中心云服務(wù)的引領(lǐng)者,巨人網(wǎng)絡(luò)通訊呼叫中心云服務(wù)以“雙活分區(qū)”“雙云互備”的模式來保證系統(tǒng)跨區(qū)高可用。
把系統(tǒng)同時(shí)部署在云服務(wù)商的A區(qū)和B區(qū),并且在AB區(qū)設(shè)有多個(gè)機(jī)房,任何一個(gè)機(jī)房出現(xiàn)問題,對云服務(wù)的正常運(yùn)營是沒有影響的。而我們選擇云服務(wù)商的前提是,所提供的組件本身就是跨AZ高可用的。因?yàn)橹挥性茝S商為你提供的基礎(chǔ)資源高可用,才能讓業(yè)務(wù)的跨AZ變得簡單。
只在一個(gè)云上做雙活分區(qū)還不夠!巨人網(wǎng)絡(luò)通訊采用兩個(gè)云廠商,以雙云互備的形式為高可用再加一層防護(hù)網(wǎng),可以為客戶在不同的云平臺(tái)開通獨(dú)立賬號(hào),同時(shí)使用。雙云互相切換的時(shí)間控制在1分鐘以內(nèi),并保證云服務(wù)商和我們的核心機(jī)房之間是兩條專線直連,如果遇到其中任何一條被挖掘機(jī)挖掉的情況,業(yè)務(wù)可以自動(dòng)切換到另一條,也就是我們常說的“物理雙鏈路、設(shè)備雙冗余”。
通過雙活分區(qū)、雙云互備的模式,即便是出現(xiàn)自然災(zāi)害或人為失誤的極端情況,也能保證客戶系統(tǒng)正常使用。
(文章轉(zhuǎn)載于天潤融通)