發(fā)表于:2011-07-14 00:00:00來源:網(wǎng)易科技報(bào)道人氣:3480
11日下午2點(diǎn)到12日下午4點(diǎn),藝龍旅游網(wǎng)出現(xiàn)了持續(xù)的訪問故障。據(jù)了解,該事件最初是EMC存儲(chǔ)設(shè)備出現(xiàn)故障,而由于藝龍網(wǎng)的存儲(chǔ)結(jié)構(gòu)不完善導(dǎo)致長(zhǎng)時(shí)間無法修復(fù)。
此次事件在互聯(lián)網(wǎng)行業(yè)的系統(tǒng)架構(gòu)領(lǐng)域引發(fā)了很多的討論,藝龍因?yàn)檫@次宕機(jī)事件,其網(wǎng)站服務(wù)和呼叫中心業(yè)務(wù)也無法進(jìn)行,據(jù)一些媒體計(jì)算,藝龍網(wǎng)這次直接損失超過14.7萬(wàn)營(yíng)業(yè)收入,而其對(duì)客戶造成的潛在影響無法估計(jì)。
EMC存儲(chǔ)出現(xiàn)問題引發(fā)連鎖反應(yīng)
11日下午,不斷有網(wǎng)友反應(yīng)藝龍網(wǎng)訪問出現(xiàn)錯(cuò)誤,很快,官方就出現(xiàn)了“系統(tǒng)故障,正在修復(fù)中……”的提示。對(duì)于這家以網(wǎng)站和呼叫中心為主要經(jīng)營(yíng)窗口的企業(yè)來說,此故障直接影響到業(yè)務(wù)運(yùn)營(yíng)。
12日早上8點(diǎn),藝龍CEO崔廣福表示,藝龍的存儲(chǔ)系統(tǒng)出現(xiàn)故障,導(dǎo)致全部服務(wù)中斷,崔廣福稱藝龍和EMC的工程師已搶修18個(gè)小時(shí)。
至此,不少目光集中在EMC公司上,藝龍網(wǎng)使用的存儲(chǔ)產(chǎn)品由EMC提供,據(jù)接近現(xiàn)場(chǎng)人士透露,此次宕機(jī)也的確是存儲(chǔ)硬件出現(xiàn)問題,導(dǎo)致數(shù)據(jù)庫(kù)掛機(jī),系統(tǒng)恢復(fù)需要較長(zhǎng)時(shí)間造成。
12日下午呼叫中心恢復(fù)機(jī)票服務(wù),網(wǎng)站服務(wù)等在4點(diǎn)開始恢復(fù),到18點(diǎn)全部業(yè)務(wù)恢復(fù)運(yùn)營(yíng)。
備份架構(gòu)不完善導(dǎo)致維修時(shí)間較長(zhǎng)
對(duì)于藝龍網(wǎng)這次出現(xiàn)問題的原因一時(shí)眾說紛紜,在不少人認(rèn)為EMC硬件出現(xiàn)問題時(shí),一些企業(yè)技術(shù)架構(gòu)人員開始聲援EMC。
丁香園網(wǎng)站CTO馮大輝在微博表示,EMC的產(chǎn)品不會(huì)持續(xù)到幾十個(gè)小時(shí)恢復(fù)不了,而一位網(wǎng)友也提到,“做為EMC的競(jìng)爭(zhēng)對(duì)手也不得不說,這不只是硬件的問題”。
IT服務(wù)公司中達(dá)金橋的孫巍表示,他在12日到現(xiàn)場(chǎng)參與系統(tǒng)恢復(fù)。從他的復(fù)述中得知,EMC存儲(chǔ)硬件出現(xiàn)故障引發(fā)了整個(gè)事件,而由于藝龍對(duì)數(shù)據(jù)庫(kù)的備份不足,存儲(chǔ)層沒有災(zāi)備方案,導(dǎo)致系統(tǒng)恢復(fù)緩慢,雖然硬件很快恢復(fù)正常,系統(tǒng)仍然無法工作。
據(jù)深入介紹,企業(yè)在運(yùn)營(yíng)平臺(tái)的系統(tǒng)設(shè)備架構(gòu)中,為了應(yīng)對(duì)突發(fā)硬件、軟件故障,一般需要對(duì)各個(gè)層級(jí)的系統(tǒng)進(jìn)行備份,比如在服務(wù)器端使用雙機(jī)熱備,在存儲(chǔ)層完成災(zāi)備,在軟件層做冗余工作。這樣任何一個(gè)環(huán)節(jié)出現(xiàn)問題都可以及時(shí)找到替代。
而在藝龍的事件中,藝龍的存儲(chǔ)架構(gòu)只預(yù)備了高性能架構(gòu)的集群備份,災(zāi)備的準(zhǔn)備依賴唯一的存儲(chǔ)硬件,軟件層也缺少冗余準(zhǔn)備,這樣存儲(chǔ)出現(xiàn)問題,事先準(zhǔn)備的災(zāi)備準(zhǔn)備也就不起作用。
“把所有雞蛋都放在一個(gè)籃子里,籃子出了問題,雞蛋就全碎了。”孫巍這么形容。
存儲(chǔ)行業(yè)的一些廠商人士在微博上紛紛表示,硬件不可能保證100%數(shù)據(jù)安全,要硬件保證不出現(xiàn)問題是不可能的,企業(yè)需要在架構(gòu)上減少硬件出錯(cuò)對(duì)企業(yè)運(yùn)營(yíng)的影響。
到截稿為止,藝龍和EMC并沒有回復(fù)關(guān)于此事技術(shù)過程的疑問。
藝龍?jiān)俅瓮C(jī)升級(jí)或?yàn)榧訌?qiáng)存儲(chǔ)系統(tǒng)
14日凌晨,藝龍網(wǎng)再次宣布停止運(yùn)營(yíng)7個(gè)小時(shí),以實(shí)現(xiàn)系統(tǒng)升級(jí)。此前崔廣福在微博上發(fā)出“英雄帖”,邀請(qǐng)咨詢師、方案服務(wù)提供商、專家等為藝龍數(shù)據(jù)中心系統(tǒng)構(gòu)架、災(zāi)備方案及運(yùn)維管理會(huì)診。這也說明藝龍對(duì)此次事件的重視。
業(yè)界人士認(rèn)為,對(duì)于一個(gè)在線服務(wù)提供商,時(shí)刻在線和穩(wěn)定性成為消費(fèi)者一種信賴和依靠,而出現(xiàn)系統(tǒng)完全停止服務(wù)將對(duì)客戶感受造成較大的影響。
據(jù)存儲(chǔ)技術(shù)人士透露,主要的容災(zāi)技術(shù)結(jié)構(gòu)已經(jīng)完善,各個(gè)單位采用不同的架構(gòu)主要原因還是因?yàn)槌杀締栴}。
也有人認(rèn)為,這次的事件對(duì)于災(zāi)備行業(yè)來說將是一次促進(jìn),企業(yè)和政府單位在認(rèn)識(shí)到意外發(fā)生的結(jié)果后會(huì)加大數(shù)據(jù)系統(tǒng)的投入。(王杰聰)