中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

【IDCC2019】騰訊栗權(quán):騰訊智維平臺與數(shù)據(jù)中心運

2019-12-23    來源:天下數(shù)據(jù)IDC資訊

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

大數(shù)據(jù)時代,數(shù)據(jù)呈現(xiàn)爆炸式的增長,全球掀起了興建數(shù)據(jù)中心的熱潮。在新時代,未來數(shù)據(jù)中心如何建設(shè)運營,又將呈現(xiàn)出怎樣的發(fā)展趨勢?2019年12月19日,第十四屆中國IDC產(chǎn)業(yè)年度大典(IDCC2019)第二日精彩繼續(xù),行業(yè)專家和企業(yè)代表云集“IDC建設(shè)與發(fā)展論壇”,為數(shù)據(jù)中心未來的建設(shè)與發(fā)展獻計獻策。騰訊天津濱海數(shù)據(jù)中心經(jīng)理栗權(quán)先生在會上為與會者進行了《騰訊智維平臺與數(shù)據(jù)中心運營體系結(jié)合》的主題演講。

騰訊天津濱海數(shù)據(jù)中心經(jīng)理栗權(quán)

騰訊天津濱海數(shù)據(jù)中心經(jīng)理栗權(quán)

大家上午好,很高興能夠參加今天的分享。我今天分享的主題是騰訊的智維平臺是如何實際應(yīng)用到數(shù)據(jù)中心的市場運營過程中的。

首先做一下自我介紹。我是來自騰訊按天津濱海數(shù)據(jù)中心的經(jīng)理栗權(quán)。天津濱海機房是騰訊第一個自建機房,而是騰訊運營中單體體量最大的一個園區(qū)。天津濱海這個機房單體服務(wù)器數(shù)量已經(jīng)超過10萬臺,機架數(shù)量5400架左右。

我今天分享的主要有三個議題。首先跟大家一起回顧一下騰訊的智維平臺發(fā)展歷程。其次跟大家詳細介紹一下騰訊智維平臺在日常運營以及數(shù)據(jù)分析方面對運營過程發(fā)揮了哪些作用。三是智維平臺的優(yōu)勢和落地的應(yīng)用。

騰訊2000年建立了自己第一個數(shù)據(jù)中心,當(dāng)然那個時候我們是跟深圳電信租賃的一個機房,直到2006年騰訊有了第一個正式算作IT機房的數(shù)據(jù)中心,在深圳寶安機房。到2011年騰訊有了第一個在天津自建的數(shù)據(jù)中心,就是我所運營的機房。時間很快,到2013年騰訊發(fā)布了第三代以微模塊為主導(dǎo)的MDC的數(shù)據(jù)中心技術(shù)。2015年推出了第四代T—BLOCK集裝箱式的數(shù)據(jù)中心。到現(xiàn)在我們已經(jīng)經(jīng)歷了四代數(shù)據(jù)中心的發(fā)展歷程。在這么多年的建設(shè)和運營過程中,有一點體會是非常深刻的:一套高效可用的管理平臺,對整個數(shù)據(jù)中心的運營質(zhì)量和運營效率來說是能夠帶來指數(shù)級的幫助的。所以,基于這個理念,我們在2014年自主研發(fā)并且上線了一套騰訊智維平臺的前身。

數(shù)據(jù)中心在運營過程中會遇到不同的挑戰(zhàn),有四點我總結(jié)的日常運營過程中我們可能會面臨的最大的幾個挑戰(zhàn):管人、管物、管好服務(wù)以及控制好成本。智維平臺針對這四個模塊都進行了核心能力的打造。DCOM,在騰訊內(nèi)部我們把它定義成日常的運營流程平臺,所有的事件變更、維護維保都是通過DCOM來驅(qū)動的,它的主要目的是為了管好我們外包人員,進行人的管理。現(xiàn)場運營著數(shù)萬臺的設(shè)備,有幾十萬個監(jiān)控測點,每天產(chǎn)生數(shù)T的數(shù)據(jù)。如何應(yīng)用和分析這些數(shù)據(jù),讓它最大化產(chǎn)生價值,是在DCRM平臺進行擴充和分析的。此外,由于騰訊云會對外提供很多托管的業(yè)務(wù)。所以,我們給用戶提供的服務(wù)目錄的管理,會在DCIM平臺進行管控。所有的運營過程中,所發(fā)生的物料以及資源成本,我們都會在DCSM模塊進行統(tǒng)一監(jiān)管。

下面我分別展開跟大家介紹一下。DCIM平臺是騰訊智維整個產(chǎn)品的核心。五年之前,就是已經(jīng)跟BA等廠商打通了底層的數(shù)據(jù)接口,把數(shù)據(jù)中心內(nèi)50萬個測點全部通過標(biāo)準(zhǔn)的接口進行對接,并且自己進行統(tǒng)一的存儲。基于這些數(shù)據(jù),我們制定N多種運營場景,為每種運營場景設(shè)置一個模型。這個數(shù)據(jù)模型分別可以應(yīng)用到我們的可視化試圖以及告警分析、智能分析中,這樣說可能會比較抽象,后面大家可以看兩個具體的例子。

分享一個騰訊天津數(shù)據(jù)中心三號樓的一個實時數(shù)據(jù),因為我們已經(jīng)切了節(jié)約模式,所以功率法算出的實時PUE是1.18,負荷是12.4兆瓦。每一天作為運營管理人員,可以通過這個頁面對整個機房當(dāng)前的運營容量,以及外室電,以及當(dāng)前機架的使用情況有一個整體的了解。進一步可以通過采集上來的監(jiān)控數(shù)據(jù),對外室電的供電質(zhì)量以及每一臺變壓器的質(zhì)量和供電質(zhì)量進行跟蹤。這些數(shù)據(jù)都可以經(jīng)過簡單的模型處理,在運營綜合視圖里展現(xiàn)出來。

采集到的50多萬條數(shù)據(jù)如何應(yīng)用到綜合視圖里,我們會進一步把它應(yīng)用到監(jiān)控告警中。由于傳統(tǒng)的監(jiān)控告警只是進行紙回執(zhí)的監(jiān)控,設(shè)置一個上下限,描述物理過程,但是騰訊智維平臺很早就實現(xiàn)了基于拓撲的邏輯收斂。會把從室電進線到中壓側(cè)到UPS直到末端全部都進行數(shù)字化的轉(zhuǎn)譯,我們把每一個設(shè)備之間的元器件建立起來一個拓撲關(guān)系,從空開狀態(tài)到采集值;谶@個拓撲關(guān)系設(shè)置我們的告警策略。這樣一旦源頭有任何的告警產(chǎn)生,我們都可以通過拓撲關(guān)系以及所設(shè)定的告警策略進行告警的收斂以及快速的故障定位,用這種方式來防止告警泛紅,以及幫助一線人員快速進行故障處理和響應(yīng)。

第二個例子是健康管理。單單有這些告警數(shù)據(jù)還是不夠的,因為告警往往已經(jīng)有一個滯后效應(yīng)了。被管理人員看到,被處理的時候,說明已經(jīng)造成了一定的影響。我們基于現(xiàn)場海量的數(shù)據(jù),除了進行被動的告警響應(yīng)以外,還會進行很多主動的健康狀態(tài)的預(yù)警檢測。這里分享的是我們對于電池健康狀態(tài)檢測的案例。我們除了會對電池的溫度、內(nèi)阻和電壓傳統(tǒng)的三類相量進行監(jiān)控以外,還引入了機器學(xué)習(xí)、監(jiān)督學(xué)習(xí)的AI算法,通過整組以及落后電池分析多種AI分析的方法,幫助我們發(fā)現(xiàn)哪些電池雖然表象上目前的容量和電壓都正常,但是它確實在歷次放電中或者在運營過程中是存在落后的風(fēng)險,或者落后的隱患的。我們也累計了半年的數(shù)據(jù)進行分析。通過AI的方式發(fā)現(xiàn)的電池故障或者電池異常的準(zhǔn)確率要高于我們對傳統(tǒng)電壓和內(nèi)阻監(jiān)控而發(fā)現(xiàn)的準(zhǔn)確率。

下一個智維平臺的亮點是關(guān)于容量的管理。容量對于數(shù)據(jù)中心運營安全來說是非常重要的,但傳統(tǒng)的IDC如果要做到精細化的容量管理可能要借助非常多的報表,或者在末端部署非常多的智能PDU。但是基于騰訊DCIM接口,我們可以進行電壓電流的檢測,所有檢測上來的數(shù)據(jù)可以繪制一張容量視圖中。通過平面圖,再結(jié)合當(dāng)前CMBD里面機架機位實際的空閑狀態(tài),就可以馬上繪制出來一張綜合了電量以及機位的物理狀態(tài)資源表,根據(jù)這張表就可以進一步進行后續(xù)設(shè)備上架時所使用的資源狀態(tài)的分配。

我們不但做了容量管理,還可以基于現(xiàn)有空閑的容量,未來對于不同型號的服務(wù)器,再上架新設(shè)備也做了一個預(yù)測的模型。這個模型可以給到我們后續(xù)的資源分配以及資源上架進行預(yù)估的指導(dǎo),模型的準(zhǔn)確率高達90%以上。

還有一個亮點是能耗分析。首先我們可以基于剛剛提到的18個測點的采集和監(jiān)控,對現(xiàn)場所發(fā)生的每一個千瓦,甚至每一臺設(shè)備它的實際能耗以及它對整個能耗的成本到底有什么貢獻,以及有什么弊端,做一目了然的分析和統(tǒng)計。分析完這些數(shù)據(jù),最終的目的可能是要將能耗進行合理的控制。騰訊仿照Google的一個做法,使用了基于網(wǎng)絡(luò)的算法,在數(shù)據(jù)中心之內(nèi)做了一個PUE節(jié)能的預(yù)測。首先我們導(dǎo)出了歷史五年所有的從BA冷站到末端到服務(wù)器,AI負載的將近70多維度的歷史數(shù)據(jù)。對所有的數(shù)據(jù)按照影響因子進行建模和排序,這里的影響因子變化量非常多。其中一個重要的參考量就是我剛剛提到的這張拓撲,因為我們每一臺設(shè)備,不管是通過管路連接起來的也好,還是通過冷凍水能量形式連接起來的也好,內(nèi)在都有一種關(guān)聯(lián)關(guān)系。我們根據(jù)這些關(guān)聯(lián)關(guān)系的疏與密,可以排列出來一個影響因子。

大家可以理解為影響因子排序在前的就是對機房PUE貢獻比較大的;趯@些影響因子的分析,我們又引入了一個靈敏度分析的算法,給出來一個通過AI計算而輸出的推薦值意見。平臺告訴我們基于當(dāng)前的供水溫度和送風(fēng)溫度,在保證我們所輸入的安全邊界不被打破的情況下,你可以有多少的優(yōu)化空間,以及優(yōu)化到什么程度的時候PUE值會降低多少。這個項目出于謹慎起見,對于系統(tǒng)給出的每一個優(yōu)化建議我們都有一個嚴格的變更流程進行控制,變更完之后,我們要根據(jù)實測值與系統(tǒng)的推薦值進行比較,因為要剔除掉很多干擾因素,所以我現(xiàn)在沒有辦法直接告訴大家通過AI算法我們的PUE到底降低了多少,但是PUE能夠在一定空間內(nèi)通過AI算法安全地調(diào)優(yōu),這個方向已經(jīng)被我們的實驗認證了。

分析完DCIM之后,再給大家介紹一下智維平臺在DCOM這個模塊里的設(shè)計理念。DCOM是指我們?nèi)粘_\營過程中的流程以及流程之間的關(guān)聯(lián)關(guān)系。我們在搭建DCOM的時候,有一個基本的理念,海恩法則。任何一起數(shù)據(jù)中心的事故,比如導(dǎo)致我的服務(wù)受到影響,導(dǎo)致宕機或供冷中斷的事故,背后都有很多潛在隱患和未遂的風(fēng)險存在。所以,只要我們在日常運營過程中,在事前盡量多地將隱患消除掉,讓隱患不成立,一定程度上就可以保證末端服務(wù)的連續(xù)和穩(wěn)定。這是我們DCOM搭建的一個核心理念。由于數(shù)據(jù)中心運營行業(yè)使用的已經(jīng)比較成熟了,所以我這里重點提一下騰訊正在使用的智能化巡檢模塊。

智能化巡檢模塊基于一個理念,我們把現(xiàn)場每一臺設(shè)備,或者我們所管理的每一臺設(shè)備都以結(jié)構(gòu)化的方式把它的巡檢相、巡檢標(biāo)準(zhǔn)和設(shè)備編號進行結(jié)構(gòu)化的處理或者轉(zhuǎn)譯,F(xiàn)場借助于RFID掃碼的形式激活每一臺待巡檢設(shè)備,以此獲得巡檢項,這樣天然提升了巡檢效率,而且也能保證巡檢質(zhì)量,也能夠降低執(zhí)行巡檢人員能力門檻。

在這個理念之上,騰訊在2019年下半年又對巡檢工作做了升級。我們認為巡檢只是對監(jiān)控系統(tǒng)的不足以及監(jiān)控系統(tǒng)無法覆蓋的設(shè)備進行人工確認,對于監(jiān)控系統(tǒng)已經(jīng)能夠?qū)崿F(xiàn)遠程監(jiān)管的設(shè)備,我們已經(jīng)從巡檢系統(tǒng)中剝離了。所以,我們經(jīng)歷了對于現(xiàn)場巡檢由繁到簡又從繁化簡的過程。

關(guān)于智維平臺的DCSM管理。騰訊云業(yè)務(wù)形態(tài)有很多種,其中一個重要的是托管用戶比如58同城,他對我們騰訊機房的機架進行整機架租賃,機架上托管著他們自己的服務(wù)器。像58這種用戶,他對他所享受的服務(wù)更關(guān)注的是當(dāng)前的溫濕度,環(huán)境怎么樣,我的設(shè)備分布在你的機房里哪個位置,我還有多少空間或者多少的容量能夠繼續(xù)使用;谶@個需求,DCSM就重點解決了用戶關(guān)注的綜合視圖以及資源查看、運營過程透明化的挑戰(zhàn)。托管用戶可以在平臺里看到他所有所使用或所托管設(shè)備的運營情況,并且可以通過平臺看到每一臺設(shè)備的資源信息,發(fā)起所有服務(wù)目錄中我們已經(jīng)跟他簽約的每一個服務(wù)項,確保所有的需求能夠被線上記錄,精準(zhǔn)的傳遞到我們的現(xiàn)場。這樣將運營過程中的風(fēng)險控制到最低。

騰訊智維本身源于騰訊自己的一個運營平臺,從2014年至今這套平臺已經(jīng)推廣到了騰訊的四大片區(qū),包括我們所有的自建機房以及合建租賃機房。截止到目前,這一套運維平臺已經(jīng)覆蓋了騰訊全部10萬個機架以及100萬服務(wù)器所在的數(shù)據(jù)中心的基礎(chǔ)設(shè)施運營管理。如果大家對騰訊智維平臺更詳細的功能和特點有興趣,可以跟我繼續(xù)聯(lián)系,咱們再進一步溝通。

我今天的分享結(jié)束,謝謝大家!

延伸閱讀:

  • 【IDCC2019】易信科技運營總裁葉輝:增效降費、共建綠色數(shù)據(jù)中心
  • 【IDCC2019】PLDT吳昊:PLDT如何幫助中國企業(yè)進軍菲律賓市場
  • 【IDCC2019】阿里巴巴任華華:IDC液冷化-正在發(fā)生的未來

標(biāo)簽: 騰訊智維平臺 數(shù)據(jù)中心運

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2019 年薪水最高的十三個技術(shù)崗位

下一篇:中國移動啟動2020年5G無線網(wǎng)絡(luò)維護儀表集中采購