隨著企業開始采用經過大型數據中心運營商和托管服務提供商試用和測試過的機器學習技術,人工智能將在數據中心運營中扮演更重要的角色。
今天的混合計算環境通常跨越了內部數據中心、云和配置站點以及邊緣計算。企業發現傳統的數據中心管理方法并不是最優的。通過使用人工智能,機器學習,可以簡化復雜計算設施的管理。
目前,數據中心的AI主要圍繞機器學習來監控和自動化設施組件的管理,如電力和配電元件,冷卻基礎設施,機架系統和物理安全。
在數據中心設施內部,越來越多的傳感器正在從設備(包括備用電源,配電設備,開關設備和冷卻器)收集數據。有關這些設備及其環境的數據將通過機器學習算法進行分析,例如,該算法可以詳細了解性能和容量,并確定適當的響應,更改設置或發送警報。隨著條件的變化,機器學習系統能從變化中不斷學習 - 它本質上是通過訓練進行自我調整,而不是依靠特定的編程指令來執行其任務。
目標是使數據中心運營商能夠提高設施的可靠性和效率,并更自主地運行它們。但是,獲取數據并不是一項簡單的任務。
基本要求是獲得來自主要組件的實時數據,施耐德電氣數據中心全球解決方案高級總監Steve Carlini說。包括冷水機組,冷卻塔,空氣處理機,風機等等設備。在IT設備方面,你需要收集諸如服務器利用率,溫度和功耗等指標。
“計量一個數據中心不是一件容易的事。”Carlini說, “如果你想嘗試做人工智能,你需要從數據中心獲取數據,并且確保在數據中心有很多連接點用于供電和散熱。”
IT專業人員習慣于設備監控和實時警報,但在房屋設施方面則沒有這個傳統。“人們希望即時得到IT設備的通知。但在你的電力系統上,這不是直接能夠得到的數據,“Carlini說。 “這是一個不同的世界。”
只有在過去的十年左右,第一批數據中心才完全裝備了儀器,并使用儀表來監控電力和制冷。只要存在計量的地方,標準化的實現往往都是困難的:數據中心運營商依賴于使用多種通信協議來構建管理系統——從Modbus和BACnet到LONworks和Niagara——它們必須滿足于那些無法共享數據或不能通過遠程控制操作的設備。“TCP/IP,以太網連接——這些連接以前在動力系統端和冷卻端是聞所未聞的,”Carlini說。
好消息是,數據中心的監控正在向高級分析和機器學習所需的深度發展。服務提供商和托管服務提供商一直非常擅長在機架級別進行監控,特別是監控能源使用情況。企業正在開始部署它,這取決于數據中心的規模,“Carlini說。
機器學習使數據中心時刻保持涼爽
由于電力系統故障導致的達美航空數據中心停運事件,使其在2016年的三天時間內停飛約2000次航班,造成損失1.5億美元。這正是基于機器學習的自動化技術可以避免的場景。 由于數據中心計量技術的進步以及云中數據池的出現,智能系統有可能以手動流程無法發現的方式發現數據中心運行中的漏洞并提高效率。
機器學習驅動智能的一個簡單示例是基于條件的維護策略,它應用于數據中心中的消耗品,例如,冷卻過濾器。Carlini說,通過監測通過多個過濾器的空氣流量,智能系統可以檢測出一些過濾器是否比其他過濾器堵塞更多,然后將空氣導向堵塞較少的單元,直到需要更換所有過濾器為止。
另一個例子是監控UPS系統中電池的溫度和放電。智能系統可識別在較熱環境中運行且可能比其他系統更頻繁運行的UPS系統,然后將其指定為備用UPS而不是主系統。 “它可以為你做一些思考。這原本是需要手動完成的,但現在機器也可以做到。這些是基本的案例,”Carlini說。
更高層次的功能是動態冷卻優化,這是當今數據中心中最常見的機器學習的例子之一,特別是在較大的數據中心操作人員和托管服務提供商之間。
通過動態冷卻優化,數據中心管理人員可以根據環境條件監控和控制設施的冷卻基礎設施。當設備移動或計算流量激增時,建筑物內的熱負荷也會發生變化。動態調整冷卻輸出以轉移熱負荷可幫助消除不必要的制冷量并降低運營成本。
451 Research數據中心技術和生態高效IT頻道的研究主管Rhonda Ascierto說,托管服務提供商是動態冷卻優化的主要采用者。“機器學習對數據中心來說并不陌生,”Ascierto說。 “在很長一段時間內人們都試圖根據容量和需求來改善散熱,機器學習可以讓你實時做到這一點。”
Vigilent是動態冷卻優化領域的領導者。其技術可以優化數據中心設施的氣流,自動發現并消除熱點。
Vigilent的創始人,總裁兼首席技術官Cliff Federspiel說,數據中心運營商之前傾向于運行比他們所需要的更多的冷卻設備。 “它通常會產生半可接受的溫度分布,且成本非常高。”
如果有熱點,傳統的措施是增加更多的冷卻能力。實際上,較高的空氣速度會產生壓力差,干擾穿過設備的空氣流動或妨礙熱空氣返回到冷卻設備。可能這不是直覺,有時候降低風扇速度可能更有效。
Vigilent的基于機器學習的技術可以了解哪些氣流設置可以優化每個客戶的散熱環境。該公司表示,提供適當的冷卻量在需要的地方,通常能使冷卻能耗降低40%。
除了自動化冷卻系統之外,Vigilent的軟件還允許客戶使用分析工具來對其設施進行運營決策。
Federspiel說:“我們的客戶越來越有興趣利用這些數據來幫助管理他們的資本支出、能力規劃和可靠性計劃。這為數據中心內的大量新型的數據相關的決策創造了機會。”
AI使現有流程更完善
展望未來,數據中心運營商正在努力將動態制冷優化的成功擴展到其他領域。一般來說,適合機器學習的領域是那些需要大量重復性的工作的地方。
Ascierto表示:“新的基于機器學習的數據中心方法很可能會應用于現有的業務流程,因為當您徹底了解業務問題和規則時,機器學習會表現的更好。”
企業已經有一些在使用中的監控工具。有一種長期存在的數據中心基礎設施管理(DCIM)軟件,可以為數據中心資產、相互依賴性、性能和容量提供可見性。DCIM軟件具有遠程設備監控,電力和環境監控,IT資產管理,數據管理和報告等功能。企業使用DCIM軟件來簡化容量規劃和資源分配,并確保盡可能高效地使用電力,設備和占地面積。
“如果你有一個基本的監控和資產管理,你的預測能力將會大大提高,”Ascierto說。 “人們已經在使用他們自己的數據。”
接下來的目標是:將外部數據添加到DCIM組合中。這就是機器學習發揮關鍵作用的地方。
數據中心管理即服務或DMaaS是基于DCIM軟件的服務。但它不僅僅是一個SaaS版本的DCIM軟件。 DMaaS將進一步收集數據,匯總來自數十個數據中心的設備和設備數據。然后將這些數據匿名化,匯總并使用機器學習進行大規模分析。
兩家DMaaS市場的早期參與者是Schneider Electric和Eaton。這兩家廠商都從他們在數據中心領域多年的經驗中挖掘出了大量數據,其中包括設計和構建數據中心,樓宇管理,配電以及電力和制冷服務。
“Schneider Electric和Eaton正在做的事情將產生重大的變化,那就是擁有眾多客戶數據的數據湖。這對于數據中心部門來說非常有趣,”Ascierto說。
通過從廣泛的操作環境中獲取這類數據,使企業能夠將自己的數據中心性能與全球基準進行比較。例如,Schneider的DMaaS產品名為EcoStruxure IT,它與來自500多個客戶和220萬個傳感器的基準數據的數據湖相關聯。
“您不僅可以使用自己的數據理解和解決問題。而且,您還可以使用數千個其他設施的數據,其中包括許多與您的設施非常相似的數據。這是最大的區別,”Ascierto說。
例如,預測性和預防性維護可以從更深層次的智能中受益。 Ascierto說:“以其他機器為基礎,在使用水平相似、使用時間相近、部件相似的環境中工作,人工智能可以提前預測出可能會出現的故障。”
情景規劃是另一個可以從機器學習中獲益的過程。例如,公司今天進行情景規劃,估算設備移動對功耗的影響。 “這幾乎無法進行機器學習,”Ascierto說。“但通過將機器學習數據、歷史數據應用到特定的配置和不同的設計中——使得確定特定配置或設計的結果的能力大大提升。”
風險分析和風險對沖計劃也將受益于更深入的分析。 Ascierto說:“數據中心非常復雜,今天的規模如此之大,以至于人類真的很難從中找到規律,但對于機器來說這是輕而易舉的。”
未來,機器學習在數據中心的廣泛應用將為企業在決定運行某些工作負載的位置時提供更多建議。 “這對組織來說非常有價值,特別是如果他們正在圍繞最佳執行場所做出決定時,”Ascierto說。 “這個應用程序應該在這個數據中心運行嗎?或者我們應該使用額外的數據中心嗎?”
展望未來,智能系統可以承擔更復雜的任務,使數據中心能夠根據運行效率最高或最可靠的設置來動態調整工作負載。 Carlini說:“復雜的人工智能在未來仍有一段路要走。”
與此同時,對于剛入門的公司,他強調了讓設備和IT團隊進行更多合作的重要性。
Carlini說:“考慮到數據中心的所有部件 - 電源系統,冷卻系統和IT管理室都是非常重要的。必須努力保證不同領域的技術之間的互操作性。同時,企業需要在人員配置方面也這樣做。
“雖然這在技術層面上很容易做到,但在組織上,提升的空間依然非常巨大,”他說。
評論
查看更多