日期:2022-11-18 閱讀數:484
11月16日,OFweek第七屆人工智能産業大會暨行業年(nián)度頒獎典禮在深圳舉辦。深信服AIOps技術憑借在人工智能領域的(de)實力和(hé)優勢,獲得維科杯 · OFweek 2022 人工智能行業“技術突破獎”。當天,深信服高(gāo)級研發技術專家易佳受邀出席大會,發表《桌面雲場景下的(de)AIOps技術實踐》的(de)演講,介紹了桌面雲運維遇到的(de)挑戰,以及如(rú)何利用AIOps簡化桌面雲運維等內(nèi)容。
人工智能産業大會現場
桌面雲運維面臨諸多挑戰
近年(nián)來,桌面雲為(wèi)數字化辦公提供了有力支撐。與此同時,桌面雲也容易面臨第三方軟件兼容性、藍屏、木馬、應用卡慢、響應延遲等問題,這些問題的(de)背後暴露出來的(de)可(kě)能是私有雲資源不足、硬件故障難以定位、網絡故障等深層次問題。
桌面雲運維的(de)挑戰
為(wèi)此,深信服提出了AIOps 智能運維一(yī)體化技術方案。該方案通過采集桌面雲的(de)日志、鏈路和(hé)指标數據,執行故障預測、異常檢測、關聯推理(lǐ)等算法,為(wèi)用戶提供智能分析服務。
“AIOps的(de)數據采集引擎基于Golang實現了插件化探針,支持采集Windows、Linux、Docker等多類指标數據,可(kě)以跨平台、多應用地(dì)進行動态采集,也支持Prometheus協議和(hé)導出,在數據采集上實現了高(gāo)效和(hé)可(kě)擴展。”易佳補充。
曆經三次叠代,打造更優運維體驗
易佳介紹,随着用戶訴求和(hé)用戶體量的(de)的(de)不斷變化,深信服AIOps數據模型與AI框架演進了三個版本。
第一(yī)個版本适用于小規模用戶,是一(yī)套輕量級監控分析系統,支持時序數據、告警數據、統計分析和(hé)容器化部署,也支持主機、虛拟機數據采集做(zuò)簡單AI分析,但是DB/存儲與業務耦合嚴重,算法效果難保障,難以支撐大規模虛拟機接入。
第二個版本是輕量級AIOps引擎,支持OpenAPI和(hé)數據統一(yī)調度,引入緩存機制,實現了存算分離(lí)。但OpenAPI、Requests Handler和(hé)Prometheus容易遇到瓶頸,導緻體驗欠佳。
從第三個版本開始,深信服打造了全棧的(de)AIOps引擎。在該版本中,面對數據上報的(de)性能瓶頸問題,抽象數據接口,實現Requests Handler負載均衡;其次是設計了投遞分級,內(nèi)存磁盤雙對列的(de)模式,為(wèi)低(dī)優先級數據設立單獨通路,可(kě)以優先保障高(gāo)優先級數據入庫;同時,設計了多級分表,優化了數據結構,這樣可(kě)以保留橫向擴展能力。
另外,為(wèi)了平衡實時性與準确度,減少重複數據,AIOps可(kě)以按采集指标區分不同采集周期,例如(rú)設定10s采集一(yī)次CPU,20s采集一(yī)次memory;服務器型号、磁盤大小等靜态數據盡量隻采集一(yī)次。
最後,針對多維異構數據進行了冷熱分層處理(lǐ),冷數據存檔供AI離(lí)線分析和(hé)模型訓練,熱數據實時監控和(hé)展示。
在AI算法方面,易佳介紹,“桌面雲AIOps算法包括基于bagging策略的(de)分段線性回歸算法、基于網格搜索的(de)縮擴容模型、基于資源約束算法和(hé)貪心策略的(de)虛拟機新增模型、基于時間序列特征提取和(hé)随機森林的(de)閑置資源識别模型等”,基于這些算法,最終形成了包含AIOps算法、AI調度決策、OpenAPI、數據管理(lǐ)、服務化等功能在內(nèi)的(de)AIOps基礎結構。
AIOps 實踐與落地(dì)效果
易佳表示,AIOps可(kě)以快速識别出卡慢故障等異常問題。通過引入50多個規則、采集800多個維度數據,實現20多個機器學(xué)習算法,診斷出30+核心卡慢場景。AIOps的(de)監測分析能力已經能夠全方位地(dì)支撐大盤、集群、主機、虛拟機、網絡、存儲、應用軟件全棧監控與分析。
在算法效果上,桌面雲卡慢/故障異常檢測準确率達到87%。實施卡慢緩解建議後,約有47%的(de)問題能夠得到明顯緩解,AIOps的(de)智能診斷能力,可(kě)以覆蓋桌面雲65%的(de)已知資源卡慢問題。
易佳最後總結,AIOps未來會增加更多的(de)反饋和(hé)模型的(de)自(zì)更新機制,實現多業務場景的(de)覆蓋。同時,基于業務畫像和(hé)運維知識圖譜,實現精細化故障診斷,打造讓用戶滿意的(de)産品體驗。