在 2025 年亞馬遜云科技中國峰會上,觀測云技術總監黃小龍帶來了主題為《下一代智能可觀測性平臺技術實踐》的重磅分享。會后,我們邀請他就平臺背后的理念、技術演進路徑及產品規劃進行了深入交流。
Q1:您在演講中提到“煙囪式”監控體系的問題,能具體談談行業目前面臨的主要挑戰嗎?
黃小龍:在過去幾年中,很多企業在構建監控體系時采取了“煙囪式”方法,也就是一個系統一個工具、一個團隊一套方案。短期內看似靈活高效,長期卻帶來了巨大的協同成本和數據割裂問題。比如同一個告警事件可能要在多個平臺之間跳轉,日志、指標、鏈路、事件之間無法關聯,定位問題效率極低。
我們認為,這種割裂式的技術體系已經無法支撐 AI 時代對實時性、智能性和協同能力的更高要求。于是我們提出了“智能一體化可觀測性平臺”的方向,用統一的數據基礎、統一的查詢語言、統一的分析入口,去替代冗余工具堆疊,讓工程師關注問題本身,而不是工具之間的鴻溝。
Q2:這次演講提到了很多“平臺底層”的演進,比如 GuanceDB 3.0,能否展開說說背后的技術邏輯?
黃小龍:可觀測性平臺的核心其實是“數據系統”。為了支撐多源異構、超大規模的監控數據分析,我們打造了 GuanceDB 3.0,整個數據庫底層基于 S3 架構,采用存儲與計算分離的設計。這帶來了更好的性能,也更適配公有云環境。
與此同時,我們也推出了“流式聚合引擎”,它可以在數據寫入時根據用戶歷史查詢行為自動預聚合數據,極大地加速儀表板與查詢響應。你可以理解為:用戶看到圖表的時候,不是再從原始數據“現拉”,而是從系統提前準備好的“熱數據倉”中直接讀取。
Q3:AI 能力是大家非常關注的話題,觀測云在這方面有哪些新進展?
黃小龍:AI 不應該只是“炫技”,而是深入產品的每個操作細節。我們構建了智能體 Obsy AI,有幾大亮點:
· AI 智能助手:以自然語言交互的方式,幫助用戶更輕松理解數據。
· AI 智能分析:用于儀表板中的趨勢識別、異常推理。
· AI 告警分析:將告警背后的上下文(鏈路、日志、變更等)自動關聯,給出定位建議。
我們的目標不是簡單回答“發生了什么”,而是幫助用戶回答“為什么發生”“影響了什么”“接下來該怎么處理”。
Q4:除了常規的監控能力,你們還提到了 SIEM 安全事件分析,這屬于擴展方向嗎?
黃小龍:對,但也是我們認為“可觀測性平臺的自然邊界”。我們在平臺中引入了安全事件分析能力,并構建了專用引擎 Arbiter,它具備三個特點:
· 可編程(用戶可自定義規則);
· 可引用全量觀測數據(包括指標、日志、鏈路等);
· 與常規監控解耦,不影響主業務性能。
我們的目標是讓同一個平臺,不僅能看清系統穩定性,也能快速洞察潛在的安全風險,實現監控與安全的融合。未來還將提供更多的內置檢測模板與外部事件接入能力。
Q5:最后,能否簡單總結一下觀測云在亞馬遜云科技生態里的技術定位?
黃小龍:我們從 Day One 就基于亞馬遜云科技生態構建產品架構。包括:
· 存儲層完全托管在 Amazon S3;
· 彈性計算資源調度基于 EKS;
· 智能體由 Amazon Bedrock 提供大模型能力;
· 全球客戶可通過亞馬遜云科技 Marketplace 快速使用觀測云。
這意味著客戶能在全球范圍內更輕松使用我們的平臺,同時享受云原生帶來的高可用、低運維、強彈性等優勢。未來我們也會繼續與亞馬遜云科技深度合作,構建智能時代的監控觀測平臺。
智能一體化、全棧可觀測、安全分析能力,正在觀測云平臺上逐一落地。正如黃小龍所說,“讓數據‘看見’,也讓決策變得可見”,可觀測性不僅是運維的工具,更是企業智能化的根基。
關鍵詞: