隨著科技的不斷進(jìn)步,“AI”、“大數(shù)據(jù)”這些名詞越來越多地出現(xiàn)在人們的日常生活中。對監(jiān)控運(yùn)維產(chǎn)品來說,平臺(tái)會(huì)獲得大量設(shè)備的性能數(shù)據(jù)并加以存儲(chǔ)。對于這些數(shù)據(jù)的進(jìn)一步利用,傳統(tǒng)方式一般為生成數(shù)據(jù)圖表、分析性能使用、預(yù)測未來趨勢等。今天來說說 ManageEngine OpManager 在滿足傳統(tǒng)數(shù)據(jù)分析功能外,還可以由AI 機(jī)器學(xué)習(xí),通過高階算法,自動(dòng)生成并優(yōu)化性能監(jiān)控閾值,實(shí)現(xiàn)性能告警全自動(dòng)。
什么是閾值?
在介紹自適應(yīng)閾值之前,首先來說明一下到底什么是閾值。
閾值又叫臨界值,是指一個(gè)效應(yīng)能夠產(chǎn)生的最低值或最高值。
在監(jiān)控中,以CPU利用率為例,設(shè)置閾值用于判斷CPU利用率是否在正常使用范圍內(nèi)。當(dāng)CPU利用率超過設(shè)定的閾值時(shí),便可以認(rèn)為此時(shí)設(shè)備的CPU處于異常使用情況,從而觸發(fā)告警,讓作為管理員的我們第一時(shí)間得到消息,檢查設(shè)備運(yùn)行狀態(tài)。
閾值的配置
既然閾值是觸發(fā)告警的標(biāo)準(zhǔn),那么設(shè)置合理的閾值是非常重要的。我們發(fā)現(xiàn)目前常見的閾值配置辦法,是管理員手動(dòng)對各個(gè)不同監(jiān)控項(xiàng),正如下圖中給一個(gè)固定數(shù)值來區(qū)分“正常”、“異常”狀態(tài)。
手動(dòng)配置閾值的缺陷:
上述說到的手動(dòng)配置有些致命的問題,那就是當(dāng)面臨成百上千臺(tái)不同的設(shè)備,以及成千上萬個(gè)不同監(jiān)視項(xiàng)時(shí),管理員需要花費(fèi)大量時(shí)間手動(dòng)配置不同監(jiān)控項(xiàng)的閾值。這不僅麻煩,而且會(huì)給“異常”情況留出“生存空間”。
我來舉個(gè)例子,讓大家更好地理解。當(dāng)一臺(tái)服務(wù)器白天的內(nèi)存利用率正常情況下保持在70%左右、夜間保持在30%左右時(shí),管理員將內(nèi)存利用率閾值設(shè)置為大于80%產(chǎn)生告警。那么當(dāng)某個(gè)夜間內(nèi)存利用率突然飆升到60%時(shí),因?yàn)闆]有達(dá)到閾值告警的觸發(fā)條件,所以不能將此特殊情況通知到管理員。然而,對于夜間來說,60%的數(shù)值實(shí)際上已經(jīng)是出現(xiàn)了異常情況,只是受限于傳統(tǒng)閾值的設(shè)置方法,導(dǎo)致了這種異常情況被忽略。
基于 AI,“預(yù)測”未來
在使用OpManager的過程中,發(fā)現(xiàn)OpManager可以基于AI技術(shù),通過高階算法計(jì)算出“預(yù)測值”,并根據(jù)“預(yù)測值”自動(dòng)設(shè)置閾值。未來,通過不斷地機(jī)器學(xué)習(xí),閾值也會(huì)隨著“預(yù)測值”的更新而自動(dòng)變化,從而使告警也“智能”起來。它不僅消除了手動(dòng)設(shè)置閾值的煩惱,并使研究復(fù)雜數(shù)據(jù)集和為每個(gè)監(jiān)視器得出可行的閾值的過程完全自動(dòng)化。如下圖所示,OpManager需要至少3天的性能數(shù)據(jù)收集,會(huì)以每天不同小時(shí)段為單位,給出一個(gè)該小時(shí)內(nèi)的“預(yù)測值”,并會(huì)通過后續(xù)的數(shù)據(jù)不斷自動(dòng)優(yōu)化和更新“預(yù)測值”。
自適應(yīng)閾值為運(yùn)維人員帶來不少好處,例如:
●省去了管理員手動(dòng)設(shè)置的麻煩與時(shí)間。
●針對不同設(shè)備的不同監(jiān)視器,會(huì)自動(dòng)設(shè)置不同的閾值。
●對不同時(shí)間段,會(huì)自動(dòng)設(shè)置對該小時(shí)內(nèi)的告警觸發(fā)條件,不給“異常”情況留“活路”
●不斷根據(jù)新的數(shù)據(jù)收集自動(dòng)優(yōu)化、調(diào)整告警閾值,徹底實(shí)現(xiàn)監(jiān)控自動(dòng)化。
●ManageEngine OpManager 是一款功能強(qiáng)大的網(wǎng)絡(luò)監(jiān)控工具,可通過AI技術(shù)自動(dòng)為您監(jiān)控中的設(shè)備性能配置閾值告警。不僅省去了管理員手動(dòng)設(shè)置的繁瑣,而且能夠自動(dòng)對不同時(shí)間段分配不同的告警觸發(fā)條件,加上不斷的機(jī)器學(xué)習(xí)與優(yōu)化,讓“異常”無所遁形。
免責(zé)聲明:市場有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: