縱觀我們部署在基礎設施當中并始終保持運作的全部測量機制,監控系統無疑是重要性最高的機制之一,但它卻常常遭到我們的忽視。如果能夠建立起一套堅實的監控系統來針對可能發生的災難加以警示,我們就有機會迅速啟動災難響應方案或者著手排除復雜的性能故障,這對于任何規模的企業而言都極具巨大的實際價值。
有效的運行監測體系,最終離不開相關技術平臺的支撐,而我們需要了解監測技術平臺.
詳解十三款運維監控工具
一、開源工具介紹
- Zabbix
- NagIOS
- Ganglia
- Grafana
- Zenoss
- Open-falcon
- Cacti
- 天兔開源監控(只適用于MySQL、redis、oracle)
二、商用運維監控系統篇
- 監控寶
- 聽云
- 360網站服務監控
- 阿里云監控
- 百度云觀測
一、開源工具介紹
Zabbix
官方網站:https://www.zabbix.com/
推薦星級:★★★★★
Zabbix是一個基于WEB界面的提供分布式系統監控以及網絡監控功能的企業級開源運維平臺,也是目前國內互聯網用戶中使用最廣的監控軟件,云智慧遇到的85%以上用戶在使用Zabbix做監控解決方案。
入門容易、上手簡單、功能強大并且開源免費是云智慧對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較漂亮的數據圖,其自動發 現功能大大減輕日常管理的工作量,豐富的數據采集方式和API接口可以讓用戶靈活進行數據采集,而分布式系統架構可以支持監控更多的設備。理論上,通過 Zabbix提供的插件式架構,可以滿足企業的任何需求。
用戶群:90%以上中小型的泛互聯網企業
優點:
1. 支持多平臺的企業級分布式開源監控軟件
2. 安裝部署簡單,多種數據采集插件靈活集成
3. 功能強大,可實現復雜多條件告警,
4. 自帶畫圖功能,得到的數據可以繪成圖形5. 提供多種API接口,支持調用腳本6. 出現問題時可自動遠程執行命令(需對agent設置執行權限)
缺點:
1. 項目批量修改不方便2. 入門容易,能實現基礎的監控,但是深層次需求需要非常熟悉Zabbix并進行大量的二次定制開發,難度較大;3. 系統級別報警設置相對比較多,如果不篩選的話報警郵件會很多;并且自定義的項目報警需要自己設置,過程比較繁瑣(但是網上的模板比較,也可以使用模板導入的方法);4. 缺少數據匯總功能,如無法查看一組服務器平均值,需進行二次開發;5. 數據報表需要特殊二次開發定義;
Nagios
官方網站:https://www.nagios.org/
推薦星級:★★★★☆
Nagios是一款開源的企業級監控系統,能夠實現對系統CPU、磁盤、網絡等方面參數的基本系統監控,以及 SMTP,POP3,HTTP,NNTP等各種基本的服務類型。另外通過安裝插件和編寫監控腳本,用戶可以實現應用監控,并針對大量的監控主機和多個對象 部署層次化監控架構。
![image_1bnnjd8s59gg1pr71q97nmplr3m.png-129.1kB][2]
Nagios最大的特點是其強大的管理中心,盡管其功能是監控服務和主機的,但Nagios自身并不包括這部分功能代碼,所有的監控、告警功能都是由相關插件完成的。
用戶群:適合復雜IT環境的企業
優點:
1. 出錯的服務器、應用和設備會自動重啟,自動日志滾動
2. 配置靈活,可以自定義shell腳本,通過分布式監控模式
3. 支持以冗余方式進行主機監控,報警設置多樣
4. 命令重新加載配置文件無需打擾Nagios的運行
缺點:
1. 事件控制臺功能很弱,插件易用性差
2. 對性能、流量等指標的處理不給力
3. 看不到歷史數據,只能看到報警事件,很難追查故障原因
4. 配置復雜,初學者投入的時間、精力和成本比較大
Ganglia
官方網站:http://ganglia.info/
推薦星級:★★★★☆
Ganglia是加州大學伯克利分校發起的一個開源集群監控項目,設計之初是用于監控數以千計的網絡節點。Ganglia是一個跨平臺可擴展的,高性能計算系統下的分布式監控系統。它已被廣泛移植到各種操作系統和處理器架構上。
![image_1bnnji6etu471k52m9he72ld513.png-726.2kB][3]
用戶群:適用于大型服務器集群用戶。
優點:
1. 適合監控系統性能,通過曲線很容易見到每個節點的工作狀態
2. 可以自定義監控項,監控展示有表格和圖像兩種,支持手機版
3. 部署方便,通過不同的分層管理上萬臺機器,無需逐個添加配置
缺點:
1. 沒有內置的消息通知系統
2. 沒有報警機制,出現問題不能夠及時報警
Grafana
推薦星級:★★☆☆☆
官方網站:http://grafana.org/
Grafana可以用在任何需要數據可視化的地方,如果有一天老板需要你做一份漂亮的業務數據圖表,你無需頭疼用什么繪圖庫去開發,你要做的僅僅是將業務數據稍作加工存入Grafana支持的DataSource,點幾下鼠標即可配制出一份完美的數據圖表。
因為這款工具只可以繪圖,我們可以通過influxdb監控,Prometheus采集的主機信息!
Zenoss
推薦星級:★★★★☆
Zenoss Core是Zenoss的開源版本,其商用版本為ZenossEnterprise。作為企業級智能監控軟件,Zenoss Core允許IT管理員依靠單一的WEB控制臺來監控網絡架構的狀態和健康度。Zenoss Core的強大能力來自于深入的列表與配置管理數據庫,以發現和管理公司IT環境的各類資產。Zenoss同時提供與CMDB關聯的事件和錯誤管理系統, 以協助提高各類事件和提醒的管理效率。
優點:
1. Zenoss比較出色的地方在于它的Dashboard,可以配置很多portlet
2. 每個用戶的界面都是分開管理的,自定義dashboard不會影響其他用戶
3. 強大監控功能支持服務器、路由交換、防火墻、存儲、數據庫、中間件監控
4. 采用基于HBASE的opentsdb存儲任意時間段的數據
5. 將狀態監控,性能監控,資源管理,良好的報告機制進行有機的整合
缺點:
1. 對資源要求較高,即使只管理少數幾臺設備,也需要消耗大量硬件及內存等附加資源。2. 針對windows系統,開源版只提供SNMP,通過WMI檢測CPU,Disk,軟硬件和性能只在收費版提供。
Open-falcon
推薦星級:★★★☆☆
Open-falcon是小米運維團隊從互聯網公司的需求出發,根據多年的運維經驗,結合SRE、SA、DEVS的使用經驗和反饋,開發的一套面向互聯網的企業級開源監控產品。
Open-falcon架構
用戶群:目前有幾十家企業用戶不同程度使用。
優點:
1. 自動發現,支持falcon-agent、snmp、支持用戶主動push、用戶自定義插件支持
2. 支持每個周期上億次的數據采集、告警判定、歷史數據存儲和查詢
3. 高效的portal、支持策略模板、模板繼承和覆蓋、多種告警方式、支持callback調用
4. 單機支撐200萬metric的上報、歸檔、存儲
5. 采用rrdtool的數據歸檔策略,秒級返回上百個metric一年的歷史數據
6. 多維度的數據展示,用戶自定義Screen
7. 通過各種插件目前支持linux、Windows、Mysql、Redis、Memache、RabbitMQ和交換機監控。
缺點:
由于發布時間較短,很多基礎的服務監控插件(如Tomcat、Apache等)還不支持,很多功能還在不斷完善中,另外由于缺少專門的支持,雖然有開放社區,但是解決問題的效率相對較低。
Cacti
推薦星級:★★★☆☆
官方網站:http://www.cacti.net
提示: 近幾年cacti和nagios已經基本被zabbix代替
Cacti 在英文中的意思是仙人掌的意思,Cacti是一套基于php、MySQL、SNMP及RRDTool開發的網絡流量監測圖形分析工具。它通過snmpget來獲取數據,使用 RRDtool繪畫圖形,它的界面非常漂亮,能讓你根本無需明白rrdtool的參數能輕易的繪出漂亮的圖形。而且你完全可以不需要了解RRDtool復雜的參數。它提供了非常強大的數據和用戶管理功能,可以指定每一個用戶能查看樹狀結 構、host以及任何一張圖,還可以與LDAP結合進行用戶驗證,同時也能自己增加模板,讓你添加自己的snmp_query和script!功能非常強大完善,界面友好。可以說,Cacti將rrdtool的所有“缺點”都補足了!下圖是Cacti運行的主界面,
Cacti 工作流程
步驟一,snmp協議收集遠程服務器的數據
步驟二,將snmp收集的數據內容保存到rrd數據庫中
步驟三,若用戶查看某臺設備上的流量或其它狀態信息 步驟四,在mysql數據庫中查找該設備對應的rra數據庫文件的名稱
步驟五,通過rrdtool命令進行繪圖即可提示:cacti的圖確實不好找,只能官網截一個
還有很多不出門的監控工具,這里就不在介紹了。
天兔開源監控(只適用于mysql、redis、oracle)
推薦星級:★★☆☆☆
官方網站:http://www.lepus.cc/
簡潔、直觀、強大的開源數據庫監控系統,MySQL/Oracle/MongoDB/Redis一站式性能監控,讓數據庫監控更簡單
優點: 中文開源軟件,里面監控mysql和redis可以精確到sql語句
缺點: 因為只有監控數據庫和非關系數據庫,監控項不能統一,不能結合其他監控平臺
二、商用運維監控系統篇
監控寶
推薦星級:★★★★★
官方網站:http://www.jiankongbao.com
監控寶是云智慧為用戶提供IT性能監控(IT Performance Monitoring)的SaaS產品,包含網站監控、服務器監控、中間件監控、數據庫監控、應用監控、API監控和頁面性能監控等功能。包含免費版、暢 享版和企業版,目前用戶約40萬,監控寶App也是國內唯一提供移動監控服務的產品。
我個人網站也在使用
免費的監控有限,但是報警確實不錯
報警也是相當快的,有短信有郵件
優點:
作為國內最早提供基于SaaS服務的網絡監控平臺,監控寶不但為初級用戶提供免費的標準服務,企業用戶還可以按需購買所需的監控、告警資源,最大限度的節省企業運維成本;
監控寶通過遍布全球的300多個分布式監測節點,對網絡進行穩定性和可用性的主動監控和實時分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多種協議,測量CDN效果及DNS狀態,全網全地域性能趨勢分析。
優點太多了,反正花錢的就是好的
缺點:
除了花錢,沒有不好的地方
聽云
推薦星級:★★★★★
官方網站:http://www.tingyun.com
聽云是幫助客戶實時監控定位從崩潰報錯、慢交互到網絡環境出錯等多維度復雜的性能問題。聽云致力于用戶視角的IT管理創新服務,為不同行業提供最終用戶端到端的完整應用鏈的性能管理解決方案,幫助客戶不斷優化系統性能及用戶體驗,提高用戶滿意度和企業競爭力。
360網站服務監控
推薦星級:★★☆☆☆
360網站服務監控是一款面向廣大站長的網站監控產品,提供免費的網站、服務器監控。
http://jk.cloud.360.cn/
用戶群:個人站長
優點:
服務免費,支持網站HTTP監控、PING監控、域名DNS監控和服務器監控
提供網站訪問全景數據和簡單配置信息
缺點:
只支持簡單的網站和服務器監控,歷史數據保留15天,且免費監控點數量僅為四個
最后一次產品更新是2014年9月,目前已停止更新和運營支持
價格也不是很便宜
阿里云監控
官方網站:https://aliyun.com
推薦星級:★★★★☆
阿里云監控是一款免費網站監控產品,可監控站點和服務器,并提供多種告警方式:短信,旺旺,郵件。
用戶群:阿里云用戶
優點:
與阿里云服務捆綁緊密,允許用戶自定義數據監控
阿里云多IDC間內網數據傳輸,不占用客戶公網資源
支持對業務數據的通用統計,從各個角度反應服務的運行情況
缺點:
所有服務基于阿里云,功能單一,擴展性差
功能不夠強大,只能滿足基礎監控需求
百度云觀測
推薦星級:★★☆☆☆
官方網站:http://ce.baidu.com/
百度云觀測是百度推出的一款云服務產品,類似于360云監控、阿里云監控,主要是為站長提供免費的一站式網站監測、預警服務,功能覆蓋網站運行狀況、安全和訪問速度等多個方面。
用戶群:個人站長
優點:
對于用戶每日訪問的站點進行安全檢測
國內各大城市云節點覆蓋,支持CDN、DNS狀態和主機監控
缺點:
需要進行網站認證
監控點少,功能簡單,只能監測網站狀態,不支持服務器、應用監控。
作者:新聞聯播老司機來源:i4t