三、監(jiān)控告警
監(jiān)控告警是上線后的風險治理必要機制,一旦出現(xiàn)告警,我們可以第一時間排查和解決,防止更多的客訴產(chǎn)生。
1. RPC 層監(jiān)控
? 超時監(jiān)控
? 異常報錯
? 可用率
2. CACHE 監(jiān)控
? redis 連接異常
? r2m 可用率
? r2m 容量
? r2m 主從切換
3. MQ 監(jiān)控
? MQ 接收重復
? MQ 發(fā)送失敗
? MQ 內(nèi)處理失敗
4. Task 監(jiān)控
? 定時任務未執(zhí)行
? 定時任務超時
? 定時任務執(zhí)行異常
5. 業(yè)務異常監(jiān)控
? 獲取鎖異常
? AKS 和防刷未通過異常
? 任務領(lǐng)獎 / 接取等異常
? 人群沒有權(quán)限
6. JVM 監(jiān)控
? fullGc 日志與告警
? jvm 監(jiān)控告警
7. 容器監(jiān)控
? 實例存活
? CPU 負載 & 使用率
? 機器內(nèi)存
8. DB 監(jiān)控
? DB 層 CRUD 執(zhí)行異常
? cleverBD 慢 SQL 定期巡查
? DB 查詢操作時間超長
? 線上環(huán)境(應用、數(shù)據(jù)庫、配置等)審批負責人是否為當前 leader
9. 利益點監(jiān)控
? 營銷發(fā)獎失敗
? 庫存不足
? 活動未開始 / 已結(jié)束
? 被風控
? 防重失敗
? 單個用戶領(lǐng)取利益數(shù)量超過配置的警戒線
? 活動整體發(fā)放量超過配置的警戒線
? 其他異常失敗
10. 業(yè)務響應碼監(jiān)控
? 第三方接口正常碼和異常碼配置來監(jiān)控可用率
11. 配置校驗
? 獲取配置異常
? 配置中該配應配字段未配置
? 配置中字段配置類型異常
? 沒有符合當前時間的配置
? 活動已結(jié)束但仍然有大量用戶訪問
? 多個配置的時間點沖突
? 配置的獎勵 Id / 任務 Id 等在第三方接口未查詢到
? 每次運營修改配置,修改項通過告警發(fā)送到研發(fā),對告警分等級
12. 活動資格校驗
? 繞開某個校驗告警
? 應是老用戶領(lǐng)獎但新用戶通過前置校驗進入領(lǐng)獎流程
作者:京東科技 胡駿
來源:京東云開發(fā)者社區(qū) 轉(zhuǎn)載請注明來源