當oracle rac出問題時,很多人往往不知道從何查起,我根據自己在生產上排查的經驗,說一下自己的排查思路。
一、查看系統時間是否同步
1、date
2、不同步的進行同步,在兩個節點上執行:
ntpdate -u 1.cn.pool.ntp.org
3、重啟有問題的節點
【時間不同步,斷電后數據庫啟動時crs啟動失敗導致asm啟動失敗,最后數據庫啟動失敗,asm日志信息報i/o錯誤、找不到磁盤組等,可能會誤導問題的定位,其實只是時間不同步導致的問題,找到問題的根源,重啟即可】
二、查看防火墻是否關閉
ping 私有ip,vip,如果不通,先按下面步驟操作:
1、 查看防火墻狀態:service iptables status
2、 如果防火墻是開的,就關閉:service iptables stop
3、 設置防火墻不要開機啟動:chkconfig iptables off
4、 檢查上一步是否設置成功:chkconfig --list iptables
關閉防火墻
重啟有問題節點數據庫即可。
三、查看歸檔日志空間情況
歸檔日志滿的話會導致數據庫異常,刪除過期日志可解決。
1、 進入grid 用戶,asmcmd,輸入lsdg查看磁盤情況,刪除前和刪除后做個對比,就知道騰出多少空間了:
su – grid
asmcmd
lsdg
2、 用rman來刪除,不要手動刪除
su – oracle
rman target /
crosscheck archivelog all;//檢查控制文件和實際物理文件的差別。
//刪除7天前日志
delete noprompt archivelog all completed before 'sysdate-7';
//將過期的日志刪除:
delete noprompt expired archivelog all;
delete noprompt obsolete【或者delete noprompt obsolete until time 'sysdate-7' ;
】
到這里,歸檔刪除完了
3、 查看騰出多少空間,如果騰出的空間還不夠,在ASM管理模式下手工刪除方法:【有雙實例的,每個實例都進去檢查一下是否有過期歸檔日志】
ASMCMD>cd archivelog
ASMCMD>ls
(ASMCMD>rm -f +data/zgdb/archivelog/2013_10_31/t* 刪除2013年10月31日的歸檔日志)
ASMCMD>rm –rf ./2016* 刪除所有2016年文件夾及文件夾下的歸檔日志文件
手動刪除日志
把歸檔日志物理文件刪除后,但是還沒完全把歸檔日志刪除干凈,需要檢驗同步。登錄rman,執行如命令:
su - oracle
rman target /
RMAN> crosscheck archivelog all;
RMAN>delete expired archivelog all;
【補充】
查詢每天的歸檔產生的情況:
SELECT TRUNC(FIRST_TIME) "TIME",SUM(BLOCK_SIZE * BLOCKS) / 1024 / 1024 / 1024 "SIZE(GB)"FROM V$ARCHIVED_LOG GROUP BY TRUNC(FIRST_TIME);
查詢每天的歸檔產生的情況
查詢最近7天每天歸檔產生情況,在上條sql中加過濾條件:
SELECT TRUNC(FIRST_TIME) "TIME",SUM(BLOCK_SIZE * BLOCKS) / 1024 / 1024 / 1024 "SIZE(GB)"FROM V$ARCHIVED_LOG GROUP BY TRUNC(FIRST_TIME) having TRUNC(FIRST_TIME) >= TRUNC(sysdate -7);
四、查看crs狀態及日志
1、使用系統命令查看相關進程
ps –ef | grep d.bin
2、使用oracle命令查看集群狀態
進入oracle 的bin目錄下:
cd /u01/App/11.2.0/grid/bin/
執行:
./crsctl stat res -t
或者,進入grid用戶,直接執行crsctl stat res -t
3、在每個節點上檢查crs狀態
[grid@rac1 ~]$ crsctl check cluster
節點1
節點2
crsctl check crs //只檢查本節點
4、crs日志路徑
Grid相關日志:
/u01/app/11.2.0/grid/log/node1
5、啟動某個節點crs【使用root用戶執行】
./crsctl start cluster -n db1 //-n后是節點名
五、查看asm狀態及日志
1、檢查 ASM狀態及配置
[oracle@rac1 ~]$ srvctl status asm
ASM is running on rac1,rac2
2、asm日志路徑
Asm相關日志路徑:
/u01/app/grid/diag/asm/+asm/+ASM1/trace
重要的日志文件:alert_+ASM1.log
3、查詢asm配置
srvctl config asm -a
4、啟動asm實例【最好在grid用戶下執行】
srvctl start asm -n db1 // -n后是節點名字
還有其他檢查,像檢查節點應用狀態及配置、查看數據庫配置、檢查scan ip、檢查 VIP的狀態及配置等,篇幅原因就先不再介紹了??梢躁P注我,如果以后遇到oracle rac故障需要排查,我們可以進行溝通交流。