這篇文章是關(guān)于使用 Kubectl 進行 Kube.NETes 診斷的指南。
列出了 100 個 Kubectl 命令,這些命令對于診斷 Kubernetes 集群中的問題非常有用。這些問題包括但不限于:
• 集群信息
• Pod 診斷
• 服務診斷
• 部署診斷
• 網(wǎng)絡診斷
• 持久卷和持久卷聲明診斷
• 資源使用情況
• 安全和授權(quán)
• 節(jié)點故障排除
• 其他診斷命令:文章還提到了許多其他命令,如資源擴展和自動擴展、作業(yè)和定時作業(yè)診斷、Pod 親和性和反親和性規(guī)則、RBAC 和安全、服務賬號診斷、節(jié)點排空和取消排空、資源清理等。
集群信息:
- 1. 顯示 Kubernetes 版本:kubectl version
- 2. 顯示集群信息:kubectl cluster-info
- 3. 列出集群中的所有節(jié)點:kubectl get nodes
- 4. 查看一個具體的節(jié)點詳情:kubectl describe node <node-name>
- 5. 列出所有命名空間:kubectl get namespaces
- 6. 列出所有命名空間中的所有 pod:kubectl get pods --all-namespaces
Pod 診斷:
- 1. 列出特定命名空間中的 pod:kubectl get pods -n <namespace>
- 2. 查看一個 Pod 詳情:kubectl describe pod <pod-name> -n <namespace>
- 3. 查看 Pod 日志:kubectl logs <pod-name> -n <namespace>
- 4. 尾部 Pod 日志:kubectl logs -f <pod-name> -n <namespace>
- 5. 在 pod 中執(zhí)行命令:kubectl exec -it <pod-name> -n <namespace> -- <command>
Pod 健康檢查:
- 1. 檢查 Pod 準備情況:kubectl get pods <pod-name> -n <namespace> -o jsonpath='{.status.conditions[?(@.type=="Ready")].status}'
- 2. 檢查 Pod 事件:kubectl get events -n <namespace> --field-selector involvedObject.name=<pod-name>
Service診斷:
- 1. 列出命名空間中的所有服務:kubectl get svc -n <namespace>
- 2. 查看一個服務詳情:kubectl describe svc <service-name> -n <namespace>
Deployment診斷:
- 1. 列出命名空間中的所有Deployment:kubectl get deployments -n <namespace>
- 2. 查看一個Deployment詳情:kubectl describe deployment <deployment-name> -n <namespace>
- 3. 查看滾動發(fā)布狀態(tài):kubectl rollout status deployment/<deployment-name> -n <namespace>
- 4. 查看滾動發(fā)布歷史記錄:kubectl rollout history deployment/<deployment-name> -n <namespace>
StatefulSet診斷:
- 1. 列出命名空間中的所有 StatefulSet:kubectl get statefulsets -n <namespace>
- 2. 查看一個 StatefulSet詳情:kubectl describe statefulset <statefulset-name> -n <namespace>
ConfigMap 和Secret診斷:
- 1. 列出命名空間中的 ConfigMap:kubectl get configmaps -n <namespace>
- 2. 查看一個ConfigMap詳情:kubectl describe configmap <configmap-name> -n <namespace>
- 3. 列出命名空間中的 Secret:kubectl get secrets -n <namespace>
- 4. 查看一個Secret詳情:kubectl describe secret <secret-name> -n <namespace>
命名空間診斷:
- 1. 查看一個命名空間詳情:kubectl describe namespace <namespace-name>
資源使用情況:
- 1. 檢查 pod 的資源使用情況:kubectl top pod <pod-name> -n <namespace>
- 2. 檢查節(jié)點資源使用情況:kubectl top nodes
網(wǎng)絡診斷:
- 1. 顯示命名空間中 Pod 的 IP 地址:kubectl get pods -n <namespace> -o custom-columns=POD:metadata.name,IP:status.podIP --no-headers
- 2. 列出命名空間中的所有網(wǎng)絡策略:kubectl get networkpolicies -n <namespace>
- 3. 查看一個網(wǎng)絡策略詳情:kubectl describe networkpolicy <network-policy-name> -n <namespace>
持久卷 (PV) 和持久卷聲明 (PVC) 診斷:
- 1. 列出PV:kubectl get pv
- 2. 查看一個PV詳情:kubectl describe pv <pv-name>
- 3. 列出命名空間中的 PVC:kubectl get pvc -n <namespace>
- 4. 查看PVC詳情:kubectl describe pvc <pvc-name> -n <namespace>
節(jié)點診斷:
- 1. 獲取特定節(jié)點上運行的 Pod 列表:kubectl get pods --field-selector spec.nodeName=<node-name> -n <namespace>
資源配額和限制:
- 1. 列出命名空間中的資源配額:kubectl get resourcequotas -n <namespace>
- 2. 查看一個資源配額詳情:kubectl describe resourcequota <resource-quota-name> -n <namespace>
自定義資源定義 (CRD) 診斷:
- 1. 列出命名空間中的自定義資源:kubectl get <custom-resource-name> -n <namespace>
- 2. 查看自定義資源詳情:kubectl describe <custom-resource-name> <custom-resource-instance-name> -n <namespace>
使用這些命令時,請記住將<namespace>, <pod-name>, <service-name>, <deployment-name>, <statefulset-name>, <configmap-name>, <secret-name>, <namespace-name>, <pv-name>, <pvc-name>, <node-name>, <network-policy-name>, <resource-quota-name>, <custom-resource-name>, 和替換為你的特定值。
<custom-resource-instance-name>這些命令應該可以幫助你診斷 Kubernetes 集群以及在其中運行的應用程序。
資源伸縮和自動伸縮
- 1. Deployment伸縮:kubectl scale deployment <deployment-name> --replicas=<replica-count> -n <namespace>
- 2. 設置Deployment的自動伸縮:kubectl autoscale deployment <deployment-name> --min=<min-pods> --max=<max-pods> --cpu-percent=<cpu-percent> -n <namespace>
- 3. 檢查水平伸縮器狀態(tài):kubectl get hpa -n <namespace>
作業(yè)和 CronJob 診斷:
- 1. 列出命名空間中的所有作業(yè):kubectl get jobs -n <namespace>
- 2. 查看一份工作詳情:kubectl describe job <job-name> -n <namespace>
- 3. 列出命名空間中的所有 cron 作業(yè):kubectl get cronjobs -n <namespace>
- 4. 查看一個 cron 作業(yè)詳情:kubectl describe cronjob <cronjob-name> -n <namespace>
容量診斷:
- 1. 列出按容量排序的持久卷 (PV):kubectl get pv --sort-by=.spec.capacity.storage
- 2. 查看PV回收策略:kubectl get pv <pv-name> -o=jsonpath='{.spec.persistentVolumeReclAImPolicy}'
- 3. 列出所有存儲類別:kubectl get storageclasses
Ingress和服務網(wǎng)格診斷:
- 1. 列出命名空間中的所有Ingress:kubectl get ingress -n <namespace>
- 2. 查看一個Ingress詳情:kubectl describe ingress <ingress-name> -n <namespace>
- 3. 列出命名空間中的所有 VirtualServices (Istio):kubectl get virtualservices -n <namespace>
- 4. 查看一個 VirtualService (Istio)詳情:kubectl describe virtualservice <virtualservice-name> -n <namespace>
Pod 網(wǎng)絡故障排除:
- 1. 運行網(wǎng)絡診斷 Pod(例如 busybox)進行調(diào)試:kubectl run -it --rm --restart=Never --image=busybox net-debug-pod -- /bin/sh
- 2. 測試從 Pod 到特定端點的連接:kubectl exec -it <pod-name> -n <namespace> -- curl <endpoint-url>
- 3. 跟蹤從一個 Pod 到另一個 Pod 的網(wǎng)絡路徑:kubectl exec -it <source-pod-name> -n <namespace> -- traceroute <destination-pod-ip>
- 4. 檢查 Pod 的 DNS 解析:kubectl exec -it <pod-name> -n <namespace> -- nslookup <domain-name>
配置和資源驗證:
- 1. 驗證 Kubernetes YAML 文件而不應用它:kubectl Apply --dry-run=client -f <yaml-file>
- 2. 驗證 pod 的安全上下文和功能:kubectl auth can-i list pods --as=system:serviceaccount:<namespace>:<serviceaccount-name>
RBAC 和安全性:
- 1. 列出命名空間中的角色和角色綁定:kubectl get roles,rolebindings -n <namespace>
- 2. 查看角色或角色綁定詳情:kubectl describe role <role-name> -n <namespace>
服務帳戶診斷:
- 1. 列出命名空間中的服務帳戶:kubectl get serviceaccounts -n <namespace>
- 2. 查看一個服務帳戶詳情:kubectl describe serviceaccount <serviceaccount-name> -n <namespace>
清空節(jié)點和解除封鎖:
- 1. 清空節(jié)點以進行維護:kubectl drain <node-name> --ignore-daemonsets
- 2. 解除對節(jié)點的封鎖:kubectl uncordon <node-name>
資源清理:
- 1. 強制刪除 pod(不推薦):kubectl delete pod <pod-name> -n <namespace> --grace-period=0 --force
Pod 親和性和反親和性:
- 1. 列出 pod 的 pod 親和性規(guī)則:kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity}'
- 2. 列出 pod 的 pod 反親和性規(guī)則:kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity.podAntiAffinity}'
Pod 安全策略 (PSP):
- 1. 列出所有 Pod 安全策略(如果啟用):kubectl get psp
事件:
- 1. 查看最近的集群事件:kubectl get events --sort-by=.metadata.creationTimestamp
- 2. 按特定命名空間過濾事件:kubectl get events -n <namespace>
節(jié)點故障排除:
- 1. 檢查節(jié)點情況:kubectl describe node <node-name> | grep Conditions -A5
- 2. 列出節(jié)點容量和可分配資源:kubectl describe node <node-name> | grep -E "Capacity|Allocatable"
臨時容器(Kubernetes 1.18+):
- 1. 運行臨時調(diào)試容器:kubectl debug -it <pod-name> -n <namespace> --image=<debug-image> -- /bin/sh
資源指標(需要指標服務器):
- 1. 獲取 Pod 的 CPU 和內(nèi)存使用情況:kubectl top pod -n <namespace>
kuelet診斷:
- 1. 查看節(jié)點上的kubelet日志:kubectl logs -n kube-system kubelet-<node-name>
使用Telepresence 進行高級調(diào)試:
- 1. 使用 Telepresence 調(diào)試 pod:telepresence --namespace <namespace> --swap-deployment <pod-name>
Kubeconfig 和上下文:
- 1. 列出可用的上下文:kubectl config get-contexts
- 2. 切換到不同的上下文:kubectl config use-context <context-name>
Pod 安全標準(PodSecurity 準入控制器):
- 1. 列出 PodSecurityPolicy (PSP) 違規(guī)行為:kubectl get psp -A | grep -vE 'NAME|REVIEWED'
Pod 中斷預算 (PDB) 診斷:
- 1. 列出命名空間中的所有 PDB:kubectl get pdb -n <namespace>
- 2. 查看一個PDB詳情:kubectl describe pdb <pdb-name> -n <namespace>
資源鎖診斷(如果使用資源鎖):
- 1. 列出命名空間中的資源鎖:kubectl get resourcelocks -n <namespace>
服務端點和 DNS:
- 1. 列出服務的服務端點:kubectl get endpoints <service-name> -n <namespace>
- 2. 檢查 Pod 中的 DNS 配置:kubectl exec -it <pod-name> -n <namespace> -- cat /etc/resolv.conf
自定義指標(Prometheus、Grafana):
- 1. 查詢Prometheus指標:用于kubectl port-forward訪問Prometheus和Grafana服務來查詢自定義指標。
Pod 優(yōu)先級和搶占:
- 1. 列出優(yōu)先級:kubectl get priorityclasses
Pod 開銷(Kubernetes 1.18+):
- 1. 列出 pod 中的開銷:kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.overhead}'
存儲卷快照診斷(如果使用存儲卷快照):
- 1. 列出存儲卷快照:kubectl get volumesnapshot -n <namespace>
- 2. 查看存儲卷快照詳情:kubectl describe volumesnapshot <snapshot-name> -n <namespace>
資源反序列化診斷:
- 1. 反序列化并打印 Kubernetes 資源:kubectl get <resource-type> <resource-name> -n <namespace> -o=json
節(jié)點污點:
- 1. 列出節(jié)點污點:kubectl describe node <node-name> | grep Taints
更改和驗證 Webhook 配置:
- 1. 列出變異 webhook 配置:kubectl get mutatingwebhookconfigurations
- 2. 列出驗證 Webhook 配置:kubectl get validatingwebhookconfigurations
Pod 網(wǎng)絡策略:
- 1. 列出命名空間中的 pod 網(wǎng)絡策略:kubectl get networkpolicies -n <namespace>
節(jié)點條件(Kubernetes 1.17+):
- 1. 自定義查詢輸出:kubectl get nodes -o custom-columns=NODE:.metadata.name,READY:.status.conditions[?(@.type=="Ready")].status -l 'node-role.kubernetes.io/worker='
審核日志:
- 1. 檢索審核日志(如果啟用):檢查 Kubernetes 審核日志配置以了解審核日志的位置。
節(jié)點操作系統(tǒng)詳細信息:
- 1. 獲取節(jié)點的操作系統(tǒng)信息:kubectl get node <node-name> -o jsonpath='{.status.nodeInfo.osImage}'
這些命令應該涵蓋 Kubernetes 中的各種診斷場景。確保將<namespace>、<pod-name>、<deployment-name>等占位符替換為你的集群和用例的實際值。