Kube.NETes(K8s)非常火,但被人詬病最多的還是其復雜性,并且不管是在云中還是本地,都沒有很好的集群故障排除的方法。因此,盡管K8s的采用率持續增長,但許多開發人員和運維團隊對這項較新的技術感到吃力,為此必須學習新的術語、工作流程、工具等。
1、K8s難在哪里
K8s的分立部件需要廣泛的專業知識,即使只是在設置過程中。考慮到旋轉K8集群需要了解和配置從pods到服務的多個組件,更不用說etcd、API服務器、kubelet和kube-proxy等資源了。
然后是規劃、擴展和網絡建設。一個失誤可能很快轉化為無數的可擴展性、可靠性甚至安全性問題。
此外,生態系統本身也在不斷快速增長和演變。對于初學者來說,工具和附加組件可能很多,而且很難跟上。并不是每個開發者都專門接受過K8s技能的培訓。
我們不能忘記,這項技術有許多移動部件和復雜的相互作用,當發生故障時,進行故障排除可能既困難又耗時。診斷故障原因需要深入的技術知識和專業知識,而這些知識和專業技能往往存在于少數經驗豐富的工程師的頭腦中。
讓我們深入研究,探索有助于克服明顯技能差距問題的新的創新方法。
2、沒錯,ChatGPT能當此大任
Kubernetes很難有效地學習和使用,因為沒有一刀切的方法。K8s是高度可定制的,可以根據應用程序或基礎設施的具體需求以多種不同的方式進行配置。通常很難將您從文檔(而且有很多)和培訓中學到的東西應用到現有的環境中,因為團隊缺乏對其架構的上下文理解和可見性。
當前的體系結構是什么樣子的?哪些pod綁定到特定的命名空間?節點的運行狀況如何?詢問我們環境的基本問題需要在AWS控制臺、kubectl命令行、Terraform配置文件和監控工具之間進行上下文切換。
如果我們可以問ChatGPT這些問題呢?
讓我們看一個使用由ChatGPT提供支持的PromptOps來理解集群中所有部署的示例。PromptOps提供了一個免費的Kubernetes咨詢工具,用戶可以通過BASH腳本、文檔參考和其他有用資源的形式提出問題并獲得即時幫助。
通過提供來自不同來源的PromptOps基礎設施的碎片數據,如Confluence、Notion、Terraform配置文件等,我們希望PromptOps能夠快速聚合所有信息,并幫助可視化架構。我們沒有手動運行kubectl命令來檢查部署,而是在聊天中提示PromptOps來描述集群中存在的部署。
以下是PromptOps的回應:
PromptOps > I suggest running this script to answer your question.
PromptOps提供了一個要運行的腳本,并引用了一個包含集群信息的Notion頁面。在執行腳本時,PromptOps提供集群內部署的輸出。
PromptOps還提供了集群中所有部署的可視化圖,使學習更加容易。
PromptOps的響應簡化了Kubernetes基礎設施管理,使DevOps團隊中的每個人都能跟上當前架構的步伐并跟上變化。
通過自動化故障調查節省時間
讓我們看看生產問題的疑難解答,看看PromptOps如何幫助確定Kubernetes中故障的根本原因。Kubernetes度量和日志提供了從集群到容器的所有級別的關鍵見解。它們提供有關資源利用率、pod和節點狀態、集群自動縮放指標、網絡錯誤、容器運行時間等信息。
但所有這些指標的問題在于,它們并沒有立即發揮作用。日志流或度量圖表無法提供必要的上下文或方向。有一些工具可以提供幫助,但它們往往會使事情變得更加復雜,需要在整個技術堆棧中提取上下文,以查看真正發生了什么,或者在出現問題時誰做了什么。在CtrlStack,我們一直在結合PromptOps來分析因果圖、Kubernetes事件、指標和日志,以減少手動故障排除的挑戰。目標是通過使用PromptOps生成解釋原因的根本原因分析摘要,幫助DevOps團隊快速理解Kubernetes問題。在本例中,CtrlStack中的根本原因分析儀表板的因果圖被輸入到PromptOps中,以進行故障排除和解決,如下所述。
下面是一個根本原因分析面板的隨意圖形示例。
有了這個,我們提示PromptOps解釋這個圖。以下是PromptOps的回應:
PromptOps>以下是對圖形的解釋:
該圖顯示了Kubernetes pod中錯誤的根本原因。該錯誤是由pod映像中的更改引起的,這些更改類似于Kubernetes pod_error度量中的更改。該錯誤也類似于在kubernetes_ptime和kubernetes_pod_mem_usage度量中發現的拐點,以及node1中的拓撲變化。
該圖顯示了kubernetes_po_error更改的根本原因。有三個見解。首先是圖像發生了變化。第二個是在度量kubernetes_ptime和kubernetes_pod_mem_usage中發現了拐點。第三個是節點1的拓撲結構發生了變化。
PromptOps返回了正常運行時間和內存使用指標之間的信息相關性,以及相關的拓撲變化。這些見解包括檢查Kubernetes的更改事件、度量、資源使用情況和拓撲結構更改。基于這種自動事件調查,開發人員和操作員應該有足夠的上下文來快速確定解決問題的下一步措施。
3、將ChatGPT與Change AI相結合,縮小技能差距
根據提供的例子,很明顯,ChatGPT可以提供寶貴的幫助來縮小Kubernetes的技能差距。ChatGPT為DevOps團隊提供了快速的見解和清晰的解釋,以解決生產問題。這使初級運營商和初涉Kubernetes的開發人員能夠獨立學習技術并解決常見問題。
雖然ChatGPT的響應可以快速了解問題,但它需要特定于Kubernetes部署的不同問題的上下文信息。這就是Change AI的用武之地。Change AI平臺提供了因果圖,將資源容量、基礎設施變化、配置變化、指標歷史圖表和事件時間表聯系起來,以優化根本原因分析的路徑。
基于ChatGPT的Kubernetes學習方法有可能顯著提高DevOps的生產力,同時消除認知過載。通過將ChatGPT與Change AI相結合,團隊可以將他們的Kubernetes技能提高一倍,并獲得更好的可觀察性。
原文鏈接:https://thenewstack.io/overcoming-the-kubernetes-skills-gap-with-chatgpt-assistance/