作者 | THE STACK
譯者 | 劉雅夢
策劃 | Tina
根據 CAST AI 對 4000 個 Kube.NETes 集群的分析,Kubernetes 集群通常只使用 13% 的 CPU 和平均 20% 的內存,這表明存在嚴重的過度配置。
在分析了 2023 年 1 月至 12 月期間在 AWS、Azure 和 GCP 管理的 Kubernetes 服務上運行的客戶后,該公司在今天的一份報告中指出,優化可以為首席信息官們(CIO)節省一大筆錢。
(Gartner 預測,2024 年公有云服務的支出將達到 6780 億美元,而 FinOps 的議程將繼續上升,因此避免在云服務上超支是許多首席信息官(CIO)和首席技術官(CTO)的首要任務。通過 Kubernetes 優化可以節省大量成本。例如,人工智能公司 Anthropic 去年使用 Karpenter 將其 AWS 賬單削減了 40%。)
另見:人工智能公司 Anthropic 通過使用 Karpenter 將其 AWS 賬單削減了 40%。
對 CAST AI 聯合創始人兼首席人才官(CPO)Laurent Gil 來說,調查結果表明,公司仍在“努力應對手動管理云原生基礎設施的復雜性”——該公司的報告指出,在 Kubernetes 上,工作負載的大小是根據為 CPU 和內存設置的請求和限制來確定的:“優化它們就像走鋼絲。”
“過度配置 CPU 和內存可以保持正常運行,但成本很高。”
“資源調配不足可能會導致 CPU 限制和內存不足,從而導致應用程序性能不佳甚至崩潰。當團隊不完全了解其容器資源需求時,他們通常會謹慎行事,調配比所需更多的 CPU 和內存。”
“這就是自動化調整工作負載的用武之地。”他說到。(提供 Kubernetes 成本優化平臺的 CAST AI 聲稱,開源替代方案為本已經很復雜的編排層增加了更多的配置復雜性,而其商業替代方案的即插即用功能是更簡單的削減云支出的替代方案。)
另見:PlayStation 希望讓游戲服務器在 Kubernetes 上運行。原因如下。
該報告的調查結果是基于 CAST AI 對 2023 年 1 月 1 日至 12 月 31 日期間在亞馬遜網絡服務(AWS)、谷歌云平臺(GCP)和微軟 Azure(Azure)上運行的 4000 個集群的分析,之后這些集群由該公司的自動化平臺進行優化。
它進一步指出,對于包含 1000 到 30000 個 CPU 的大型集群,組織平均僅使用 17% 的預配 CPU。
簡而言之,報告總結道,造成浪費的最大因素是:
- 過度配置:分配給應用程序或系統的計算資源超過了其所需的數量。
- 豪無根據的余量:對 CPU 數量的請求設置得太高。
- Spot 實例使用率低:由于擔心不穩定,許多公司不愿意使用 Spot 實例。
- GKE 上“自定義實例大小”的使用率較低:除非自定義實例的選擇是動態且自動化的,否則很難選擇最佳的 CPU 和內存比率。完整的報告 在這里。
原文鏈接:
https://www.thestack.technology/kubernetes-clusters-are-typically-using-just-13-of-cpu-cIOS-could-save-a-fortune/