Cube誕生背景
隨著云原生技術的推廣及落地,容器技術在企業生產環境中的使用比重越來越大。Kubernetes作為容器編排的事實標準,在企業服務中被大量采用。UCloud優刻得容器團隊在2018年推出了Kubernetes產品UK8S, 這款產品基于UCloud優刻得公有云環境實現,無縫集成了UCloud IaaS層計算、網絡及存儲的服務,使客戶能夠快速獲取到生產可用的Kubernetes集群,并擁有靈活控制集群的能力。
但在UK8S產品推廣及接入客戶過程中,UCloud優刻得容器團隊也陸續收到一些用戶反饋的問題:
>維護Kubernetes集群增加了額外的負擔;用戶除了管應用還需要后端資源,并未能實現以應用為中心的業務管理。
>Kubernetes體系較為復雜,學習曲線比較陡峭,需要客戶團隊有一定技術儲備;對于已經使用了容器但尚未嘗試Kubernetes的客戶也是如此,一方面需要了解Kubernetes的技術體系,另一方面需要修改應用架構適配Kubernetes。
>希望能有一款即開即用的容器產品,通過容器直接拉起應用,不需要等待虛擬機就緒再部署應用,縮短應用就緒等待時間。
為解決上述用戶問題,UCloud優刻得容器團隊開發了一款新的serverless容器產品Cube,目前正處在公測階段。除了降低用戶使用容器的門檻,該產品還具有以下特性:
1. 免運維:沒有維護資源負擔,不需要關心運行位置,以應用為中心,以容器鏡像為應用打包標準。
2. 按需付費:按照應用實際使用資源付費。
3. 自動擴縮容:基于海量資源,提供API,可按需拉起和關閉應用,自動調度資源。
4. 高可用:產品本身高可用,同時提供應用自愈能力。
技術選型
在實現Cube產品特性的過程中,容器團隊需要解決幾個技術問題:
1. 容器運行時的選型
公有云產品必然要考慮多租戶隔離問題。不同于UK8S產品以云主機為基礎構建的隔離性,Cube產品則直接在宿主物理機上運行容器。標準docker實現的容器并不能實現同臺宿主機上不同用戶不同容器之間的強隔離,因此Cube產品需要一款同時具備虛擬機強隔離性和容器快速啟動特點的容器運行時方案。
UCloud優刻得容器團隊注意到AWS開源了輕量級虛擬機firecracker,具有資源占用少、啟動速度快、易于維護等諸多優點,并已用于實際生產環境,非常符合Cube業務場景,因此最終采用了以firecracker輕量級虛擬機為基礎的容器運行時方案。從下面兩張圖可以看出,通過對云計算場景特別的精簡和優化, firecracker相對于目前主流的虛擬化組件qemu在啟動速度和內存消耗方面有明顯的優勢。
VMM啟動時間和內存占用對比
2. 容器管理服務
支持虛擬機容器運行時的容器管理服務也有多種開源方案,例如containerd/cri-o,kata-container和firecracker-containerd等。經過比較,容器團隊選擇了cri-o + firecracker-containerd的組合。這二者在功能上能夠滿足單機容器管理的需求,而且和其他選型相比,代碼架構更加清晰,調用鏈路簡單明了,便于后續根據產品需求定制和改造。
3. 容器調度服務
Kubernetes已經成為了容器調度的事實標準,具備豐富的功能和良好的可擴展性。因此容器團隊采用Kubernetes作為基本調度框架,并根據產品需求做相關改造,最終基本的服務架構如下所示:
優化改進
雖然采用開源方案可以加快開發進度,但為滿足產品需求仍需解決一些問題,主要包括以下幾個方面:
1. 容器鏡像
在標準的容器鏡像實現中,鏡像是通過分層結構存儲在宿主上的。當創建容器時,容器運行時會在鏡像層之上創建一個可寫層,并掛載在宿主上供容器實例使用。但Cube容器并不是直接在宿主上運行的,也不需要在宿主上掛載容器根目錄。因此容器團隊修改了cri-o中鏡像層的相關實現,直接將容器可寫層以塊設備的方式掛載到輕量級虛擬機中而非宿主上,減低了宿主對Cube容器的干擾。
另外,為了解決新鏡像拉取緩慢導致的容器實例啟動慢的問題,容器團隊提出了鏡像遠程掛載的解決方案。將容器鏡像以塊設備的形式存儲在緩存集群,當需要在此鏡像上生成容器實例時,先將容器鏡像通過遠程掛載的形式掛載到宿主上,然后容器運行時會在宿主上創建一層可寫層生成容器實例。同時后臺會將遠程鏡像同步到宿主本地,進一步加速讀取,降低集群風險。上述方法可使宿主上首次獲取鏡像的時間縮短至3s以下,并有進一步優化空間。目前這一功能以鏡像緩存的產品形式提供給用戶使用,并正在逐步整合到普通鏡像拉取過程中。
2. 使用公有云資源
網絡方面,Cube容器的網絡模型和云主機的基本相同。在將相關網絡功能以cni插件的形式實現之后,Cube容器就可以很好的接入到公有云vpc網絡中。
存儲方面,Cube容器目前支持了兩種類型的存儲:可以多點讀寫的網絡文件系統nfs和僅單點讀寫的云硬盤udisk。在文件存儲功能上,Cube產品實現了在輕量級虛擬機中自動掛載nfs的功能,用戶只需在配置文件中指定好掛載點和掛載參數,就能直接在容器中使用網絡文件系統,并可以同時支持vpc網絡內用戶自建的nfs和UCloud公有云產品ufs。在塊設備功能上,容器團隊擴展了firecracker塊設備的實現。通過添加對vhost-user協議的支持,Cube輕量級虛擬機可以直接對接到spdk服務,從而實現了對高性能的rssd型云硬盤掛載和使用。
3. 容器運行環境
為了減少額外資源消耗,容器團隊在容器管理服務和容器運行時上做了大量優化工作。
UCloud優刻得容器團隊修改了cri-o管理容器組的架構,采用了單pod對應單shim的模型。通過一個shim管理一個pod內全部容器,可以顯著的降低shim資源消耗,簡化容器管理。對于輕量級虛擬機,UCloud優刻得容器團隊也對kernel/rootfs/init進程等做了充分地精簡優化,只保留了最基本的功能,以加快啟動速度,減小安全攻擊面,降低資源消耗。另外,容器團隊還在輕量級虛擬機中內置了infra container的實現,Cube作為pod運行時可以不必掛載額外的infra容器。
4. k8s改造
Kubernetes作為一個通用的容器調度框架,能夠滿足大部分容器管理的需求。但針對Cube特定的使用場景,容器團隊仍需對k8s組件做一些改造。在控制面,容器團隊采用了自定義的調度器,可以更好的滿足多租戶場景下任務優先級,調度速度,資源管理的需求。在宿主節點上,鑒于Cube容器運行時的特點,UCloud優刻得容器團隊精簡了一些不需要kubelet實現的功能,例如在宿主上掛載configmap/volume目錄,運行cni插件,收集特定目錄日志等,增強了容器與宿主之間的隔離安全性。
Cube未來展望
在完成了上述開發改造后,Cube產品成功上線,并取得良好效果。后續Cube產品會繼續沿著幫助用戶提升效率、降低開銷、簡化維護、節約成本的思路持續迭代更新。在容器性能方面,UCloud優刻得容器團隊會繼續優化輕量級虛擬機IO路徑,減少虛擬化及管理組件的性能損耗,確保用戶容器實例穩定高效運行。在服務管理方面,Cube產品層面會推出多種的容器管理控制器,并實現Cube實例直接接入Kubernetes集群的能力,為用戶提供多層次的資源調度方式,方便用戶按實際需要管理維護。