原創:小姐姐味道(微信公眾號ID:xjjdog),歡迎分享,轉載請保留出處。
在JAVA界,netty無疑是開發網絡應用的拿手菜。你不需要太多關注復雜的nio模型和底層網絡的細節,使用其豐富的接口,可以很容易的實現復雜的通訊功能。
和golang的網絡模塊相比,netty還是太過臃腫。不過java類框架就是這樣,屬于那種離了IDE就無法存活的編碼語言。
最新的netty版本將模塊分的非常細,如果不清楚每個模塊都有什么內容,直接使用netty-all即可。
單純從使用方面來說,netty是非常簡單的,掌握ByteBuf、Channel、Pipeline、Event模型等,就可以進行開發了。你會發現面試netty相關知識,沒得聊。但Netty與其他開發模式很大不同,最主要的就是其異步化。異步化造成的后果就是編程模型的不同,同時有調試上的困難,對編碼的要求比較高,因為bug的代價與業務代碼的bug代價不可同日而語。
但從項目來說,麻雀雖小五臟俱全,從業務層到服務網關,以及各種技術保障,包括監控和配置,都是需要考慮的因素。netty本身占比很小。
本文將說明使用netty開發,都關注哪些通用的內容,然后附上單機支持100w連接的linux配置。本文并不關注netty的基礎知識。
協議開發
網絡開發中最重要的就是其通訊格式,協議。我們常見的protobuf、json、avro、mqtt等,都屬于此列。協議有語法、語義、時序三個要素。
我見過很多中間件應用,采用的是redis協議,而后端落地的卻是MySQL;也見過更多的采用mysql協議實現的各種自定義存儲系統,比如proxy端的分庫分表中間件、tidb等。
我們常用的redis,使用的是文本協議;mysql等實現的是二進制協議。放在netty中也是一樣,實現一套codec即可(繼承Decoder或Encoder系列)。netty默認實現了DNS、haproxy、http、http2、memcache、mqtt、redis、smtp、socks、stomp、xml等協議,可以說是很全了,直接拿來用很爽。
一個可能的產品結構會是這樣的,對外提供一致的外觀,核心存儲卻不同:
文本協議在調試起來是比較直觀和容易的,但安全性欠佳;而二進制協議就需要依賴日志、wireshark等其他方式進行分析,增加了開發難度。傳說中的粘包拆包,就在這里處理。而造成粘包的原因,主要是由于緩沖區的介入,所以需要約定雙方的傳輸概要等信息,netty在一定程度上解決了這個問題。
每一個想要開發網絡應用的同學,心里都埋了一顆重新設計協議的夢想種子。但協議的設計可以說是非常困難了,要深耕相應業務,還要考慮其擴展性。如沒有特別的必要,建議使用現有的協議。
連接管理功能
做Netty開發,連接管理功能是非常重要的。通信質量、系統狀態,以及一些黑科技功能,都是依賴連接管理功能。
無論是作為服務端還是客戶端,netty在創建連接之后,都會得到一個叫做Channel的對象。我們所要做的,就是對它的管理,我習慣給它起名叫做ConnectionManager。
管理類會通過緩存一些內存對象,用來統計運行中的數據。比如面向連接的功能:包發送、接收數量;包發送、接收速率;錯誤計數;連接重連次數;調用延遲;連接狀態等。這會頻繁用到java中concurrent包的相關類,往往也是bug集中地。
但我們還需要更多,管理類會給予每個連接更多的功能。比如,連接創建后,想要預熱一些功能,那這些狀態就可以參與路由的決策。通常情況下,將用戶或其他元信息也attach到連接上,能夠多維度的根據條件篩選一些連接,進行批量操作,比如灰度、過載保護等,是一個非常重要的功能。
管理后臺可以看到每個連接的信息,篩選到一個或多個連接后,能夠開啟對這些連接的流量錄制、信息監控、斷點調試,你能體驗到掌控一切的感覺。
管理功能還能夠看到系統的整個運行狀態,及時調整負載均衡策略;同時對擴容、縮容提供數據依據。
心跳檢測
應用協議層的心跳是必須的,它和tcp keepalive是完全不同的概念。
應用層協議層的心跳檢測的是連接雙方的存活性,兼而連接質量,而keepalive檢測的是連接本身的存活性。而且后者的超時時間默認過長,完全不能適應現代的網絡環境。
心跳就是靠輪訓,無論是服務端,還是客戶端比如GCM等。保活機制會在不同的應用場景進行動態的切換,比如程序喚起和在后臺,輪訓的策略是不一樣的。
Netty內置通過增加IdleStateHandler產生IDLE事件進行便捷的心跳控制。你要處理的,就是心跳超時的邏輯,比如延遲重連。但它的輪訓時間是固定的,無法動態修改,高級功能需要自己定制。
在一些客戶端比如Android,頻繁心跳的喚起會浪費大量的網絡和電量,它的心跳策略會更加復雜一些。
邊界
優雅退出機制
Java的優雅停機通常通過注冊JDK ShutdownHook來實現。
Runtime.getRuntime().addShutdownHook();
一般通過kill -15進行java進程的關閉,以便在進程死亡之前進行一些清理工作。
注意:kill -9 會立馬殺死進程,不給遺言的機會,比較危險。
雖然netty做了很多優雅退出的工作,通過EventLoopGroup的shutdownGracefully方法對nio進行了一些狀態設置,但在很多情況下,這還不夠多。它只負責單機環境的優雅關閉。
流量可能還會通過外層的路由持續進入,造成無效請求。我的通常做法是首先在外層路由進行一次本地實例的摘除,把流量截斷,然后再進行netty本身的優雅關閉。這種設計非常簡單,即使沒有重試機制也會運行的很好,前提是在路由層需要提前暴露相關接口。
異常處理功能
netty由于其異步化的開發方式,以及其事件機制,在異常處理方面就顯得異常重要。為了保證連接的高可靠性,許多異常需要靜悄悄的忽略,或者在用戶態沒有感知。
netty的異常會通過pipeline進行傳播,所以在任何一層進行處理都是可行的,但編程習慣上,習慣性拋到最外層集中處理。
為了最大限度的區別異常信息,通常會定義大量的異常類,不同的錯誤會拋出不同的異常。發生異常后,可以根據不同的類型選擇斷線重連(比如一些二進制協議的編解碼紊亂問題),或者調度到其他節點。
功能限制
指令模式
網絡應用就該干網絡應用的事,任何通訊都是昂貴的。在
《Linux之《荒島余生》(五)網絡篇》
中,我們談到百萬連接的服務器,廣播一個1kb消息,就需要1000M的帶寬,所以并不是什么都可以放在網絡應用里的。
一個大型網絡應用的合理的思路就是值發送相關指令。客戶端在收到指令以后,通過其他方式,比如http,進行大型文件到獲取。很多IM的設計思路就是如此。
指令模式還會讓通訊系統的擴展性和穩定性得到保證。增加指令可以是配置式的,立即生效,服務端不需要編碼重啟。
穩定性保證
網絡應用的流量一般都是非常大的,并不適合全量日志的開啟。應用應該只關注主要事件的日志,關注異常情況下的處理流程,日志要打印有度。
網絡應用也不適合調用其他緩慢的api,或者任何阻塞I/O的接口。一些實時的事件,也不應該通過調用接口吐出數據,可以走高速mq等其他異步通道。
緩存可能是網絡應用里用的最多的組件。jvm內緩存可以存儲一些單機的統計數據,redis等存儲一些全局性的統計和中間態數據。
網絡應用中會大量使用redis、kv、高吞吐的mq,用來快速響應用戶請求。總之,盡量保持通訊層的清爽,你會省去很多憂慮。
單機支持100萬連接的Linux配置
單機支持100萬連接是可行的,但帶寬問題會成為顯著的瓶頸。啟用壓縮的二進制協議會節省部分帶寬,但開發難度增加。
和
《LWP進程資源耗盡,Resource temporarily unavailable》
中提到的ES配置一樣,優化都有類似的思路。這份配置,可以節省你幾天的時間,請收下!
操作系統優化
更改進程最大文件句柄數
ulimit -n 1048576
修改單個進程可分配的最大文件數
echo 2097152 > /proc/sys/fs/nr_open
修改/etc/security/limits.conf文件
* soft nofile 1048576 * hard nofile 1048576 * soft nproc unlimited root soft nproc unlimited
記得清理掉/etc/security/limits.d/*下的配置
網絡優化
打開/etc/sysctl.conf,添加配置
然后執行,使用sysctl生效
#單個進程可分配的最大文件數 fs.nr_open=2097152 #系統最大文件句柄數 fs.file-max = 1048576 #backlog 設置 net.core.somaxconn=32768 net.ipv4.tcp_max_syn_backlog=16384 net.core.netdev_max_backlog=16384 #可用知名端口范圍配置 net.ipv4.ip_local_port_range='1000 65535' #TCP Socket 讀寫 Buffer 設置 net.core.rmem_default=262144 net.core.wmem_default=262144 net.core.rmem_max=16777216 net.core.wmem_max=16777216 net.core.optmem_max=16777216 net.ipv4.tcp_rmem='1024 4096 16777216' net.ipv4.tcp_wmem='1024 4096 16777216' #TCP 連接追蹤設置 net.nf_conntrack_max=1000000 net.netfilter.nf_conntrack_max=1000000 net.netfilter.nf_conntrack_tcp_timeout_time_wait=30 #TIME-WAIT Socket 最大數量、回收與重用設置 net.ipv4.tcp_max_tw_buckets=1048576 # FIN-WAIT-2 Socket 超時設置 net.ipv4.tcp_fin_timeout = 15
總結
netty的開發工作并不集中在netty本身,更多體現在保證服務的高可靠性和穩定性上。同時有大量的工作集中在監控和調試,減少bug修復的成本。
深入了解netty是在系統遇到疑難問題時能夠深入挖掘進行排查,或者對苛刻的性能進行提升。但對于廣大應用開發者來說,netty的上手成本小,死挖底層并不會產生太多收益。
它只是個工具,你還能讓它怎樣啊。
作者簡介:**小姐姐味道** (xjjdog),一個不允許程序員走彎路的公眾號。聚焦基礎架構和Linux。十年架構,日百億流量,與你探討高并發世界,給你不一樣的味道。我的個人微信xjjdog0,歡迎添加好友,?進一步交流。?