本文筆者來為大家介紹?.NETty的核心引擎Reactor的運轉架構,希望通過本文的介紹能夠讓大家對Reactor是如何驅動著整個Netty框架的運轉有一個全面的認識。也為我們后續進一步介紹Netty關于處理網絡請求的整個生命周期的相關內容做一個前置知識的鋪墊,方便大家后續理解。
那么在開始本文正式的內容之前,筆者先來帶著大家回顧下前邊文章介紹的關于Netty整個框架如何搭建的相關內容,沒有看過筆者前邊幾篇文章的讀者朋友也沒關系,這些并不會影響到本文的閱讀,只不過涉及到相關細節的部分,大家可以在回看下。
前文回顧
在《聊聊Netty那些事兒之Reactor在Netty中的實現(創建篇)》一文中,我們介紹了Netty服務端的核心引擎主從Reactor線程組的創建過程以及相關核心組件里的重要屬性。在這個過程中,我們還提到了Netty對各種細節進行的優化,比如針對JDK NIO 原生Selector做的一些優化,展現了Netty對性能極致的追求。最終我們創建出了如下結構的Reactor。
在上篇文章《詳細圖解Netty Reactor啟動全流程》中,我們完整地介紹了Netty服務端啟動的整個流程,并介紹了在啟動過程中涉及到的ServerBootstrap相關的屬性以及配置方式。用于接收連接的服務端NIOServerSocketChannel的創建和初始化過程以及其類的繼承結構。其中重點介紹了NioServerSocketChannel向Reactor的注冊過程以及Reactor線程的啟動時機和pipeline的初始化時機。最后介紹了NioServerSocketChannel綁定端口地址的整個流程。在這個過程中我們了解了Netty的這些核心組件是如何串聯起來的。
當Netty啟動完畢后,我們得到了如下的框架結構:
主Reactor線程組中管理的是NioServerSocketChannel用于接收客戶端連接,并在自己的pipeline中的ServerBootstrapAcceptor里初始化接收到的客戶端連接,隨后會將初始化好的客戶端連接注冊到從Reactor線程組中。
從Reactor線程組主要負責監聽處理注冊其上的所有客戶端連接的IO就緒事件。
其中一個Channel只能分配給一個固定的Reactor。一個Reactor負責處理多個Channel上的IO就緒事件,這樣可以將服務端承載的全量客戶端連接分攤到多個Reactor中處理,同時也能保證Channel上IO處理的線程安全性。Reactor與Channel之間的對應關系如下圖所示:
以上內容就是對筆者前邊幾篇文章的相關內容回顧,大家能回憶起來更好,回憶不起來也沒關系,一點也不影響大家理解本文的內容。如果對相關細節感興趣的同學,可以在閱讀完本文之后,在去回看下。
我們言歸正傳,正式開始本文的內容,筆者接下來會為大家介紹這些核心組件是如何相互配合從而驅動著整個Netty Reactor框架運轉的。
當Netty Reactor框架啟動完畢后,接下來第一件事情也是最重要的事情就是如何來高效的接收客戶端的連接。
那么在探討Netty服務端如何接收連接之前,我們需要弄清楚Reactor線程的運行機制,它是如何監聽并處理Channel上的IO就緒事件的。
本文相當于是后續我們介紹Reactor線程監聽處理ACCEPT事件,Read事件,Write事件的前置篇,本文專注于講述Reactor線程的整個運行框架。理解了本文的內容,對理解后面Reactor線程如何處理IO事件會大有幫助。
我們在Netty框架的創建階段和啟動階段無數次的提到了Reactor線程,那么在本文要介紹的運行階段就該這個Reactor線程來大顯神威了。
經過前邊文章的介紹,我們了解到Netty中的Reactor線程主要干三件事情:
- 輪詢注冊在Reactor上的所有Channel感興趣的IO就緒事件。
- 處理Channel上的IO就緒事件。
- 執行Netty中的異步任務。
正是這三個部分組成了Reactor的運行框架,那么我們現在來看下這個運行框架具體是怎么運轉的~~
Reactor線程的整個運行框架
大家還記不記得筆者在《聊聊Netty那些事兒之從內核角度看IO模型》一文中提到的,IO模型的演變是圍繞著"如何用盡可能少的線程去管理盡可能多的連接"這一主題進行的。
Netty的IO模型是通過JDK NIO Selector實現的IO多路復用模型,而Netty的IO線程模型為主從Reactor線程模型。
根據《聊聊Netty那些事兒之從內核角度看IO模型》一文中介紹的IO多路復用模型我們很容易就能理解到Netty會使用一個用戶態的Reactor線程去不斷的通過Selector在內核態去輪訓Channel上的IO就緒事件。
說白了Reactor線程其實執行的就是一個死循環,在死循環中不斷的通過Selector去輪訓IO就緒事件,如果發生IO就緒事件則從Selector系統調用中返回并處理IO就緒事件,如果沒有發生IO就緒事件則一直阻塞在Selector系統調用上,直到滿足Selector喚醒條件。
以下三個條件中只要滿足任意一個條件,Reactor線程就會被從Selector上喚醒:
- 當Selector輪詢到有IO活躍事件發生時。
- 當Reactor線程需要執行的定時任務到達任務執行時間deadline時。
- 當有異步任務提交給Reactor時,Reactor線程需要從Selector上被喚醒,這樣才能及時的去執行異步任務。
這里可以看出Netty對Reactor線程的壓榨還是比較狠的,反正現在也沒有IO就緒事件需要去處理,不能讓Reactor線程在這里白白等著,要立即喚醒它,轉去處理提交過來的異步任務以及定時任務。Reactor線程堪稱996典范一刻不停歇地運作著。
在了解了Reactor線程的大概運行框架后,我們接下來就到源碼中去看下它的核心運轉框架是如何實現出來的。
由于這塊源碼比較龐大繁雜,所以筆者先把它的運行框架提取出來,方便大家整體的理解整個運行過程的全貌。
上圖所展示的就是Reactor整個工作體系的全貌,主要分為如下幾個重要的工作模塊:
- Reactor線程在Selector上阻塞獲取IO就緒事件。在這個模塊中首先會去檢查當前是否有異步任務需要執行,如果有異步需要執行,那么不管當前有沒有IO就緒事件都不能阻塞在Selector上,隨后會去非阻塞的輪詢一下Selector上是否有IO就緒事件,如果有,正好可以和異步任務一起執行。優先處理IO就緒事件,在執行異步任務。
- 如果當前沒有異步任務需要執行,那么Reactor線程會接著查看是否有定時任務需要執行,如果有則在Selector上阻塞直到定時任務的到期時間deadline,或者滿足其他喚醒條件被喚醒。如果沒有定時任務需要執行,Reactor線程則會在Selector上一直阻塞直到滿足喚醒條件。
- 當Reactor線程滿足喚醒條件被喚醒后,首先會去判斷當前是因為有IO就緒事件被喚醒還是因為有異步任務需要執行被喚醒或者是兩者都有。隨后Reactor線程就會去處理IO就緒事件和執行異步任務。
- 最后Reactor線程返回循環起點不斷的重復上述三個步驟。
以上就是Reactor線程運行的整個核心邏輯,下面是筆者根據上述核心邏輯,將Reactor的整體代碼設計框架提取出來,大家可以結合上邊的Reactor工作流程圖,從總體上先感受下整個源碼實現框架,能夠把Reactor的核心處理步驟和代碼中相應的處理模塊對應起來即可,這里不需要讀懂每一行代碼,要以邏輯處理模塊為單位理解。后面筆者會將這些一個一個的邏輯處理模塊在單獨拎出來為大家詳細介紹。
@Override
protected void run() {
//記錄輪詢次數 用于解決JDK epoll的空輪訓bug
int selectCnt = 0;
for (;;) {
try {
//輪詢結果
int strategy;
try {
//根據輪詢策略獲取輪詢結果 這里的hasTasks()主要檢查的是普通隊列和尾部隊列中是否有異步任務等待執行
strategy = selectStrategy.calculateStrategy(selectNowSupplier, hasTasks());
switch (strategy) {
case SelectStrategy.CONTINUE:
continue;
case SelectStrategy.BUSY_WAIT:
// NIO不支持自旋(BUSY_WAIT)
case SelectStrategy.SELECT:
核心邏輯是有任務需要執行,則Reactor線程立馬執行異步任務,如果沒有異步任務執行,則進行輪詢IO事件
default:
}
} catch (IOException e) {
................省略...............
}
執行到這里說明滿足了喚醒條件,Reactor線程從selector上被喚醒開始處理IO就緒事件和執行異步任務
/**
* Reactor線程需要保證及時的執行異步任務,只要有異步任務提交,就需要退出輪詢。
* 有IO事件就優先處理IO事件,然后處理異步任務
* */
selectCnt++;
//主要用于從IO就緒的SelectedKeys集合中剔除已經失效的selectKey
needsToSelectAgain = false;
//調整Reactor線程執行IO事件和執行異步任務的CPU時間比例 默認50,表示執行IO事件和異步任務的時間比例是一比一
final int ioRatio = this.ioRatio;
這里主要處理IO就緒事件,以及執行異步任務
需要優先處理IO就緒事件,然后根據ioRatio設置的處理IO事件CPU用時與異步任務CPU用時比例,
來決定執行多長時間的異步任務
//判斷是否觸發JDK Epoll BUG 觸發空輪詢
if (ranTasks || strategy > 0) {
if (selectCnt > MIN_PREMATURE_SELECTOR_RETURNS && logger.isDebugEnabled()) {
logger.debug("Selector.select() returned prematurely {} times in a row for Selector {}.",
selectCnt - 1, selector);
}
selectCnt = 0;
} else if (unexpectedSelectorWakeup(selectCnt)) { // Unexpected wakeup (unusual case)
//既沒有IO就緒事件,也沒有異步任務,Reactor線程從Selector上被異常喚醒 觸發JDK Epoll空輪訓BUG
//重新構建Selector,selectCnt歸零
selectCnt = 0;
}
} catch (CancelledKeyException e) {
................省略...............
} catch (Error e) {
................省略...............
} catch (Throwable t) {
................省略...............
} finally {
................省略...............
}
}
}
折疊
從上面提取出來的Reactor的源碼實現框架中,我們可以看出Reactor線程主要做了下面幾個事情:
- 通過JDK NIO Selector輪詢注冊在Reactor上的所有Channel感興趣的IO事件。對于NioServerSocketChannel來說因為它主要負責接收客戶端連接所以監聽的是OP_ACCEPT事件,對于客戶端NioSocketChannel來說因為它主要負責處理連接上的讀寫事件所以監聽的是OP_READ和OP_WRITE事件。
這里需要注意的是netty只會自動注冊OP_READ事件,而OP_WRITE事件是在當Socket寫入緩沖區以滿無法繼續寫入發送數據時由用戶自己注冊。
- 如果有異步任務需要執行,則立馬停止輪詢操作,轉去執行異步任務。這里分為兩種情況:
- 既有IO就緒事件發生,也有異步任務需要執行。則優先處理IO就緒事件,然后根據ioRatio設置的執行時間比例決定執行多長時間的異步任務。這里Reactor線程需要控制異步任務的執行時間,因為Reactor線程的核心是處理IO就緒事件,不能因為異步任務的執行而耽誤了最重要的事情。
- 沒有IO就緒事件發生,但是有異步任務或者定時任務到期需要執行。則只執行異步任務,盡可能的去壓榨Reactor線程。沒有IO就緒事件發生也不能閑著。
- 這里第二種情況下只會執行64個異步任務,目的是為了防止過度執行異步任務,耽誤了最重要的事情輪詢IO事件。
- 在最后Netty會判斷本次Reactor線程的喚醒是否是由于觸發了JDK epoll 空輪詢 BUG導致的,如果觸發了該BUG,則重建Selector。繞過JDK BUG,達到解決問題的目的。
正常情況下Reactor線程從Selector中被喚醒有兩種情況:
輪詢到有IO就緒事件發生。有異步任務或者定時任務需要執行。
而JDK epoll 空輪詢 BUG會在上述兩種情況都沒有發生的時候,Reactor線程會意外的從Selector中被喚醒,導致CPU空轉。
JDK epoll 空輪詢 BUG:
https://bugs.JAVA.com/bugdatabase/view_bug.do?bug_id=6670302
好了,Reactor線程的總體運行結構框架我們現在已經了解了,下面我們來深入到這些核心處理模塊中來各個擊破它們~~
1. Reactor線程輪詢IO就緒事件
在《聊聊Netty那些事兒之Reactor在Netty中的實現(創建篇)》一文中,筆者在講述主從Reactor線程組NioEventLoopGroup的創建過程的時候,提到一個構造器參數SelectStrategyFactory 。
public NioEventLoopGroup(
int nThreads, Executor executor, final SelectorProvider selectorProvider) {
this(nThreads, executor, selectorProvider, DefaultSelectStrategyFactory.INSTANCE);
}
public NioEventLoopGroup(int nThreads, Executor executor, final SelectorProvider selectorProvider,
final SelectStrategyFactory selectStrategyFactory) {
super(nThreads, executor, selectorProvider, selectStrategyFactory, RejectedExecutionHandlers.reject());
}
Reactor線程最重要的一件事情就是輪詢IO就緒事件,SelectStrategyFactory 就是用于指定輪詢策略的,默認實現為
DefaultSelectStrategyFactory.INSTANCE。
而在Reactor線程開啟輪詢的一開始,就是用這個selectStrategy 去計算一個輪詢策略strategy ,后續會根據這個strategy進行不同的邏輯處理。
@Override
protected void run() {
//記錄輪詢次數 用于解決JDK epoll的空輪訓bug
int selectCnt = 0;
for (;;) {
try {
//輪詢結果
int strategy;
try {
//根據輪詢策略獲取輪詢結果 這里的hasTasks()主要檢查的是普通隊列和尾部隊列中是否有異步任務等待執行
strategy = selectStrategy.calculateStrategy(selectNowSupplier, hasTasks());
switch (strategy) {
case SelectStrategy.CONTINUE:
continue;
case SelectStrategy.BUSY_WAIT:
// NIO不支持自旋(BUSY_WAIT)
case SelectStrategy.SELECT:
核心邏輯是有任務需要執行,則Reactor線程立馬執行異步任務,如果沒有異步任務執行,則進行輪詢IO事件
default:
}
} catch (IOException e) {
................省略...............
}
................省略...............
}
下面我們來看這個輪詢策略strategy 具體的計算邏輯是什么樣的?
1.1 輪詢策略
public interface SelectStrategy {
/**
* Indicates a blocking select should follow.
*/
int SELECT = -1;
/**
* Indicates the IO loop should be retried, no blocking select to follow directly.
*/
int CONTINUE = -2;
/**
* Indicates the IO loop to poll for new events without blocking.
*/
int BUSY_WAIT = -3;
int calculateStrategy(IntSupplier selectSupplier, boolean hasTasks) throws Exception;
}
我們首先來看下Netty中定義的這三種輪詢策略:
- SelectStrategy.SELECT:此時沒有任何異步任務需要執行,Reactor線程可以安心的阻塞在Selector上等待IO就緒事件的來臨。
- SelectStrategy.CONTINUE:重新開啟一輪IO輪詢。
- SelectStrategy.BUSY_WAIT: Reactor線程進行自旋輪詢,由于NIO 不支持自旋操作,所以這里直接跳到SelectStrategy.SELECT策略。
下面我們來看下輪詢策略的計算邏輯calculateStrategy :
final class DefaultSelectStrategy implements SelectStrategy {
static final SelectStrategy INSTANCE = new DefaultSelectStrategy();
private DefaultSelectStrategy() { }
@Override
public int calculateStrategy(IntSupplier selectSupplier, boolean hasTasks) throws Exception {
/**
* Reactor線程要保證及時的執行異步任務
* 1:如果有異步任務等待執行,則馬上執行selectNow()非阻塞輪詢一次IO就緒事件
* 2:沒有異步任務,則跳到switch select分支
* */
return hasTasks ? selectSupplier.get() : SelectStrategy.SELECT;
}
}
- 在Reactor線程的輪詢工作開始之前,需要首先判斷下當前是否有異步任務需要執行。判斷依據就是查看Reactor中的異步任務隊列taskQueue和用于統計信息任務用的尾部隊列tailTask是否有異步任務。
@Override
protected boolean hasTasks() {
return super.hasTasks() || !tailTasks.isEmpty();
}
protected boolean hasTasks() {
assert inEventLoop();
return !taskQueue.isEmpty();
}
- 如果Reactor中有異步任務需要執行,那么Reactor線程需要立即執行,不能阻塞在Selector上。在返回前需要再順帶調用selectNow()非阻塞查看一下當前是否有IO就緒事件發生。如果有,那么正好可以和異步任務一起被處理,如果沒有,則及時地處理異步任務。
這里Netty要表達的語義是:首先Reactor線程需要優先保證IO就緒事件的處理,然后在保證異步任務的及時執行。如果當前沒有IO就緒事件但是有異步任務需要執行時,Reactor線程就要去及時執行異步任務而不是繼續阻塞在Selector上等待IO就緒事件。
private final IntSupplier selectNowSupplier = new IntSupplier() {
@Override
public int get() throws Exception {
return selectNow();
}
};
int selectNow() throws IOException {
//非阻塞
return selector.selectNow();
}
- 如果當前Reactor線程沒有異步任務需要執行,那么calculateStrategy 方法直接返回SelectStrategy.SELECT也就是SelectStrategy接口中定義的常量-1。當calculateStrategy 方法通過selectNow()返回非零數值時,表示此時有IO就緒的Channel,返回的數值表示有多少個IO就緒的Channel。
@Override
protected void run() {
//記錄輪詢次數 用于解決JDK epoll的空輪訓bug
int selectCnt = 0;
for (;;) {
try {
//輪詢結果
int strategy;
try {
//根據輪詢策略獲取輪詢結果 這里的hasTasks()主要檢查的是普通隊列和尾部隊列中是否有異步任務等待執行
strategy = selectStrategy.calculateStrategy(selectNowSupplier, hasTasks());
switch (strategy) {
case SelectStrategy.CONTINUE:
continue;
case SelectStrategy.BUSY_WAIT:
// NIO不支持自旋(BUSY_WAIT)
case SelectStrategy.SELECT:
核心邏輯是有任務需要執行,則Reactor線程立馬執行異步任務,如果沒有異步任務執行,則進行輪詢IO事件
default:
}
} catch (IOException e) {
................省略...............
}
................處理IO就緒事件以及執行異步任務...............
}
從默認的輪詢策略我們可以看出
selectStrategy.calculateStrategy只會返回三種情況:
- 返回 -1: switch邏輯分支進入SelectStrategy.SELECT分支,表示此時Reactor中沒有異步任務需要執行,Reactor線程可以安心的阻塞在Selector上等待IO就緒事件發生。
- 返回 0: switch邏輯分支進入default分支,表示此時Reactor中沒有IO就緒事件但是有異步任務需要執行,流程通過default分支直接進入了處理異步任務的邏輯部分。
- 返回 > 0:switch邏輯分支進入default分支,表示此時Reactor中既有IO就緒事件發生也有異步任務需要執行,流程通過default分支直接進入了處理IO就緒事件和執行異步任務邏輯部分。
現在Reactor的流程處理邏輯走向我們清楚了,那么接下來我們把重點放在SelectStrategy.SELECT分支中的輪詢邏輯上。這塊是Reactor監聽IO就緒事件的核心。
1.2 輪詢邏輯
case SelectStrategy.SELECT:
//當前沒有異步任務執行,Reactor線程可以放心的阻塞等待IO就緒事件
//從定時任務隊列中取出即將快要執行的定時任務deadline
long curDeadlineNanos = nextScheduledTaskDeadlineNanos();
if (curDeadlineNanos == -1L) {
// -1代表當前定時任務隊列中沒有定時任務
curDeadlineNanos = NONE; // nothing on the calendar
}
//最早執行定時任務的deadline作為 select的阻塞時間,意思是到了定時任務的執行時間
//不管有無IO就緒事件,必須喚醒selector,從而使reactor線程執行定時任務
nextWakeupNanos.set(curDeadlineNanos);
try {
if (!hasTasks()) {
//再次檢查普通任務隊列中是否有異步任務
//沒有的話開始select阻塞輪詢IO就緒事件
strategy = select(curDeadlineNanos);
}
} finally {
// 執行到這里說明Reactor已經從Selector上被喚醒了
// 設置Reactor的狀態為蘇醒狀態AWAKE
// lazySet優化不必要的volatile操作,不使用內存屏障,不保證寫操作的可見性(單線程不需要保證)
nextWakeupNanos.lazySet(AWAKE);
}
流程走到這里,說明現在Reactor上沒有任何事情可做,可以安心的阻塞在Selector上等待IO就緒事件到來。
那么Reactor線程到底應該在Selector上阻塞多久呢??
在回答這個問題之前,我們在回顧下《聊聊Netty那些事兒之Reactor在Netty中的實現(創建篇)》一文中在講述Reactor的創建時提到,Reactor線程除了要輪詢Channel上的IO就緒事件,以及處理IO就緒事件外,還有一個任務就是負責執行Netty框架中的異步任務。
而Netty框架中的異步任務分為三類:
- 存放在普通任務隊列taskQueue中的普通異步任務。
- 存放在尾部隊列tailTasks 中的用于執行統計任務等收尾動作的尾部任務。
- 還有一種就是這里即將提到的定時任務。存放在Reactor中的定時任務隊列scheduledTaskQueue中。
從ReactorNioEventLoop類中的繼承結構我們也可以看出,Reactor具備執行定時任務的能力。
既然Reactor需要執行定時任務,那么它就不能一直阻塞在Selector上無限等待IO就緒事件。
那么我們回到本小節一開始提到的問題上,為了保證Reactor能夠及時地執行定時任務,Reactor線程需要在即將要執行的的第一個定時任務deadline到達之前被喚醒。
所以在Reactor線程開始輪詢IO就緒事件之前,我們需要首先計算出來Reactor線程在Selector上的阻塞超時時間。
1.2.1 Reactor的輪詢超時時間
首先我們需要從Reactor的定時任務隊列scheduledTaskQueue 中取出即將快要執行的定時任務deadline。將這個deadline作為Reactor線程在Selector上輪詢的超時時間。這樣可以保證在定時任務即將要執行時,Reactor現在可以及時的從Selector上被喚醒。
private static final long AWAKE = -1L;
private static final long NONE = Long.MAX_VALUE;
// nextWakeupNanos is:
// AWAKE when EL is awake
// NONE when EL is waiting with no wakeup scheduled
// other value T when EL is waiting with wakeup scheduled at time T
private final AtomicLong nextWakeupNanos = new AtomicLong(AWAKE);
long curDeadlineNanos = nextScheduledTaskDeadlineNanos();
if (curDeadlineNanos == -1L) {
// -1代表當前定時任務隊列中沒有定時任務
curDeadlineNanos = NONE; // nothing on the calendar
}
nextWakeupNanos.set(curDeadlineNanos);
public abstract class AbstractScheduledEventExecutor extends AbstractEventExecutor {
PriorityQueue<ScheduledFutureTask<?>> scheduledTaskQueue;
protected final long nextScheduledTaskDeadlineNanos() {
ScheduledFutureTask<?> scheduledTask = peekScheduledTask();
return scheduledTask != null ? scheduledTask.deadlineNanos() : -1;
}
final ScheduledFutureTask<?> peekScheduledTask() {
Queue<ScheduledFutureTask<?>> scheduledTaskQueue = this.scheduledTaskQueue;
return scheduledTaskQueue != null ? scheduledTaskQueue.peek() : null;
}
}
nextScheduledTaskDeadlineNanos 方法會返回當前Reactor定時任務隊列中最近的一個定時任務deadline時間點,如果定時任務隊列中沒有定時任務,則返回-1。
NioEventLoop中nextWakeupNanos 變量用來存放Reactor從Selector上被喚醒的時間點,設置為最近需要被執行定時任務的deadline,如果當前并沒有定時任務需要執行,那么就設置為Long.MAX_VALUE一直阻塞,直到有IO就緒事件到達或者有異步任務需要執行。
1.2.2 Reactor開始輪詢IO就緒事件
if (!hasTasks()) {
//再次檢查普通任務隊列中是否有異步任務, 沒有的話 開始select阻塞輪詢IO就緒事件
strategy = select(curDeadlineNanos);
}
在Reactor線程開始阻塞輪詢IO就緒事件之前還需要再次檢查一下是否有異步任務需要執行。
如果此時恰巧有異步任務提交,就需要停止IO就緒事件的輪詢,轉去執行異步任務。如果沒有異步任務,則正式開始輪詢IO就緒事件。
private int select(long deadlineNanos) throws IOException {
if (deadlineNanos == NONE) {
//無定時任務,無普通任務執行時,開始輪詢IO就緒事件,沒有就一直阻塞 直到喚醒條件成立
return selector.select();
}
long timeoutMillis = deadlineToDelayNanos(deadlineNanos + 995000L) / 1000000L;
return timeoutMillis <= 0 ? selector.selectNow() : selector.select(timeoutMillis);
}
如果deadlineNanos == NONE,經過上小節的介紹,我們知道NONE
表示當前Reactor中并沒有定時任務,所以可以安心的阻塞在Selector上等待IO就緒事件到來。
selector.select()調用是一個阻塞調用,如果沒有IO就緒事件,Reactor線程就會一直阻塞在這里直到IO就緒事件到來。這里占時不考慮前邊提到的JDK NIO Epoll的空輪詢BUG.
讀到這里那么問題來了,此時Reactor線程正阻塞在selector.select()調用上等待IO就緒事件的到來,如果此時正好有異步任務被提交到Reactor中需要執行,并且此時無任何IO就緒事件,而Reactor線程由于沒有IO就緒事件到來,會繼續在這里阻塞,那么如何去執行異步任務呢??
解鈴還須系鈴人,既然異步任務在被提交后希望立馬得到執行,那么就在提交異步任務的時候去喚醒Reactor線程。
//addTaskWakesUp = true 表示 當且僅當只有調用addTask方法時 才會喚醒Reactor線程
//addTaskWakesUp = false 表示 并不是只有addTask方法才能喚醒Reactor 還有其他方法可以喚醒Reactor 默認設置false
private final boolean addTaskWakesUp;
private void execute(Runnable task, boolean immediate) {
boolean inEventLoop = inEventLoop();
addTask(task);
if (!inEventLoop) {
//如果當前線程不是Reactor線程,則啟動Reactor線程
//這里可以看出Reactor線程的啟動是通過 向NioEventLoop添加異步任務時啟動的
startThread();
.....................省略...................
}
if (!addTaskWakesUp && immediate) {
//io.netty.channel.nio.NioEventLoop.wakeup
wakeup(inEventLoop);
}
}
對于execute方法我想大家一定不會陌生,在上篇文章《詳細圖解Netty Reactor啟動全流程》中我們在介紹Reactor線程的啟動時介紹過該方法。
在啟動過程中涉及到的重要操作Register操作,Bind操作都需要封裝成異步任務通過該方法提交到Reactor中執行。
這里我們將重點放在execute方法后半段wakeup邏輯部分。
我們先介紹下和wakeup邏輯相關的兩個參數boolean immediate和boolean addTaskWakesUp。
- immediate:表示提交的task是否需要被立即執行。Netty中只要你提交的任務類型不是LazyRunnable類型的任務,都是需要立即執行的。immediate = true
- addTaskWakesUp : true 表示當且僅當只有調用addTask方法時才會喚醒Reactor線程。調用別的方法并不會喚醒Reactor線程。
在初始化NioEventLoop時會設置為false,表示并不是只有addTask方法才能喚醒Reactor線程 還有其他方法可以喚醒Reactor線程,比如這里的execute方法就會喚醒Reactor線程。
針對execute方法中的這個喚醒條件!addTaskWakesUp && immediate,netty這里要表達的語義是:當immediate參數為true的時候表示該異步任務需要立即執行,addTaskWakesUp 默認設置為false 表示不僅只有addTask方法可以喚醒Reactor,還有其他方法比如這里的execute方法也可以喚醒。但是當設置為true時,語義就變為只有addTask才可以喚醒Reactor,即使execute方法里的immediate = true也不能喚醒Reactor,因為執行的是execute方法而不是addTask方法。
private static final long AWAKE = -1L;
private final AtomicLong nextWakeupNanos = new AtomicLong(AWAKE);
protected void wakeup(boolean inEventLoop) {
if (!inEventLoop && nextWakeupNanos.getAndSet(AWAKE) != AWAKE) {
//將Reactor線程從Selector上喚醒
selector.wakeup();
}
}
當nextWakeupNanos = AWAKE時表示當前Reactor正處于蘇醒狀態,既然是蘇醒狀態也就沒有必要去執行 selector.wakeup()重復喚醒Reactor了,同時也能省去這一次的系統調用開銷。
在《1.2小節 輪詢邏輯》開始介紹的源碼實現框架里Reactor被喚醒之后執行代碼會進入finally{...}語句塊中,在那里會將nextWakeupNanos設置為AWAKE。
try {
if (!hasTasks()) {
strategy = select(curDeadlineNanos);
}
} finally {
// 執行到這里說明Reactor已經從Selector上被喚醒了
// 設置Reactor的狀態為蘇醒狀態AWAKE
// lazySet優化不必要的volatile操作,不使用內存屏障,不保證寫操作的可見性(單線程不需要保證)
nextWakeupNanos.lazySet(AWAKE);
}
這里Netty用了一個AtomicLong類型的變量nextWakeupNanos,既能表示當前Reactor線程的狀態,又能表示Reactor線程的阻塞超時時間。我們在日常開發中也可以學習下這種技巧。
我們繼續回到Reactor線程輪詢IO就緒事件的主線上。
private int select(long deadlineNanos) throws IOException {
if (deadlineNanos == NONE) {
//無定時任務,無普通任務執行時,開始輪詢IO就緒事件,沒有就一直阻塞 直到喚醒條件成立
return selector.select();
}
long timeoutMillis = deadlineToDelayNanos(deadlineNanos + 995000L) / 1000000L;
return timeoutMillis <= 0 ? selector.selectNow() : selector.select(timeoutMillis);
}
當deadlineNanos不為NONE,表示此時Reactor有定時任務需要執行,Reactor線程需要阻塞在Selector上等待IO就緒事件直到最近的一個定時任務執行時間點deadline到達。
這里的deadlineNanos表示的就是Reactor中最近的一個定時任務執行時間點deadline,單位是納秒。指的是一個絕對時間。
而我們需要計算的是Reactor線程阻塞在Selector的超時時間timeoutMillis,單位是毫秒,指的是一個相對時間。
所以在Reactor線程開始阻塞在Selector上之前,我們需要將這個單位為納秒的絕對時間deadlineNanos轉化為單位為毫秒的相對時間timeoutMillis。
private int select(long deadlineNanos) throws IOException {
if (deadlineNanos == NONE) {
//無定時任務,無普通任務執行時,開始輪詢IO就緒事件,沒有就一直阻塞 直到喚醒條件成立
return selector.select();
}
long timeoutMillis = deadlineToDelayNanos(deadlineNanos + 995000L) / 1000000L;
return timeoutMillis <= 0 ? selector.selectNow() : selector.select(timeoutMillis);
}
這里大家可能會好奇,通過deadlineToDelayNanos方法計算timeoutMillis的時候,為什么要給deadlineNanos在加上0.995毫秒呢??
大家想象一下這樣的場景,當最近的一個定時任務的deadline即將在5微秒內到達,那么這時將納秒轉換成毫秒計算出的timeoutMillis 會是0。
而在Netty中timeoutMillis = 0 要表達的語義是:定時任務執行時間已經到達deadline時間點,需要被執行。
而現實情況是定時任務還有5微秒才能夠到達deadline,所以對于這種情況,需要在deadlineNanos在加上0.995毫秒湊成1毫秒不能讓其為0。
所以從這里我們可以看出,Reactor在有定時任務的情況下,至少要阻塞1毫秒。
public abstract class AbstractScheduledEventExecutor extends AbstractEventExecutor {
protected static long deadlineToDelayNanos(long deadlineNanos) {
return ScheduledFutureTask.deadlineToDelayNanos(deadlineNanos);
}
}
final class ScheduledFutureTask<V> extends PromiseTask<V> implements ScheduledFuture<V>, PriorityQueueNode {
static long deadlineToDelayNanos(long deadlineNanos) {
return deadlineNanos == 0L ? 0L : Math.max(0L, deadlineNanos - nanoTime());
}
//啟動時間點
private static final long START_TIME = System.nanoTime();
static long nanoTime() {
return System.nanoTime() - START_TIME;
}
static long deadlineNanos(long delay) {
//計算定時任務執行deadline 去除啟動時間
long deadlineNanos = nanoTime() + delay;
// Guard against overflow
return deadlineNanos < 0 ? Long.MAX_VALUE : deadlineNanos;
}
}
這里需要注意一下,在創建定時任務時會通過deadlineNanos方法計算定時任務的執行deadline,deadline的計算邏輯是當前時間點+任務延時delay-系統啟動時間。這里需要扣除系統啟動的時間。
所以這里在通過deadline計算延時delay(也就是timeout)的時候需要在加上系統啟動的時間 : deadlineNanos - nanoTime()
當通過deadlineToDelayNanos 計算出的timeoutMillis <= 0時,表示Reactor目前有臨近的定時任務需要執行,這時候就需要立馬返回,不能阻塞在Selector上影響定時任務的執行。當然在返回執行定時任務前,需要在順手通過selector.selectNow()非阻塞輪詢一下Channel上是否有IO就緒事件到達,防止耽誤IO事件的處理。真是操碎了心~~
當timeoutMillis > 0時,Reactor線程就可以安心的阻塞在Selector上等待IO事件的到來,直到timeoutMillis超時時間到達。
timeoutMillis <= 0 ? selector.selectNow() : selector.select(timeoutMillis)
當注冊在Reactor上的Channel中有IO事件到來時,Reactor線程就會從selector.select(timeoutMillis)調用中喚醒,立即去處理IO就緒事件。
這里假設一種極端情況,如果最近的一個定時任務的deadline是在未來很遠的一個時間點,這樣就會使timeoutMillis的時間非常非常久,那么Reactor豈不是會一直阻塞在Selector上造成 Netty 無法工作?
筆者覺得大家現在心里應該已經有了答案,我們在《1.2.2 Reactor開始輪詢IO就緒事件》小節一開始介紹過,當Reactor正在Selector上阻塞時,如果此時用戶線程向Reactor提交了異步任務,Reactor線程會通過execute方法被喚醒。
流程到這里,Reactor中最重要也是最核心的邏輯:輪詢Channel上的IO就緒事件的處理流程我們就講解完了。
當Reactor輪詢到有IO活躍事件或者有異步任務需要執行時,就會從Selector上被喚醒,下面就到了該介紹Reactor被喚醒之后是如何處理IO就緒事件以及如何執行異步任務的時候了。
Netty畢竟是一個網絡框架,所以它會優先去處理Channel上的IO事件,基于這個事實,所以Netty不會容忍異步任務被無限制的執行從而影響IO吞吐。
Netty通過ioRatio變量來調配Reactor線程在處理IO事件和執行異步任務之間的CPU時間分配比例。
下面我們就來看下這個執行時間比例的分配邏輯是什么樣的~~~
2. Reactor處理IO與處理異步任務的時間比例分配
無論什么時候,當有IO就緒事件到來時,Reactor都需要保證IO事件被及時完整的處理完,而ioRatio主要限制的是執行異步任務所需用時,防止Reactor線程處理異步任務時間過長而導致 I/O 事件得不到及時地處理。
//調整Reactor線程執行IO事件和執行異步任務的CPU時間比例 默認50,表示執行IO事件和異步任務的時間比例是一比一
final int ioRatio = this.ioRatio;
boolean ranTasks;
if (ioRatio == 100) { //先一股腦執行IO事件,在一股腦執行異步任務(無時間限制)
try {
if (strategy > 0) {
//如果有IO就緒事件 則處理IO就緒事件
processSelectedKeys();
}
} finally {
// Ensure we always run tasks.
//處理所有異步任務
ranTasks = runAllTasks();
}
} else if (strategy > 0) {//先執行IO事件 用時ioTime 執行異步任務只能用時ioTime * (100 - ioRatio) / ioRatio
final long ioStartTime = System.nanoTime();
try {
processSelectedKeys();
} finally {
// Ensure we always run tasks.
final long ioTime = System.nanoTime() - ioStartTime;
// 限定在超時時間內 處理有限的異步任務 防止Reactor線程處理異步任務時間過長而導致 I/O 事件阻塞
ranTasks = runAllTasks(ioTime * (100 - ioRatio) / ioRatio);
}
} else { //沒有IO就緒事件處理,則只執行異步任務 最多執行64個 防止Reactor線程處理異步任務時間過長而導致 I/O 事件阻塞
ranTasks = runAllTasks(0); // This will run the minimum number of tasks
}
- 當ioRatio = 100時,表示無需考慮執行時間的限制,當有IO就緒事件時(strategy > 0)Reactor線程需要優先處理IO就緒事件,處理完IO事件后,執行所有的異步任務包括:普通任務,尾部任務,定時任務。無時間限制。
strategy的數值表示IO就緒的Channel個數。它是前邊介紹的
io.netty.channel.nio.NioEventLoop#select方法的返回值。
- 當ioRatio設置的值不為100時,默認為50。需要先統計出執行IO事件的用時ioTime ,根據ioTime * (100 - ioRatio) / ioRatio計算出,后面執行異步任務的限制時間。也就是說Reactor線程需要在這個限定的時間內,執行有限的異步任務,防止Reactor線程由于處理異步任務時間過長而導致I/O 事件得不到及時地處理。
默認情況下,執行IO事件用時和執行異步任務用時比例設置的是一比一。
ioRatio設置的越高,則Reactor線程執行異步任務的時間占比越小。
要想得到Reactor線程執行異步任務所需的時間限制,必須知道執行IO事件的用時ioTime然后在根據ioRatio計算出執行異步任務的時間限制。
那如果此時并沒有IO就緒事件需要Reactor線程處理的話,這種情況下我們無法得到ioTime,那怎么得到執行異步任務的限制時間呢??
在這種特殊情況下,Netty只允許Reactor線程最多執行64個異步任務,然后就結束執行。轉去繼續輪訓IO就緒事件。核心目的還是防止Reactor線程由于處理異步任務時間過長而導致I/O 事件得不到及時地處理。
默認情況下,當Reactor有異步任務需要處理但是沒有IO就緒事件時,Netty只會允許Reactor線程執行最多64個異步任務。
現在我們對Reactor處理IO事件和異步任務的整體框架已經了解了,下面我們就來分別介紹下Reactor線程在處理IO事件和異步任務的具體邏輯是什么樣的?
3. Reactor線程處理IO就緒事件
//該字段為持有selector對象selectedKeys的引用,當IO事件就緒時,直接從這里獲取
private SelectedSelectionKeySet selectedKeys;
private void processSelectedKeys() {
//是否采用netty優化后的selectedKey集合類型 是由變量DISABLE_KEY_SET_OPTIMIZATION決定的 默認為false
if (selectedKeys != null) {
processSelectedKeysOptimized();
} else {
processSelectedKeysPlain(selector.selectedKeys());
}
}
看到這段代碼大家眼熟嗎??
不知大家還記不記得我們在《聊聊Netty那些事兒之Reactor在Netty中的實現(創建篇)》一文中介紹Reactor NioEventLoop類在創建Selector的過程中提到,出于對JDK NIO Selector中selectedKeys 集合的插入和遍歷操作性能的考慮Netty將自己用數組實現的SelectedSelectionKeySet 集合替換掉了JDK NIO Selector中selectedKeys 的HashSet實現。
public abstract class SelectorImpl extends AbstractSelector {
// The set of keys with data ready for an operation
// //IO就緒的SelectionKey(里面包裹著channel)
protected Set<SelectionKey> selectedKeys;
// The set of keys registered with this Selector
//注冊在該Selector上的所有SelectionKey(里面包裹著channel)
protected HashSet<SelectionKey> keys;
...............省略...................
}
Netty中通過優化開關
DISABLE_KEY_SET_OPTIMIZATION 控制是否對JDK NIO Selector進行優化。默認是需要優化。
在優化開關開啟的情況下,Netty會將創建的SelectedSelectionKeySet 集合保存在NioEventLoop的private SelectedSelectionKeySet selectedKeys字段中,方便Reactor線程直接從這里獲取IO就緒的SelectionKey。
在優化開關關閉的情況下,Netty會直接采用JDK NIO Selector的默認實現。此時NioEventLoop的selectedKeys字段就會為null。
忘記這段的同學可以在回顧下《聊聊Netty那些事兒之Reactor在Netty中的實現(創建篇)》一文中關于Reactor的創建過程。
經過對前邊內容的回顧,我們看到了在Reactor處理IO就緒事件的邏輯也分為兩個部分,一個是經過Netty優化的,一個是采用JDK 原生的。
我們先來看采用JDK 原生的Selector的處理方式,理解了這種方式,在看Netty優化的方式會更加容易。
3.1 processSelectedKeysPlain
我們在《聊聊Netty那些事兒之Reactor在Netty中的實現(創建篇)》一文中介紹JDK NIO Selector的工作過程時講過,當注冊在Selector上的Channel發生IO就緒事件時,Selector會將IO就緒的SelectionKey插入到Set<SelectionKey> selectedKeys集合中。
這時Reactor線程會從
java.nio.channels.Selector#select(long)調用中返回。隨后調用java.nio.channels.Selector#selectedKeys獲取IO就緒的SelectionKey集合。
所以Reactor線程在調用processSelectedKeysPlain方法處理IO就緒事件之前需要調用selector.selectedKeys()去獲取所有IO就緒的SelectionKeys。
processSelectedKeysPlain(selector.selectedKeys())
private void processSelectedKeysPlain(Set<SelectionKey> selectedKeys) {
if (selectedKeys.isEmpty()) {
return;
}
Iterator<SelectionKey> i = selectedKeys.iterator();
for (;;) {
final SelectionKey k = i.next();
final Object a = k.attachment();
//注意每次迭代末尾的keyIterator.remove()調用。Selector不會自己從已選擇鍵集中移除SelectionKey實例。
//必須在處理完通道時自己移除。下次該通道變成就緒時,Selector會再次將其放入已選擇鍵集中。
i.remove();
if (a instanceof AbstractNioChannel) {
processSelectedKey(k, (AbstractNioChannel) a);
} else {
@SuppressWarnings("unchecked")
NioTask<SelectableChannel> task = (NioTask<SelectableChannel>) a;
processSelectedKey(k, task);
}
if (!i.hasNext()) {
break;
}
//目的是再次進入for循環 移除失效的selectKey(socketChannel可能從selector上移除)
if (needsToSelectAgain) {
selectAgain();
selectedKeys = selector.selectedKeys();
// Create the iterator again to avoid ConcurrentModificationException
if (selectedKeys.isEmpty()) {
break;
} else {
i = selectedKeys.iterator();
}
}
}
}
3.1.1 獲取IO就緒的Channel
Set<SelectionKey> selectedKeys集合里面裝的全部是IO就緒的SelectionKey,注意,此時Set<SelectionKey> selectedKeys的實現類型為HashSet類型。因為我們這里首先介紹的是JDK NIO 原生實現。
通過獲取HashSet的迭代器,開始逐個處理IO就緒的Channel。
Iterator<SelectionKey> i = selectedKeys.iterator();
final SelectionKey k = i.next();
final Object a = k.attachment();
大家還記得這個SelectionKey中的attachment屬性里存放的是什么嗎??
在上篇文章《詳細圖解Netty Reactor啟動全流程》中我們在講NioServerSocketChannel向Main Reactor注冊的時候,通過this指針將自己作為SelectionKey的attachment屬性注冊到Selector中。這一步完成了Netty自定義Channel和JDK NIO Channel的綁定。
public abstract class AbstractNioChannel extends AbstractChannel {
//channel注冊到Selector后獲得的SelectKey
volatile SelectionKey selectionKey;
@Override
protected void doRegister() throws Exception {
boolean selected = false;
for (;;) {
try {
selectionKey = javaChannel().register(eventLoop().unwrAppedSelector(), 0, this);
return;
} catch (CancelledKeyException e) {
...............省略....................
}
}
}
}
而我們也提到SelectionKey就相當于是Channel在Selector中的一種表示,當Channel上有IO就緒事件時,Selector會將Channel對應的SelectionKey返回給Reactor線程,我們可以通過返回的這個SelectionKey里的attachment屬性獲取到對應的Netty自定義Channel。
對于客戶端連接事件(OP_ACCEPT)活躍時,這里的Channel類型為NioServerSocketChannel。
對于客戶端讀寫事件(Read,Write)活躍時,這里的Channel類型為NioSocketChannel。
當我們通過k.attachment()獲取到Netty自定義的Channel時,就需要把這個Channel對應的SelectionKey從Selector的就緒集合Set<SelectionKey> selectedKeys中刪除。因為Selector自己不會主動刪除已經處理完的SelectionKey,需要調用者自己主動刪除,這樣當這個Channel再次IO就緒時,Selector會再次將這個Channel對應的SelectionKey放入就緒集合Set<SelectionKey> selectedKeys中。
i.remove();
3.1.2 處理Channel上的IO事件
if (a instanceof AbstractNioChannel) {
processSelectedKey(k, (AbstractNioChannel) a);
} else {
@SuppressWarnings("unchecked")
NioTask<SelectableChannel> task = (NioTask<SelectableChannel>) a;
processSelectedKey(k, task);
}
從這里我們可以看出Netty向SelectionKey中的attachment屬性附加的對象分為兩種:
- 一種是我們熟悉的Channel,無論是服務端使用的NioServerSocketChannel還是客戶端使用的NioSocketChannel都屬于AbstractNioChannel 。Channel上的IO事件是由Netty框架負責處理,也是本小節我們要重點介紹的
- 另一種就是NioTask,這種類型是Netty提供給用戶可以自定義一些當Channel上發生IO就緒事件時的自定義處理。
public interface NioTask<C extends SelectableChannel> {
/**
* Invoked when the {@link SelectableChannel} has been selected by the {@link Selector}.
*/
void channelReady(C ch, SelectionKey key) throws Exception;
/**
* Invoked when the {@link SelectionKey} of the specified {@link SelectableChannel} has been cancelled and thus
* this {@link NioTask} will not be notified anymore.
*
* @param cause the cause of the unregistration. {@code null} if a user called {@link SelectionKey#cancel()} or
* the event loop has been shut down.
*/
void channelUnregistered(C ch, Throwable cause) throws Exception;
}
NioTask和Channel其實本質上是一樣的都是負責處理Channel上的IO就緒事件,只不過一個是用戶自定義處理,一個是Netty框架處理。這里我們重點關注Channel的IO處理邏輯
private void processSelectedKey(SelectionKey k, AbstractNioChannel ch) {
//獲取Channel的底層操作類Unsafe
final AbstractNioChannel.NioUnsafe unsafe = ch.unsafe();
if (!k.isValid()) {
......如果SelectionKey已經失效則關閉對應的Channel......
}
try {
//獲取IO就緒事件
int readyOps = k.readyOps();
//處理Connect事件
if ((readyOps & SelectionKey.OP_CONNECT) != 0) {
int ops = k.interestOps();
//移除對Connect事件的監聽,否則Selector會一直通知
ops &= ~SelectionKey.OP_CONNECT;
k.interestOps(ops);
//觸發channelActive事件處理Connect事件
unsafe.finishConnect();
}
//處理Write事件
if ((readyOps & SelectionKey.OP_WRITE) != 0) {
ch.unsafe().forceFlush();
}
//處理Read事件或者Accept事件
if ((readyOps & (SelectionKey.OP_READ | SelectionKey.OP_ACCEPT)) != 0 || readyOps == 0) {
unsafe.read();
}
} catch (CancelledKeyException ignored) {
unsafe.close(unsafe.voidPromise());
}
}
- 首先我們需要獲取IO就緒Channel底層的操作類Unsafe,用于對具體IO就緒事件的處理。
這里可以看出,Netty對IO就緒事件的處理全部封裝在Unsafe類中。比如:對OP_ACCEPT事件的具體處理邏輯是封裝在NioServerSocketChannel中的UnSafe類中。對OP_READ或者OP_WRITE事件的處理是封裝在NioSocketChannel中的Unsafe類中。
- 從Selectionkey中獲取具體IO就緒事件 readyOps 。
SelectonKey中關于IO事件的集合有兩個。一個是interestOps,用于記錄Channel感興趣的IO事件,在Channel向Selector注冊完畢后,通過pipeline中的HeadContext節點的ChannelActive事件回調中添加。下面這段代碼就是在ChannelActive事件回調中Channel在向Selector注冊自己感興趣的IO事件。
public abstract class AbstractNioChannel extends AbstractChannel {
@Override
protected void doBeginRead() throws Exception {
// Channel.read() or ChannelHandlerContext.read() was called
final SelectionKey selectionKey = this.selectionKey;
if (!selectionKey.isValid()) {
return;
}
readPending = true;
final int interestOps = selectionKey.interestOps();
/**
* 1:ServerSocketChannel 初始化時 readInterestOp設置的是OP_ACCEPT事件
* 2:SocketChannel 初始化時 readInterestOp設置的是OP_READ事件
* */
if ((interestOps & readInterestOp) == 0) {
//注冊監聽OP_ACCEPT或者OP_READ事件
selectionKey.interestOps(interestOps | readInterestOp);
}
}
}
另一個就是這里的readyOps,用于記錄在Channel感興趣的IO事件中具體哪些IO事件就緒了。
Netty中將各種事件的集合用一個int型變量來保存。
- 用&操作判斷,某個事件是否在事件集合中:(readyOps & SelectionKey.OP_CONNECT) != 0,這里就是判斷Channel是否對Connect事件感興趣。
- 用|操作向事件集合中添加事件:interestOps | readInterestOp
- 從事件集合中刪除某個事件,是通過先將要刪除事件取反~,然后在和事件集合做&操作:ops &= ~SelectionKey.OP_CONNECT
Netty這種對空間的極致利用思想,很值得我們平時在日常開發中學習~~
現在我們已經知道哪些Channel現在處于IO就緒狀態,并且知道了具體哪些類型的IO事件已經就緒。
下面就該針對Channel上的不同IO就緒事件做出相應的處理了。
3.1.2.1 處理Connect事件
Netty客戶端向服務端發起連接,并向客戶端的Reactor注冊Connect事件,當連接建立成功后,客戶端的NioSocketChannel就會產生Connect就緒事件,通過前面內容我們講的Reactor的運行框架,最終流程會走到這里。
if ((readyOps & SelectionKey.OP_CONNECT) != 0) {
int ops = k.interestOps();
ops &= ~SelectionKey.OP_CONNECT;
k.interestOps(ops);
//觸發channelActive事件
unsafe.finishConnect();
}
如果IO就緒的事件是Connect事件,那么就調用對應客戶端NioSocketChannel中的Unsafe操作類中的finishConnect方法處理Connect事件。這時會在Netty客戶端NioSocketChannel中的pipeline中傳播ChannelActive事件。
最后需要將OP_CONNECT事件從客戶端NioSocketChannel所關心的事件集合interestOps中刪除。否則Selector會一直通知Connect事件就緒。
3.1.2.2 處理Write事件
關于Reactor線程處理Netty中的Write事件的流程,筆者后續會專門用一篇文章來為大家介紹。本文我們重點關注Reactor線程的整體運行框架。
if ((readyOps & SelectionKey.OP_WRITE) != 0) {
ch.unsafe().forceFlush();
}
這里大家只需要記住,OP_WRITE事件的注冊是由用戶來完成的,當Socket發送緩沖區已滿無法繼續寫入數據時,用戶會向Reactor注冊OP_WRITE事件,等到Socket發送緩沖區變得可寫時,Reactor會收到OP_WRITE事件活躍通知,隨后在這里調用客戶端NioSocketChannel中的forceFlush方法將剩余數據發送出去。
3.1.2.3 處理Read事件或者Accept事件
if ((readyOps & (SelectionKey.OP_READ | SelectionKey.OP_ACCEPT)) != 0 || readyOps == 0) {
unsafe.read();
}
這里可以看出Netty中處理Read事件和Accept事件都是由對應Channel中的Unsafe操作類中的read方法處理。
服務端NioServerSocketChannel中的Read方法處理的是Accept事件,客戶端NioSocketChannel中的Read方法處理的是Read事件。
這里大家只需記住各個IO事件在對應Channel中的處理入口,后續文章我們會詳細分析這些入口函數。
3.1.3 從Selector中移除失效的SelectionKey
//用于及時從selectedKeys中清除失效的selectKey 比如 socketChannel從selector上被用戶移除
private boolean needsToSelectAgain;
//目的是再次進入for循環 移除失效的selectKey(socketChannel可能被用戶從selector上移除)
if (needsToSelectAgain) {
selectAgain();
selectedKeys = selector.selectedKeys();
// Create the iterator again to avoid ConcurrentModificationException
if (selectedKeys.isEmpty()) {
break;
} else {
i = selectedKeys.iterator();
}
}
在前邊介紹Reactor運行框架的時候,我們看到在每次Reactor線程輪詢結束,準備處理IO就緒事件以及異步任務的時候,都會將needsToSelectAgain 設置為false。
那么這個needsToSelectAgain 究竟是干嘛的?以及為什么我們需要去“Select Again”呢?
首先我們來看下在什么情況下會將needsToSelectAgain 這個變量設置為true,通過這個設置的過程,我們是否能夠從中找到一些線索?
我們知道Channel可以將自己注冊到Selector上,那么當然也可以將自己從Selector上取消移除。
在上篇文章中我們也花了大量的篇幅講解了這個注冊的過程,現在我們來看下Channel的取消注冊。
public abstract class AbstractNioChannel extends AbstractChannel {
//channel注冊到Selector后獲得的SelectKey
volatile SelectionKey selectionKey;
@Override
protected void doDeregister() throws Exception {
eventLoop().cancel(selectionKey());
}
protected SelectionKey selectionKey() {
assert selectionKey != null;
return selectionKey;
}
}
Channel取消注冊的過程很簡單,直接調用NioChannel的doDeregister 方法,Channel綁定的Reactor會將其從Selector中取消并停止監聽Channel上的IO事件。
public final class NioEventLoop extends SingleThreadEventLoop {
//記錄Selector上移除socketChannel的個數 達到256個 則需要將無效的selectKey從SelectedKeys集合中清除掉
private int cancelledKeys;
private static final int CLEANUP_INTERVAL = 256;
/**
* 將socketChannel從selector中移除 取消監聽IO事件
* */
void cancel(SelectionKey key) {
key.cancel();
cancelledKeys ++;
// 當從selector中移除的socketChannel數量達到256個,設置needsToSelectAgain為true
// 在io.netty.channel.nio.NioEventLoop.processSelectedKeysPlain 中重新做一次輪詢,將失效的selectKey移除,
// 以保證selectKeySet的有效性
if (cancelledKeys >= CLEANUP_INTERVAL) {
cancelledKeys = 0;
needsToSelectAgain = true;
}
}
}
- 調用JDK NIO SelectionKey的API cancel方法,將Channel從Selector中取消掉。SelectionKey#cancel方法調用完畢后,此時調用SelectionKey#isValid將會返回false。SelectionKey#cancel方法調用后,Selector會將要取消的這個SelectionKey加入到Selector中的cancelledKeys集合中。
public abstract class AbstractSelector extends Selector {
private final Set<SelectionKey> cancelledKeys = new HashSet<SelectionKey>();
void cancel(SelectionKey k) {
synchronized (cancelledKeys) {
cancelledKeys.add(k);
}
}
}
- 當Channel對應的SelectionKey取消完畢后,Channel取消計數器cancelledKeys 會加1,當cancelledKeys = 256時,將needsToSelectAgain 設置為true。
- 隨后在Selector的下一次輪詢過程中,會將cancelledKeys集合中的SelectionKey從Selector中所有的KeySet中移除。這里的KeySet包括Selector用于存放就緒SelectionKey的selectedKeys集合,以及用于存放所有注冊的Channel對應的SelectionKey的keys集合。
public abstract class SelectorImpl extends AbstractSelector {
protected Set<SelectionKey> selectedKeys = new HashSet();
protected HashSet<SelectionKey> keys = new HashSet();
.....................省略...............
}
我們看到Reactor線程中對needsToSelectAgain 的判斷是在processSelectedKeysPlain方法處理IO就緒的SelectionKey的循環體中進行判斷的。
之所以這里特別提到needsToSelectAgain 判斷的位置,是要讓大家注意到此時Reactor正在處理本次輪詢的IO就緒事件。
而前邊也說了,當調用SelectionKey#cancel方法后,需要等到下次輪詢的過程中Selector才會將這些取消的SelectionKey從Selector中的所有KeySet集合中移除,當然這里也包括就緒集合selectedKeys 。
當在本次輪詢期間,假如大量的Channel從Selector中取消,Selector中的就緒集合selectedKeys 中依然會保存這些Channel對應SelectionKey直到下次輪詢。那么當然會影響本次輪詢結果selectedKeys的有效性。
所以為了保證Selector中所有KeySet的有效性,需要在Channel取消個數達到256時,觸發一次selectNow,目的是清除無效的SelectionKey。
private void selectAgain() {
needsToSelectAgain = false;
try {
selector.selectNow();
} catch (Throwable t) {
logger.warn("Failed to update SelectionKeys.", t);
}
}
到這里,我們就對JDK 原生 Selector的處理方式processSelectedKeysPlain方法就介紹完了,其實 對IO就緒事件的處理邏輯都是一樣的,在我們理解了processSelectedKeysPlain方法后,
processSelectedKeysOptimized方法對IO就緒事件的處理,我們理解起來就非常輕松了。
3.2 processSelectedKeysOptimized
Netty默認會采用優化過的Selector對IO就緒事件的處理。但是處理邏輯是大同小異的。下面我們主要介紹一下這兩個方法的不同之處。
private void processSelectedKeysOptimized() {
// 在openSelector的時候將JDK中selector實現類中得selectedKeys和publicSelectKeys字段類型
// 由原來的HashSet類型替換為 Netty優化后的數組實現的SelectedSelectionKeySet類型
for (int i = 0; i < selectedKeys.size; ++i) {
final SelectionKey k = selectedKeys.keys[i];
// 對應迭代器中得remove selector不會自己清除selectedKey
selectedKeys.keys[i] = null;
final Object a = k.attachment();
if (a instanceof AbstractNioChannel) {
processSelectedKey(k, (AbstractNioChannel) a);
} else {
@SuppressWarnings("unchecked")
NioTask<SelectableChannel> task = (NioTask<SelectableChannel>) a;
processSelectedKey(k, task);
}
if (needsToSelectAgain) {
selectedKeys.reset(i + 1);
selectAgain();
i = -1;
}
}
}
- JDK NIO 原生 Selector存放IO就緒的SelectionKey的集合為HashSet類型的selectedKeys 。而Netty為了優化對selectedKeys 集合的遍歷效率采用了自己實現的SelectedSelectionKeySet類型,從而用對數組的遍歷代替用HashSet的迭代器遍歷。
- Selector會在每次輪詢到IO就緒事件時,將IO就緒的Channel對應的SelectionKey插入到selectedKeys集合,但是Selector只管向selectedKeys集合放入IO就緒的SelectionKey,當SelectionKey被處理完畢后,Selector是不會自己主動將其從selectedKeys集合中移除的,典型的管殺不管埋。所以需要Netty自己在遍歷到IO就緒的 SelectionKey后,將其刪除。
- 在processSelectedKeysPlain中是直接將其從迭代器中刪除。
- 在processSelectedKeysOptimized中將其在數組中對應的位置置為Null,方便垃圾回收。
- 在最后清除無效的SelectionKey時,在processSelectedKeysPlain中由于采用的是JDK NIO 原生的Selector,所以只需要執行SelectAgain就可以,Selector會自動清除無效Key。
但是在processSelectedKeysOptimized 中由于是Netty自己實現的優化類型,所以需要Netty自己將SelectedSelectionKeySet數組中的SelectionKey全部清除,最后在執行SelectAgain。
好了,到這里,我們就將Reactor線程如何處理IO就緒事件的整個過程講述完了,下面我們就該到了介紹Reactor線程如何處理Netty框架中的異步任務了。
4. Reactor線程處理異步任務
Netty關于處理異步任務的方法有兩個:
- 一個是無超時時間限制的runAllTasks()方法。當ioRatio設置為100時,Reactor線程會先一股腦的處理IO就緒事件,然后在一股腦的執行異步任務,并沒有時間的限制。
- 另一個是有超時時間限制的runAllTasks(long timeoutNanos)方法。當ioRatio != 100時,Reactor線程執行異步任務會有時間限制,優先一股腦的處理完IO就緒事件統計出執行IO任務耗時ioTime。根據公式ioTime * (100 - ioRatio) / ioRatio)計算出Reactor線程執行異步任務的超時時間。在超時時間限定范圍內,執行有限的異步任務。
下面我們來分別看下這兩個執行異步任務的方法處理邏輯:
4.1 runAllTasks()
protected boolean runAllTasks() {
assert inEventLoop();
boolean fetchedAll;
boolean ranAtLeastOne = false;
do {
//將到達執行時間的定時任務轉存到普通任務隊列taskQueue中,統一由Reactor線程從taskQueue中取出執行
fetchedAll = fetchFromScheduledTaskQueue();
if (runAllTasksFrom(taskQueue)) {
ranAtLeastOne = true;
}
} while (!fetchedAll); // keep on processing until we fetched all scheduled tasks.
if (ranAtLeastOne) {
lastExecutionTime = ScheduledFutureTask.nanoTime();
}
//執行尾部隊列任務
afterRunningAllTasks();
return ranAtLeastOne;
}
Reactor線程執行異步任務的核心邏輯就是:
- 先將到期的定時任務一股腦的從定時任務隊列scheduledTaskQueue中取出并轉存到普通任務隊列taskQueue中。
- 由Reactor線程統一從普通任務隊列taskQueue中取出任務執行。
- 在Reactor線程執行完定時任務和普通任務后,開始執行存儲于尾部任務隊列tailTasks中的尾部任務。
下面我們來分別看下上述幾個核心步驟的實現:
4.1.1 fetchFromScheduledTaskQueue
/**
* 從定時任務隊列中取出達到deadline執行時間的定時任務
* 將定時任務 轉存到 普通任務隊列taskQueue中,統一由Reactor線程從taskQueue中取出執行
*
* */
private boolean fetchFromScheduledTaskQueue() {
if (scheduledTaskQueue == null || scheduledTaskQueue.isEmpty()) {
return true;
}
long nanoTime = AbstractScheduledEventExecutor.nanoTime();
for (;;) {
//從定時任務隊列中取出到達執行deadline的定時任務 deadline <= nanoTime
Runnable scheduledTask = pollScheduledTask(nanoTime);
if (scheduledTask == null) {
return true;
}
if (!taskQueue.offer(scheduledTask)) {
// taskQueue沒有空間容納 則在將定時任務重新塞進定時任務隊列中等待下次執行
scheduledTaskQueue.add((ScheduledFutureTask<?>) scheduledTask);
return false;
}
}
}
- 獲取當前要執行異步任務的時間點nanoTime
final class ScheduledFutureTask<V> extends PromiseTask<V> implements ScheduledFuture<V>, PriorityQueueNode {
private static final long START_TIME = System.nanoTime();
static long nanoTime() {
return System.nanoTime() - START_TIME;
}
}
- 從定時任務隊列中找出deadline <= nanoTime的異步任務。也就是說找出所有到期的定時任務。
protected final Runnable pollScheduledTask(long nanoTime) {
assert inEventLoop();
//從定時隊列中取出要執行的定時任務 deadline <= nanoTime
ScheduledFutureTask<?> scheduledTask = peekScheduledTask();
if (scheduledTask == null || scheduledTask.deadlineNanos() - nanoTime > 0) {
return null;
}
//符合取出條件 則取出
scheduledTaskQueue.remove();
scheduledTask.setConsumed();
return scheduledTask;
}
- 將到期的定時任務插入到普通任務隊列taskQueue中,如果taskQueue已經沒有空間容納新的任務,則將定時任務重新塞進定時任務隊列中等待下次拉取。
if (!taskQueue.offer(scheduledTask)) {
scheduledTaskQueue.add((ScheduledFutureTask<?>) scheduledTask);
return false;
}
- fetchFromScheduledTaskQueue方法的返回值為true時表示到期的定時任務已經全部拉取出來并轉存到普通任務隊列中。
返回值為false時表示到期的定時任務只拉取出來一部分,因為這時普通任務隊列已經滿了,當執行完普通任務時,還需要在進行一次拉取。
當到期的定時任務從定時任務隊列中拉取完畢或者當普通任務隊列已滿時,這時就會停止拉取,開始執行普通任務隊列中的異步任務。
4.1.2 runAllTasksFrom
protected final boolean runAllTasksFrom(Queue<Runnable> taskQueue) {
Runnable task = pollTaskFrom(taskQueue);
if (task == null) {
return false;
}
for (;;) {
safeExecute(task);
task = pollTaskFrom(taskQueue);
if (task == null) {
return true;
}
}
}
- 首先runAllTasksFrom 方法的返回值表示是否執行了至少一個異步任務。后面會賦值給ranAtLeastOne變量,這個返回值我們后續會用到。
- 從普通任務隊列中拉取異步任務。
protected static Runnable pollTaskFrom(Queue<Runnable> taskQueue) {
for (;;) {
Runnable task = taskQueue.poll();
if (task != WAKEUP_TASK) {
return task;
}
}
}
- Reactor線程執行異步任務。
protected static void safeExecute(Runnable task) {
try {
task.run();
} catch (Throwable t) {
logger.warn("A task raised an exception. Task: {}", task, t);
}
}
4.1.3 afterRunningAllTasks
if (ranAtLeastOne) {
lastExecutionTime = ScheduledFutureTask.nanoTime();
}
//執行尾部隊列任務
afterRunningAllTasks();
return ranAtLeastOne;
如果Reactor線程執行了至少一個異步任務,那么設置lastExecutionTime,并將ranAtLeastOne標識返回。這里的ranAtLeastOne標識就是runAllTasksFrom方法的返回值。
最后執行收尾任務,也就是執行尾部任務隊列中的尾部任務。
@Override
protected void afterRunningAllTasks() {
runAllTasksFrom(tailTasks);
}
4.2 runAllTasks(long timeoutNanos)
這里在處理異步任務的核心邏輯還是和之前一樣的,只不過就是多了對超時時間的控制。
protected boolean runAllTasks(long timeoutNanos) {
fetchFromScheduledTaskQueue();
Runnable task = pollTask();
if (task == null) {
//普通隊列中沒有任務時 執行隊尾隊列的任務
afterRunningAllTasks();
return false;
}
//異步任務執行超時deadline
final long deadline = timeoutNanos > 0 ? ScheduledFutureTask.nanoTime() + timeoutNanos : 0;
long runTasks = 0;
long lastExecutionTime;
for (;;) {
safeExecute(task);
runTasks ++;
//每運行64個異步任務 檢查一下 是否達到 執行deadline
if ((runTasks & 0x3F) == 0) {
lastExecutionTime = ScheduledFutureTask.nanoTime();
if (lastExecutionTime >= deadline) {
//到達異步任務執行超時deadline,停止執行異步任務
break;
}
}
task = pollTask();
if (task == null) {
lastExecutionTime = ScheduledFutureTask.nanoTime();
break;
}
}
afterRunningAllTasks();
this.lastExecutionTime = lastExecutionTime;
return true;
}
- 首先還是通過fetchFromScheduledTaskQueue 方法從Reactor中的定時任務隊列中拉取到期的定時任務,轉存到普通任務隊列中。當普通任務隊列已滿或者到期定時任務全部拉取完畢時,停止拉取。
- 將ScheduledFutureTask.nanoTime() + timeoutNanos 作為Reactor線程執行異步任務的超時時間點deadline。
- 由于系統調用System.nanoTime()需要一定的系統開銷,所以每執行完64個異步任務的時候才會去檢查一下執行時間是否到達了deadline。如果到達了執行截止時間deadline則退出停止執行異步任務。如果沒有到達deadline則繼續從普通任務隊列中取出任務循環執行下去。
從這個細節又可以看出Netty對性能的考量還是相當講究的
流程走到這里,我們就對Reactor的整個運行框架以及如何輪詢IO就緒事件,如何處理IO就緒事件,如何執行異步任務的具體實現邏輯就剖析完了。
下面還有一個小小的尾巴,就是Netty是如何解決文章開頭提到的JDK NIO Epoll 的空輪詢BUG的,讓我們一起來看下吧~~~
5. 解決JDK Epoll空輪詢BUG
前邊提到,由于JDK NIO Epoll的空輪詢BUG存在,這樣會導致Reactor線程在沒有任何事情可做的情況下被意外喚醒,導致CPU空轉。
其實Netty也沒有從根本上解決這個JDK BUG,而是選擇巧妙的繞過這個BUG。
下面我們來看下Netty是如何做到的。
if (ranTasks || strategy > 0) {
if (selectCnt > MIN_PREMATURE_SELECTOR_RETURNS && logger.isDebugEnabled()) {
logger.debug("Selector.select() returned prematurely {} times in a row for Selector {}.",
selectCnt - 1, selector);
}
selectCnt = 0;
} else if (unexpectedSelectorWakeup(selectCnt)) { // Unexpected wakeup (unusual case)
//既沒有IO就緒事件,也沒有異步任務,Reactor線程從Selector上被異常喚醒 觸發JDK Epoll空輪訓BUG
//重新構建Selector,selectCnt歸零
selectCnt = 0;
}
在Reactor線程處理完IO就緒事件和異步任務后,會檢查這次Reactor線程被喚醒有沒有執行過異步任務和有沒有IO就緒的Channel。
- boolean ranTasks 這時候就派上了用場,這個ranTasks正是前邊我們在講runAllTasks方法時提到的返回值。用來表示是否執行過至少一次異步任務。
- int strategy 正是JDK NIO Selector的select方法的返回值,用來表示IO就緒的Channel個數。
如果ranTasks = false 并且 strategy = 0這代表Reactor線程本次既沒有異步任務執行也沒有IO就緒的Channel需要處理卻被意外的喚醒。等于是空轉了一圈啥也沒干。
這種情況下Netty就會認為可能已經觸發了JDK NIO Epoll的空輪詢BUG
int SELECTOR_AUTO_REBUILD_THRESHOLD = SystemPropertyUtil.getInt("io.netty.selectorAutoRebuildThreshold", 512);
private boolean unexpectedSelectorWakeup(int selectCnt) {
..................省略...............
/**
* 走到這里的條件是 既沒有IO就緒事件,也沒有異步任務,Reactor線程從Selector上被異常喚醒
* 這種情況可能是已經觸發了JDK Epoll的空輪詢BUG,如果這種情況持續512次 則認為可能已經觸發BUG,于是重建Selector
*
* */
if (SELECTOR_AUTO_REBUILD_THRESHOLD > 0 &&
selectCnt >= SELECTOR_AUTO_REBUILD_THRESHOLD) {
// The selector returned prematurely many times in a row.
// Rebuild the selector to work around the problem.
logger.warn("Selector.select() returned prematurely {} times in a row; rebuilding Selector {}.",
selectCnt, selector);
rebuildSelector();
return true;
}
return false;
}
- 如果Reactor這種意外喚醒的次數selectCnt 超過了配置的次數SELECTOR_AUTO_REBUILD_THRESHOLD ,那么Netty就會認定這種情況可能已經觸發了JDK NIO Epoll空輪詢BUG,則重建Selector(將之前注冊的所有Channel重新注冊到新的Selector上并關閉舊的Selector),selectCnt計數歸0。
SELECTOR_AUTO_REBUILD_THRESHOLD 默認為512,可以通過系統變量-D io.netty.selectorAutoRebuildThreshold指定自定義數值。
- 如果selectCnt小于SELECTOR_AUTO_REBUILD_THRESHOLD ,則返回不做任何處理,selectCnt繼續計數。
Netty就這樣通過計數Reactor被意外喚醒的次數,如果計數selectCnt達到了512次,則通過重建Selector 巧妙的繞開了JDK NIO Epoll空輪詢BUG。
我們在日常開發中也可以借鑒Netty這種處理問題的思路,比如在項目開發中,當我們發現我們無法保證徹底的解決一個問題時,或者為了解決這個問題導致我們的投入產出比不高時,我們就該考慮是不是應該換一種思路去繞過這個問題,從而達到同樣的效果。*解決問題的最高境界就是不解決它,巧妙的繞過去~~~~~!!*
總結
本文花了大量的篇幅介紹了Reactor整體的運行框架,并深入介紹了Reactor核心的工作模塊的具體實現邏輯。
通過本文的介紹我們知道了Reactor如何輪詢注冊在其上的所有Channel上感興趣的IO事件,以及Reactor如何去處理IO就緒的事件,如何執行Netty框架中提交的異步任務和定時任務。
最后介紹了Netty如何巧妙的繞過JDK NIO Epoll空輪詢的BUG,達到解決問題的目的。