日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

>

目錄
  • 一、相關(guān)實(shí)際問(wèn)題
  • 二、網(wǎng)絡(luò)包發(fā)送過(guò)程總覽
  • 三、網(wǎng)卡啟動(dòng)準(zhǔn)備
  • 四、數(shù)據(jù)從用戶進(jìn)程到網(wǎng)卡的詳細(xì)過(guò)程
    • 1)系統(tǒng)調(diào)用實(shí)現(xiàn)
    • 2)傳輸層處理
    • 3)網(wǎng)絡(luò)層發(fā)送處理
    • 4)鄰居子系統(tǒng)
    • 5)網(wǎng)絡(luò)設(shè)備子系統(tǒng)
    • 6)軟中斷調(diào)度
    • 7)igb網(wǎng)卡驅(qū)動(dòng)發(fā)送
  • 五、RingBuffer內(nèi)存回收
    • 六、問(wèn)題解答

      一、相關(guān)實(shí)際問(wèn)題

      • 查看內(nèi)核發(fā)送數(shù)據(jù)消耗的CPU時(shí)應(yīng)該看sy還是si
      • 在服務(wù)器上查看/proc/softirqs,為什么NET_RX要比NET_TX大得多
      • 發(fā)送網(wǎng)絡(luò)數(shù)據(jù)的時(shí)候都涉及那些內(nèi)存拷貝操作
      • 零拷貝到底是怎么回事
      • 為什么Kafka的網(wǎng)絡(luò)性能很突出

      二、網(wǎng)絡(luò)包發(fā)送過(guò)程總覽

      深入理解Linux網(wǎng)絡(luò)之內(nèi)核是如何發(fā)送網(wǎng)絡(luò)包的

      • 調(diào)用系統(tǒng)調(diào)用send發(fā)送
      • 內(nèi)存拷貝
      • 協(xié)議處理
      • 進(jìn)入驅(qū)動(dòng)RingBuffer
      • 實(shí)際發(fā)送
      • 中斷通知發(fā)送完成
      • 清理RingBuffer

      三、網(wǎng)卡啟動(dòng)準(zhǔn)備

      現(xiàn)在的服務(wù)器上的網(wǎng)卡一般都是支持多隊(duì)列的。每一個(gè)隊(duì)列都是由一個(gè)RingBuffer表示的,開(kāi)啟了多隊(duì)列以后的網(wǎng)卡就會(huì)有多個(gè)RingBuffer。

      網(wǎng)卡啟動(dòng)時(shí)最重要的任務(wù)就是分配和初始化RingBuffer,在網(wǎng)卡啟動(dòng)的時(shí)候會(huì)調(diào)用到__igb_open函數(shù),RingBuffer就是在這里分配的。

      static int __igb_open(struct net_device *netdev, bool resuming)
      {
          // 分配傳輸描述符數(shù)組
          err = igb_setup_all_tx_resources(adpater);
          // 分配接收描述符數(shù)組
          err = igb_setup_all_rx_resources(adpater);
          // 注冊(cè)中斷處理函數(shù)
          err = igb_request_irq(adapter);
          if(err)
      	goto err_req_irq;
          // 啟用NAPI
          for(i = 0; i < adapter->num_q_vectors; i++)
      	napi_enable(&(adapter->q_vector[i]->napi));
          ......
      }
      static int igb_setup_all_tx_resources(struct igb_adapter *adapter)
      {
          // 有幾個(gè)隊(duì)列就構(gòu)造幾個(gè)RingBuffer
          for(int i = 0; i < adapter->num_tx_queues; i++) {
        	igb_setup_tx_resources(adapter->tx_ring[i]);
          }
      }

      igb_setup_tx_resources內(nèi)部也是申請(qǐng)了兩個(gè)數(shù)組,igb_tx_buffer數(shù)組和e1000_adv_tx_desc數(shù)組,一個(gè)供內(nèi)核使用,一個(gè)供網(wǎng)卡硬件使用

      在這個(gè)時(shí)候它們之間還沒(méi)什么關(guān)系,將來(lái)在發(fā)送數(shù)據(jù)的時(shí)候這兩個(gè)數(shù)組的指針都指向同一個(gè)skb,這樣內(nèi)核和硬件就能共同訪問(wèn)同樣的數(shù)據(jù)了

      內(nèi)核往skb寫(xiě)數(shù)據(jù),網(wǎng)卡硬件負(fù)責(zé)發(fā)送

      硬中斷的處理函數(shù)igb_msix_ring也是在__igb_open函數(shù)中注冊(cè)的

      四、數(shù)據(jù)從用戶進(jìn)程到網(wǎng)卡的詳細(xì)過(guò)程

      1)系統(tǒng)調(diào)用實(shí)現(xiàn)

      send系統(tǒng)調(diào)用內(nèi)部真正使用的是sendto系統(tǒng)調(diào)用,主要做了兩件事:

      • 在內(nèi)核中把真正的socket找出來(lái)
      • 構(gòu)造struct msghdr對(duì)象, 把用戶傳入的數(shù)據(jù),比如buffer地址(用戶待發(fā)送數(shù)據(jù)的指針)、數(shù)據(jù)長(zhǎng)度、發(fā)送標(biāo)志都裝進(jìn)去
      SYS_CALL_DEFINE6(sendto, ......)
      {
          sock = sockfd_lookup_light(fd, &err, &fput_needed);
          struct msghdr msg;
          struct iovec iov;
          iov.iov_base = buff;
          iov.iov_len = len;
          msg.msg_iovlen = &iov;
          msg.msg_iov = &iov;
          msg.msg_flags = flags;
          ......
          sock_sendmsg(sock, &msg, len);
      }

      sock_sendmsg經(jīng)過(guò)一系列調(diào)用,最終來(lái)到__sock_sendmsg_nosec中調(diào)用sock->ops->sendmsg

      對(duì)于AF_INET協(xié)議族的socket,sendmsg的實(shí)現(xiàn)統(tǒng)一為inet_sendmsg

      2)傳輸層處理

      1. 傳輸層拷貝

      在進(jìn)入?yún)f(xié)議棧inet_sendmsg以后,內(nèi)核接著會(huì)找到sock中具體的協(xié)議處理函數(shù),對(duì)于TCP協(xié)議而言,sk_prot操作函數(shù)集實(shí)例為tcp_prot,其中.sendmsg的實(shí)現(xiàn)為tcp_sendmsg(對(duì)于UDP而言中的為udp_sendmsg)。

      int inet_sendmsg(......)
      {
          ......
          return sk->sk_prot->sendmsg(iocb, sk, msg, size);
      }
      int tcp_sendmsg(......)
      {
          ......  
          // 獲取用戶傳遞過(guò)來(lái)的數(shù)據(jù)和標(biāo)志
          iov = msg->msg_iov; // 用戶數(shù)據(jù)地址
          iovlen = msg->msg_iovlen; // 數(shù)據(jù)塊數(shù)為1
          flags = msg->msg_flags; // 各種標(biāo)志
          copied = 0; // 已拷貝到發(fā)送隊(duì)列的字節(jié)數(shù)
          // 遍歷用戶層的數(shù)據(jù)塊
          while(--iovlen >= 0) {
      	// 待發(fā)送數(shù)據(jù)塊的長(zhǎng)度
      	size_t seglen = iov->len;
        	// 待發(fā)送數(shù)據(jù)塊的地址
      	unsigned char __user *from = iov->iov_base;
      	// 指向下一個(gè)數(shù)據(jù)塊
      	iovlen++;
          	......
         	while(seglen > 0) {
      	    int copy = 0;
      	    int max = size_goal; // 單個(gè)skb最大的數(shù)據(jù)長(zhǎng)度
      	    skb = tcp_write_queue_tail(sk); // 獲取發(fā)送隊(duì)列最后一個(gè)skb
      	    // 用于返回發(fā)送隊(duì)列第一個(gè)數(shù)據(jù)包,如果不是NULL說(shuō)明還有未發(fā)送的數(shù)據(jù)
      	    if(tcp_send_head(sk)) { 
      		...
      		copy = max - skb->len; // 該skb還可以存放的字節(jié)數(shù)
      	    }
      	    // 需要申請(qǐng)新的skb
      	    if(copy <= 0) {
      		// 發(fā)送隊(duì)列的總大小大于等于發(fā)送緩存的上限,或尚發(fā)送緩存中未發(fā)送的數(shù)據(jù)量超過(guò)了用戶的設(shè)置值,進(jìn)入等待
      		if(!sk_stream_memory_free(sk)) {
      		    goto wait_for_sndbuf;
      		}
      		// 申請(qǐng)一個(gè)skb
      		skb = sk_stream_alloc_skb(sk, select_size(sk, sg), sk->sk_allocation);
      		...
      		// 把skb添加到sock的發(fā)送隊(duì)列尾部
      		skb_entail(sk, skb);
      	    }
      	    if(copy > seglen)
      		copy = seglen;
      	    // skb的線性數(shù)據(jù)區(qū)中有足夠的空間
      	    if(skb_availroom(skb)) > 0) {
      		copy = min_t(int, copy, skb_availroom(skb));
      		// 將用戶空間的數(shù)據(jù)拷貝到內(nèi)核空間,同時(shí)計(jì)算校驗(yàn)和
      		err = skb_add_data_nocache(sk, skb, from, copy);
      		if(err)
      		    goto do_fault;
      	    }
      	    // 線性數(shù)據(jù)區(qū)用完,使用分頁(yè)區(qū)
      	    else{
      		...
      	    }

      這個(gè)函數(shù)的實(shí)現(xiàn)邏輯比較復(fù)雜,代碼總只顯示了skb拷貝的相關(guān)部分,總體邏輯如下:

      1. 如果使用了TCP Fast Open,則會(huì)在發(fā)送SYN包的同時(shí)帶上數(shù)據(jù)

      2. 如果連接尚未建好,不處于ESTABLISHED或者CLOSE_WAIT狀態(tài)則進(jìn)程進(jìn)入睡眠,等待三次握手的完成

      3. 獲取當(dāng)前的MSS(最大報(bào)文長(zhǎng)度)和size_goal(一個(gè)理想的TCP數(shù)據(jù)包大小,受MTU、MSS、TCP窗口大小影響)

        • 如果網(wǎng)卡支持GSO(利用網(wǎng)卡分片),size_goal會(huì)是MSS的整數(shù)倍
      4. 遍歷用戶層的數(shù)據(jù)塊數(shù)組

        1. 獲取發(fā)送隊(duì)列的最后一個(gè)skb,如果是尚未發(fā)送的,且長(zhǎng)度未到達(dá)size_goal,那么向這個(gè)skb繼續(xù)追加數(shù)據(jù)

        2. 否則申請(qǐng)一個(gè)新的skb來(lái)裝載數(shù)據(jù)

          1. 如果發(fā)送隊(duì)列的總大小大于等于發(fā)送緩存的上限,或者發(fā)送緩存中尚未發(fā)送的數(shù)據(jù)量超過(guò)了用戶的設(shè)置值:設(shè)置發(fā)送時(shí)發(fā)送緩存不夠的標(biāo)志,進(jìn)入等待
          2. 申請(qǐng)一個(gè)skb,其線性區(qū)的大小為通過(guò)select_size()得到的線性數(shù)據(jù)區(qū)中TCP負(fù)荷的大小和最大的協(xié)議頭長(zhǎng)度,申請(qǐng)失敗則等待可用內(nèi)存
          3. 前兩步成功則更新skb的TCP控制塊字段,把skb加入發(fā)送隊(duì)列隊(duì)尾,增加發(fā)送隊(duì)列的大小,減少預(yù)分配緩存的大小
        3. 將數(shù)據(jù)拷貝至skb中

          1. 如果skb的線性數(shù)據(jù)區(qū)還有剩余,就復(fù)制到線性數(shù)據(jù)區(qū)同時(shí)計(jì)算校驗(yàn)和

          2. 如果已經(jīng)用完則使用分頁(yè)區(qū)

            1. 檢查分頁(yè)區(qū)是否有可用空間,沒(méi)有則申請(qǐng)新的page,申請(qǐng)失敗則說(shuō)明內(nèi)存不足,之后會(huì)設(shè)置TCP內(nèi)存壓力標(biāo)志,減小發(fā)送緩沖區(qū)的上限,睡眠等待內(nèi)存
            2. 判斷能否往最后一個(gè)分頁(yè)追加數(shù)據(jù),不能追加時(shí),檢查分頁(yè)數(shù)是否已經(jīng)達(dá)到了上限或網(wǎng)卡是否不支持分散聚合,如果是的話就將skb設(shè)置為PSH標(biāo)志,然后回到4.2中重新申請(qǐng)一個(gè)skb來(lái)繼續(xù)填裝數(shù)據(jù)
            3. 從系統(tǒng)層面判斷此次分頁(yè)發(fā)送緩存的申請(qǐng)是否合法
            4. 拷貝用戶空間的數(shù)據(jù)到skb的分頁(yè)中,同時(shí)計(jì)算校驗(yàn)和。更新skb的長(zhǎng)度字段,更新sock的發(fā)送隊(duì)列大小和預(yù)分配緩存
            5. 如果把數(shù)據(jù)追加到最后一個(gè)分頁(yè)了,更新最后一個(gè)分頁(yè)的數(shù)據(jù)大小。否則初始化新的分頁(yè)
        4. 拷貝成功后更新:發(fā)送隊(duì)列的最后一個(gè)序號(hào)、skb的結(jié)束序號(hào)、已經(jīng)拷貝到發(fā)送隊(duì)列的數(shù)據(jù)量

        5. 發(fā)送數(shù)據(jù)

          1. 如果所有數(shù)據(jù)都拷貝好了就退出循環(huán)進(jìn)行發(fā)送
          2. 如果skb還可以繼續(xù)裝填數(shù)據(jù)或者發(fā)送的是帶外數(shù)據(jù)那么就繼續(xù)拷貝數(shù)據(jù)先不發(fā)送
          3. 如果為發(fā)送的數(shù)據(jù)已經(jīng)超過(guò)最大窗口的一半則設(shè)置PUSH標(biāo)志后盡可能地將發(fā)送隊(duì)列中的skb發(fā)送出去
          4. 如果當(dāng)前skb就是發(fā)送隊(duì)列中唯一一個(gè)skb,則將這一個(gè)skb發(fā)送出去
          5. 如果上述過(guò)程中出現(xiàn)緩存不足,且已經(jīng)有數(shù)據(jù)拷貝到發(fā)送隊(duì)列了也直接發(fā)送

      這里的發(fā)送數(shù)據(jù)只是指調(diào)用tcp_push或者tcp_push_one(情況4)或者_(dá)_tcp_push_pending_frames(情況3)嘗試發(fā)送,并不一定真的發(fā)送到網(wǎng)絡(luò)(tcp_sendmsg主要任務(wù)只是將應(yīng)用程序的數(shù)據(jù)封裝成網(wǎng)絡(luò)數(shù)據(jù)包放到發(fā)送隊(duì)列)。

      數(shù)據(jù)何時(shí)實(shí)際被發(fā)送到網(wǎng)絡(luò),取決于許多因素,包括但不限于:

      • TCP的擁塞控制算法:TCP使用了復(fù)雜的擁塞控制算法來(lái)防止網(wǎng)絡(luò)過(guò)載。如果TCP判斷網(wǎng)絡(luò)可能出現(xiàn)擁塞,它可能會(huì)延遲發(fā)送數(shù)據(jù)。
      • 發(fā)送窗口的大小:TCP使用發(fā)送窗口和接收窗口來(lái)控制數(shù)據(jù)的發(fā)送和接收。如果發(fā)送窗口已滿(即已發(fā)送但未被確認(rèn)的數(shù)據(jù)量達(dá)到了發(fā)送窗口的大小),那么TCP必須等待接收到確認(rèn)信息后才能發(fā)送更多的數(shù)據(jù)。
      • 網(wǎng)絡(luò)設(shè)備(如網(wǎng)卡)的狀態(tài):如果網(wǎng)絡(luò)設(shè)備繁忙或出現(xiàn)錯(cuò)誤,數(shù)據(jù)可能會(huì)被暫時(shí)掛起而無(wú)法立即發(fā)送。

      struct sk_buff(常簡(jiǎn)稱為skb)在Linux網(wǎng)絡(luò)棧中表示一個(gè)網(wǎng)絡(luò)包。它有兩個(gè)主要的數(shù)據(jù)區(qū)用來(lái)存儲(chǔ)數(shù)據(jù),分別是線性數(shù)據(jù)區(qū)(linear data area)和分頁(yè)區(qū)(paged data area)。

      1. 線性數(shù)據(jù)區(qū)(linear data area): 這個(gè)區(qū)域連續(xù)存儲(chǔ)數(shù)據(jù),并且能夠容納一個(gè)完整的網(wǎng)絡(luò)包的所有協(xié)議頭,比如MAC頭、IP頭和TCP/UDP頭等。除了協(xié)議頭部,線性數(shù)據(jù)區(qū)還可以包含一部分或全部的數(shù)據(jù)負(fù)載。每個(gè)skb都有一個(gè)線性數(shù)據(jù)區(qū)。
      2. 分頁(yè)區(qū)(paged data area): 一些情況下,為了優(yōu)化內(nèi)存使用和提高性能,skb的數(shù)據(jù)負(fù)載部分可以存儲(chǔ)在一個(gè)或多個(gè)內(nèi)存頁(yè)中,而非線性數(shù)據(jù)區(qū)。分頁(yè)區(qū)的數(shù)據(jù)通常只包含數(shù)據(jù)負(fù)載部分,不包含協(xié)議頭部。如果一個(gè)skb的數(shù)據(jù)全部放入了線性數(shù)據(jù)區(qū),那么這個(gè)skb就沒(méi)有分頁(yè)區(qū)。

      這種設(shè)計(jì)的好處是,對(duì)于大的數(shù)據(jù)包,可以將其數(shù)據(jù)負(fù)載部分存儲(chǔ)在分頁(yè)區(qū),避免對(duì)大塊連續(xù)內(nèi)存的分配,從而提高內(nèi)存使用效率,減少內(nèi)存碎片。另外,這種設(shè)計(jì)也可以更好地支持零拷貝技術(shù)。例如,當(dāng)網(wǎng)絡(luò)棧接收到一個(gè)大數(shù)據(jù)包時(shí),可以直接將數(shù)據(jù)包的數(shù)據(jù)負(fù)載部分留在原始的接收緩沖區(qū)(即分頁(yè)區(qū)),而無(wú)需將其拷貝到線性數(shù)據(jù)區(qū),從而節(jié)省了內(nèi)存拷貝的開(kāi)銷(xiāo)。

      2. 傳輸層發(fā)送

      上面的發(fā)送數(shù)據(jù)步驟,不論是調(diào)用__tcp_push_pending_frames還是tcp_push_one,最終都會(huì)執(zhí)行到tcp_write_xmit(在網(wǎng)絡(luò)協(xié)議中學(xué)到滑動(dòng)窗口、擁塞控制就是在這個(gè)函數(shù)中完成的),函數(shù)的主要邏輯如下:

      1. 如果要發(fā)送多個(gè)數(shù)據(jù)段則先發(fā)送一個(gè)路徑mtu探測(cè)
      2. 檢測(cè)擁塞窗口的大小,如果窗口已滿(通過(guò)窗口大小-正在網(wǎng)絡(luò)上傳輸?shù)陌鼣?shù)目判斷)則不發(fā)送
      3. 檢測(cè)當(dāng)前報(bào)文是否完全在發(fā)送窗口內(nèi),如果不是則不發(fā)送
      4. 判斷是否需要延時(shí)發(fā)送(取決于擁塞窗口和發(fā)送窗口)
      5. 根據(jù)需要對(duì)數(shù)據(jù)包進(jìn)行分段(取決于擁塞窗口和發(fā)送窗口)
      6. tcp_transmit_skb發(fā)送數(shù)據(jù)包
      7. 如果push_one則結(jié)束循環(huán),否則繼續(xù)遍歷隊(duì)列發(fā)送
      8. 結(jié)束循環(huán)后如果本次有數(shù)據(jù)發(fā)送,則對(duì)TCP擁塞窗口進(jìn)行檢查確認(rèn)

      這里我們只關(guān)注發(fā)送的主過(guò)程,其他部分不過(guò)多展開(kāi),即來(lái)到tcp_transmit_skb函數(shù)

      static int tcp_transmit_skb(struct sock *sk, struct sk_buff *skb, int clone_it, gfp_t gfp_mask)
      {
          // 1.克隆新的skb出來(lái)
          if(likely(clone_it)) {
       	skb = skb_clone(skb, gfp_mask);
      	......
          }
          // 2.封裝TCP頭
          th = tcp_hdr(skb);
          th->source = inet->inet_sport;
          th->dest = inet->inet_dport;
          th->window = ...;
          th->urg = ...;
          ......
          // 3.調(diào)用網(wǎng)絡(luò)層發(fā)送接口
          err = icsk->icsk_af_ops->xmit(skb, &inet->cort.fl);
      }

      第一件事就是先克隆一個(gè)新的skb,因?yàn)閟kb后續(xù)在調(diào)用網(wǎng)絡(luò)層,最后到達(dá)網(wǎng)卡發(fā)送完成的時(shí)候,這個(gè)skb會(huì)被釋放掉。而TCP協(xié)議是支持丟失重傳的,在收到對(duì)方的ACK之前,這個(gè)skb不能被刪除掉。所以內(nèi)核的做法就是每次調(diào)用網(wǎng)卡發(fā)送的時(shí)候,實(shí)際上傳遞出去的是skb的一個(gè)拷貝。等收到ACK再真正刪除。

      第二件事是修改skb的TCP頭,根據(jù)實(shí)際情況把TCP頭設(shè)置好。實(shí)際上skb內(nèi)部包含了網(wǎng)絡(luò)協(xié)議中所有的頭,在設(shè)置TCP頭的時(shí)候,只是把指針指向skb合適的位置。后面設(shè)置IP頭的時(shí)候,再把指針挪動(dòng)一下即可,避免了頻繁的內(nèi)存申請(qǐng)和拷貝,提高效率。

      tcp_transmit_skb是發(fā)送數(shù)據(jù)位于傳輸層的最后一步,調(diào)用了網(wǎng)絡(luò)層提供的發(fā)送接口icsk->icsk_Af_ops->queue_xmit()之后就可以進(jìn)入網(wǎng)絡(luò)層進(jìn)行下一層的操作了。

      3)網(wǎng)絡(luò)層發(fā)送處理

      在tcp_ipv4中,queue_xmit指向的是ip_queue_xmit,具體實(shí)現(xiàn)如下:

      int ip_queue_xmit(struct sk_buff *skb, struct flowi *fl)
      {
          // 檢查socket中是否有緩存的路由表
          rt = (struct rtable*)__sk_dst_check(sk, 0);
          ......
          if(rt == null) {
        	// 沒(méi)有緩存則展開(kāi)查找路由項(xiàng)并緩存到socket中
      	rt = ip_route_output_ports(...);
       	sk_setup_caps(sk, &rt->dst);
          }
          // 為skb設(shè)置路由表
          skb_dst_set_noref(skb, &rt->dst);
          // 設(shè)置IP頭
          iph = ip_hdr(skb);
          ip->protocol = sk->sk_protocol;
          iph->ttl = ip_select_ttl(inet, &rt->dst);
          ip->frag_off = ...;
          ip_copy_addr(iph, f14);
          ......
          // 發(fā)送
          ip_local_out(skb);
      }

      這個(gè)函數(shù)主要做的就是找到該把這個(gè)包發(fā)往哪,并構(gòu)造好IP包頭。它會(huì)去查詢socket中是否有緩存的路由表,如果有則直接構(gòu)造包頭,如果沒(méi)有就去查詢并緩存到sokect,然后為skb設(shè)置路由表,最后封裝ip頭,發(fā)往ip_local_out函數(shù)。

      ip_local_out中主要會(huì)經(jīng)過(guò)__ip_local_out => nf_hook 的過(guò)程進(jìn)行netfilter的過(guò)濾。如果使用iptables配置了一些規(guī)則,那么這里將檢測(cè)到是否命中規(guī)則,然后進(jìn)行相應(yīng)的操作,如網(wǎng)絡(luò)地址轉(zhuǎn)換、數(shù)據(jù)包內(nèi)容修改、數(shù)據(jù)包過(guò)濾等。如果設(shè)置了非常復(fù)雜的netfilter規(guī)則,則在這個(gè)函數(shù)會(huì)導(dǎo)致進(jìn)程CPU的開(kāi)銷(xiāo)大增。經(jīng)過(guò)netfilter處理之后,(忽略其他部分)調(diào)用dst_output(skb)函數(shù)。

      dst_output會(huì)去調(diào)用skb_dst(skb)->output(skb),即找到skb的路由表(dst條目),然后調(diào)用路由表的output方法。這里是個(gè)函數(shù)指針,指向的是ip_output方法。

      在ip_output方法中首先會(huì)進(jìn)行一些簡(jiǎn)單的統(tǒng)計(jì)工作,隨后再次執(zhí)行netfilter過(guò)濾。過(guò)濾通過(guò)之后回調(diào)ip_finish_output

      在ip_finish_output中,會(huì)校驗(yàn)數(shù)據(jù)包的長(zhǎng)度,如果大于MTU,就會(huì)執(zhí)行分片。MTU的大小是通過(guò)MTU發(fā)現(xiàn)機(jī)制確定,在以太網(wǎng)中為1500字節(jié)。分片會(huì)帶來(lái)兩個(gè)問(wèn)題:

      1. 需要進(jìn)行額外的處理,會(huì)有性能開(kāi)銷(xiāo)
      2. 只要一個(gè)分片丟失,整個(gè)包都要重傳

      如果不需要分片則調(diào)用ip_finish_output2函數(shù),根據(jù)下一跳的IP地址查找鄰居項(xiàng),找不到就創(chuàng)建一個(gè),然后發(fā)給下一層——鄰居子系統(tǒng)。

      總體過(guò)程如下:

      1. ip_queue_xmit

        1. 查找并設(shè)置路由項(xiàng)
        2. 設(shè)置IP頭
      2. ip_local_out:netfilter過(guò)濾

      3. ip_output

        1. 統(tǒng)計(jì)工作
        2. 再次netfilter過(guò)濾
      4. ip_finish_output

        1. 大于MTU的話進(jìn)行分片
        2. 調(diào)用ip_finish_output2

      4)鄰居子系統(tǒng)

      鄰居子系統(tǒng)是位于網(wǎng)絡(luò)層和數(shù)據(jù)鏈路層中間的一個(gè)系統(tǒng),其作用是為網(wǎng)絡(luò)層提供一個(gè)下層的封裝,讓網(wǎng)絡(luò)層不用關(guān)心下層的地址信息,讓下層來(lái)決定發(fā)送到哪個(gè)MAC地址。

      鄰居子系統(tǒng)不位于協(xié)議棧net/ipv4/目錄內(nèi),而是位于net/core/neighbour.c,因?yàn)闊o(wú)論對(duì)于ipv4還是ipv6都需要使用該模塊

      在鄰居子系統(tǒng)中主要查找或者創(chuàng)建鄰居項(xiàng),在創(chuàng)建鄰居項(xiàng)時(shí)有可能會(huì)發(fā)出實(shí)際的arp請(qǐng)求。然后封裝MAC頭,將發(fā)生過(guò)程再傳遞給更下層的網(wǎng)絡(luò)設(shè)備子系統(tǒng)

      ip_finish_output2的實(shí)現(xiàn)邏輯大致流程如下:

      1. rt_nexthop:獲取路由下一跳的IP信息

      2. __ipv4_neigh_lookup_noref:根據(jù)下一條IP信息在arp緩存中查找鄰居項(xiàng)

      3. __neigh_create:創(chuàng)建一個(gè)鄰居項(xiàng),并加入鄰居哈希表

      4. dst_neight_output => neighbour->output(實(shí)際指向neigh_resolve_output):

        1. 封裝MAC頭(可能會(huì)先觸發(fā)arp請(qǐng)求)
        2. 調(diào)用dev_queue_xmit發(fā)送到下層

      5)網(wǎng)絡(luò)設(shè)備子系統(tǒng)

      鄰居子系統(tǒng)通過(guò)dev_queue_xmit進(jìn)入網(wǎng)絡(luò)設(shè)備子系統(tǒng),dev_queue_xmit的工作邏輯如下

      1. 選擇發(fā)送隊(duì)列
      2. 獲取排隊(duì)規(guī)則
      3. 存在隊(duì)列則調(diào)用__dev_xmit_skb繼續(xù)處理

      在前面講過(guò),網(wǎng)卡是有多個(gè)發(fā)送隊(duì)列的,所以首先需要選擇一個(gè)隊(duì)列進(jìn)行發(fā)送。隊(duì)列的選擇首先是通過(guò)獲取用戶的XPS配置(為隊(duì)列綁核),如果沒(méi)有配置則調(diào)用skb_tx_hash去計(jì)算出選擇的隊(duì)列。接著會(huì)根據(jù)與此隊(duì)列關(guān)聯(lián)的qdisc得到該隊(duì)列的排隊(duì)規(guī)則。

      最后會(huì)根據(jù)是否存在隊(duì)列(如果是發(fā)給回環(huán)設(shè)備或者隧道設(shè)備則沒(méi)有隊(duì)列)來(lái)決定后續(xù)數(shù)據(jù)包流向。對(duì)于存在隊(duì)列的設(shè)備會(huì)進(jìn)入__dev_xmit_skb函數(shù)。

      在Linux網(wǎng)絡(luò)子系統(tǒng)中,qdisc(Queueing Discipline,隊(duì)列規(guī)則)是一個(gè)用于管理網(wǎng)絡(luò)包排隊(duì)和發(fā)送的核心組件。它決定了網(wǎng)絡(luò)包在發(fā)送隊(duì)列中的排列順序,以及何時(shí)從隊(duì)列中取出包進(jìn)行發(fā)送。qdisc還可以應(yīng)用于網(wǎng)絡(luò)流量控制,包括流量整形(traffic shaping)、流量調(diào)度(traffic scheduling)、流量多工(traffic multiplexing)等。

      Linux提供了許多預(yù)定義的qdisc類(lèi)型,包括:

      • pfifo_fast:這是默認(rèn)的qdisc類(lèi)型,提供了基本的先入先出(FIFO)隊(duì)列行為。
      • mq:多隊(duì)列時(shí)的默認(rèn)類(lèi)型,本身并不進(jìn)行任何數(shù)據(jù)包的排隊(duì)或調(diào)度,而是為網(wǎng)絡(luò)設(shè)備的每個(gè)發(fā)送隊(duì)列創(chuàng)建和管理一個(gè)子 qdisc。
      • tbf (Token Bucket Filter):提供了基本的流量整形功能,可以限制網(wǎng)絡(luò)流量的速率。
      • htb (Hierarchical Token Bucket):一個(gè)更復(fù)雜的流量整形qdisc,可以支持多級(jí)隊(duì)列和不同的流量類(lèi)別。
      • sfq (Stochastic Fairness Queueing):提供了公平隊(duì)列調(diào)度,可以防止某一流量占用過(guò)多的帶寬。

      每個(gè)網(wǎng)絡(luò)設(shè)備(如eth0、eth1等)都有一個(gè)關(guān)聯(lián)的qdisc,用于管理這個(gè)設(shè)備的發(fā)送隊(duì)列。用戶可以通過(guò)tc(traffic control)工具來(lái)配置和管理qdisc。

      對(duì)于支持多隊(duì)列的網(wǎng)卡,Linux內(nèi)核為發(fā)送和接收隊(duì)列分別分配一個(gè)qdisc。每個(gè)qdisc獨(dú)立管理其對(duì)應(yīng)的隊(duì)列,包括決定隊(duì)列中的數(shù)據(jù)包發(fā)送順序,應(yīng)用流量控制策略等。這樣,可以實(shí)現(xiàn)每個(gè)隊(duì)列的獨(dú)立調(diào)度和流量控制,提高整體網(wǎng)絡(luò)性能。

      我們可以說(shuō),對(duì)于支持多隊(duì)列的網(wǎng)卡,內(nèi)核中的每個(gè)發(fā)送隊(duì)列都對(duì)應(yīng)一個(gè)硬件的發(fā)送隊(duì)列(也就是 Ring Buffer)。選擇哪個(gè)內(nèi)核發(fā)送隊(duì)列發(fā)送數(shù)據(jù)包,也就決定了數(shù)據(jù)包將被放入哪個(gè) Ring Buffer。數(shù)據(jù)包從 qdisc 的發(fā)送隊(duì)列出隊(duì)后,會(huì)被放入 Ring Buffer,然后由硬件發(fā)送到網(wǎng)絡(luò)線路上。所以,Ring Buffer 在發(fā)送路徑上位于發(fā)送隊(duì)列之后。

      將struct sock的發(fā)送隊(duì)列和網(wǎng)卡的Ring Buffer之間設(shè)置一個(gè)由qdisc(隊(duì)列規(guī)則)管理的發(fā)送隊(duì)列,可以提供更靈活的網(wǎng)絡(luò)流量控制和調(diào)度策略,以適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和需求。

      下面是一些具體的原因:

      1. 流量整形和控制:qdisc可以實(shí)現(xiàn)各種復(fù)雜的排隊(duì)規(guī)則,用于控制數(shù)據(jù)包的發(fā)送順序和時(shí)間。這可以用于實(shí)現(xiàn)流量整形(比如限制數(shù)據(jù)的發(fā)送速率以避免網(wǎng)絡(luò)擁塞)和流量調(diào)度(比如按照優(yōu)先級(jí)或服務(wù)質(zhì)量(QoS)要求來(lái)調(diào)度不同的數(shù)據(jù)包)。
      2. 對(duì)抗網(wǎng)絡(luò)擁塞:qdisc可以通過(guò)管理發(fā)送隊(duì)列,使得在網(wǎng)絡(luò)擁塞時(shí)可以控制數(shù)據(jù)的發(fā)送,而不是簡(jiǎn)單地將所有數(shù)據(jù)立即發(fā)送出去,這可以避免網(wǎng)絡(luò)擁塞的加劇。
      3. 公平性:在多個(gè)網(wǎng)絡(luò)連接共享同一個(gè)網(wǎng)絡(luò)設(shè)備的情況下,qdisc可以確保每個(gè)連接得到公平的網(wǎng)絡(luò)帶寬,而不會(huì)因?yàn)槟硞€(gè)連接的數(shù)據(jù)過(guò)多而餓死其他的連接。
      4. 性能優(yōu)化:qdisc可以根據(jù)網(wǎng)絡(luò)設(shè)備的特性(例如,對(duì)于支持多隊(duì)列(Multi-Queue)的網(wǎng)卡)和當(dāng)前的網(wǎng)絡(luò)條件來(lái)優(yōu)化數(shù)據(jù)包的發(fā)送,以提高網(wǎng)絡(luò)的吞吐量和性能。

      __dev_xmit_skb分為三種情況:

      1. qdisc停用:釋放數(shù)據(jù)并返回代碼設(shè)置為NET_XMIT_DROP

      2. qdisc允許繞過(guò)排隊(duì)系統(tǒng)&&沒(méi)有其他包要發(fā)送&&qdisc沒(méi)有運(yùn)行:繞過(guò)排隊(duì)系統(tǒng),調(diào)用sch_direct_xmit發(fā)送數(shù)據(jù)

      3. 其他情況:正常排隊(duì)

        1. 調(diào)用q->enqueue入隊(duì)
        2. 調(diào)用__qdisc_run開(kāi)始發(fā)送
      void __qdisc_run(struct Qdisc *q)
      {
          int quota = weight_p;
          // 循環(huán)從隊(duì)列取出一個(gè)skb并發(fā)送
          while(qdisc_restart(q)) {
      	// 如果quota耗盡或其他進(jìn)程需要CPU則延后處理
      	if(--quota <= 0 || need_resched) {
      	    // 將觸發(fā)一次NET_TX_SOFTIRQ類(lèi)型的softirq
      	    __netif_shcedule(q);
        	    break;
      	}
          }
      }

      從上述代碼中可以看到,while循環(huán)不斷地從隊(duì)列中取出skb并進(jìn)行發(fā)送,這個(gè)時(shí)候其實(shí)占用的都是用戶進(jìn)程系統(tǒng)態(tài)時(shí)間sy,只有當(dāng)quota用盡或者其他進(jìn)程需要CPU的時(shí)候才觸發(fā)軟中斷進(jìn)行發(fā)送

      這就是為什么服務(wù)器上查看/proc/softirqs,一般NET_RX要比NET_TX大得多的原因。對(duì)于接收來(lái)說(shuō),都要經(jīng)過(guò)NET_RX軟中斷,而對(duì)于發(fā)送來(lái)說(shuō),只有系統(tǒng)配額用盡才讓軟中斷上

      這里我們聚焦于qdisc_restart函數(shù)上,這個(gè)函數(shù)用于從qdisc隊(duì)列中取包并發(fā)給網(wǎng)絡(luò)驅(qū)動(dòng)

      static inline int qdisc_restart(struct Qdisc *q)
      {
          struct sk_buff *skb = dequeue_skb(q);
          if (!skb)
              return 0;
          ......
          return sch_direct_xmit(skb, q, dev, txq, root_lock);
      }

      首先調(diào)用 dequeue_skb() 從 qdisc 中取出要發(fā)送的 skb。如果隊(duì)列為空,返回 0, 這將導(dǎo)致上層的 qdisc_restart() 返回 false,繼而退出 while 循環(huán)。

      如果拿到了skb則調(diào)用sch_direct_xmit繼續(xù)發(fā)送,該函數(shù)會(huì)調(diào)用dev_hard_start_xmit,進(jìn)入驅(qū)動(dòng)程序發(fā)包,如果無(wú)法發(fā)送則重新入隊(duì)

      即整個(gè)__qdisc_run的整體邏輯為:while 循環(huán)調(diào)用 qdisc_restart(),后者取出一個(gè) skb,然后嘗試通過(guò) sch_direct_xmit() 來(lái)發(fā)送;sch_direct_xmit 調(diào)用 dev_hard_start_xmit 來(lái)向驅(qū)動(dòng)程序進(jìn)行實(shí)際發(fā)送。任何無(wú)法發(fā)送的 skb 都重新入隊(duì),將在 NET_TX softirq 中進(jìn)行發(fā)送。

      6)軟中斷調(diào)度

      上一部分中如果發(fā)送網(wǎng)絡(luò)包的時(shí)候CPU耗盡了,會(huì)調(diào)用進(jìn)入__netif_schedule,該函數(shù)會(huì)進(jìn)入__netif_reschedule,將發(fā)送隊(duì)列設(shè)置到softnet_data上,并最終發(fā)出一個(gè)NET_TX_SOFTIRQ類(lèi)型的軟中斷。軟中斷是由內(nèi)核進(jìn)程運(yùn)行的,該進(jìn)程會(huì)進(jìn)入net_tx_action函數(shù),在該函數(shù)中能獲得發(fā)送隊(duì)列,并最終也調(diào)用到驅(qū)動(dòng)程序的入口函數(shù)dev_hard_start_xmit

      從觸發(fā)軟中斷開(kāi)始以后發(fā)送數(shù)據(jù)消耗的CPU就都顯示在si中,而不會(huì)消耗用戶進(jìn)程的系統(tǒng)時(shí)間

      static void net_tx_action(struct softirq_action *h)
      {
          struct softnet_data *sd = &__get_cpu_var(softnet_data);
          // 如果softnet_data設(shè)置了發(fā)送隊(duì)列
          if(sd->output_queue) {
       	// 將head指向第一個(gè)qdisc
         	head = sd->output_queue;
      	// 遍歷所有發(fā)送隊(duì)列
         	while(head) {
      	    struct Qdisc *q = head;
       	    head = head->next_sched;
       	    // 處理數(shù)據(jù)
      	    qdisc_run(q);
      	}
          }
      }
      static inline void qdisc_run(struct Qdisc *q)
      {
          if(qdisc_run_begin(q))
       	__qdisc_run(q);
      }

      可以看到軟中斷的處理中,最后和前面一樣都是調(diào)用了__qdisc_run。也就是說(shuō)不管是在qdisc_restart中直接處理,還是軟中斷來(lái)處理,最終實(shí)際都會(huì)來(lái)到dev_hard_start_xmit(__qdisc_run => qdisc_restart => dev_hard_start_xmit)。

      7)igb網(wǎng)卡驅(qū)動(dòng)發(fā)送

      通過(guò)前面的介紹可知,無(wú)論對(duì)于用戶進(jìn)程的內(nèi)核態(tài),還是對(duì)于軟中斷上下文,都會(huì)調(diào)用網(wǎng)絡(luò)設(shè)備子系統(tǒng)的dev_hard_start_xmit函數(shù),在這個(gè)函數(shù)中,會(huì)調(diào)用驅(qū)動(dòng)里的發(fā)送函數(shù)igb_xmit_frame。在驅(qū)動(dòng)函數(shù)里,會(huì)將skb掛到RingBuffer上,驅(qū)動(dòng)調(diào)用完畢,數(shù)據(jù)包真正從網(wǎng)卡發(fā)送出去

      int dev_hard_start_xmit(struct sk_buff *skb, struct net_device *dev, struct netdev_queue *txq)
      {
          // 獲取設(shè)備的回調(diào)函數(shù)ops
          const struct net_device_ops * ops = dev->netdev_ops;
          // 獲取設(shè)備支持的功能列表
          features = netif_skb_features(skb);
          // 調(diào)用驅(qū)動(dòng)的ops里的發(fā)送回調(diào)函數(shù)ndo_start_xmit將數(shù)據(jù)包傳給網(wǎng)卡設(shè)備
          skb_len = skb->len;
          rc = ops->ndo_start_xmit(skb, dev);
      }

      這里ndo_start_xmit是網(wǎng)卡驅(qū)動(dòng)要實(shí)現(xiàn)的函數(shù),igb網(wǎng)卡驅(qū)動(dòng)中的實(shí)現(xiàn)是igb_xmit_frame(在網(wǎng)卡驅(qū)動(dòng)程序初始化的時(shí)候賦值的)。igb_xmit_frame主要會(huì)去調(diào)用igb_xmit_frame_ring函數(shù)

      netdev_tx_t igb_xmit_frame_ring(struct sk_buff *skb, struct igb_ring *tx_ring)
      {
          // 獲取TX queue中下一個(gè)可用緩沖區(qū)的信息
          first = &tx_ring->tx_buffer_info[tx_ring->next_to_use];
          first->skb = skb;
          first->bytecount = skb->len;
          first->gso_segs = 1;
          // 準(zhǔn)備給設(shè)備發(fā)送的數(shù)據(jù)
          igb_tx_map(tx_ring, first, hdr_len);
      }
      static void igb_tx_map(struct igb_ring *tx_ring, struct igb_tx_buffer *first, const u8 hdr_len)
      {
          // 獲取下一個(gè)可用的描述符指針
          tx_desc = IGB_TX_DESC(tx_ring, i);
          // 為skb->data構(gòu)造內(nèi)存映射,以允許設(shè)備通過(guò)DMA從RAM中讀取數(shù)據(jù)
          dma = dma_map_single(tx_ring->dev, skb->data, size, DMA_TO_DEVICE);
          // 遍歷該數(shù)據(jù)包的所有分片,為skb的每個(gè)分片生成有效映射
          for(frag = &skb_shinfo(skb)->frags[0]; ; flag++){
      	tx_desc->read.buffer_addr = cpu_to_le64(dma);
          	tx_desc->read.cmd_type_len = ...;
        	tx_desc->read.olinfo_status = 0;
          }
          // 設(shè)置最后一個(gè)descriptor
          cmd_type |= size | IGB_TXD_DCMD;
          tx_desc->read.cmd_type_len = cpu_to_le32(cmd_type);
      }

      在這里從網(wǎng)卡的發(fā)送隊(duì)列的RingBuffer上取下來(lái)一個(gè)元素,并將skb掛到元素上。然后使用igb_tx_map函數(shù)將skb數(shù)據(jù)映射到網(wǎng)卡可訪問(wèn)的內(nèi)存DMA區(qū)域。

      這里可以理解為&tx_ring->tx_buffer_info[tx_ring->next_to_use]拿到了RingBuffer發(fā)送隊(duì)列中指針數(shù)組(前文提到的igb_tx_buffer,網(wǎng)卡啟動(dòng)的時(shí)候創(chuàng)建的供內(nèi)核使用的數(shù)組)的下一個(gè)可用的元素,然后為其填充skb、byte_count等數(shù)據(jù)。

      填充完成之后,獲取描述符數(shù)組(前文提到的e1000_adv_tx_desc,網(wǎng)卡啟動(dòng)的時(shí)候創(chuàng)建的供網(wǎng)卡使用的數(shù)組)的下一個(gè)可用元素。

      調(diào)用dma_map_single函數(shù)創(chuàng)建內(nèi)存和設(shè)備之間的DMA映射,tx_ring->dev是設(shè)備的硬件描述符,即網(wǎng)卡,skb->data是要映射的地址,size是映射的數(shù)據(jù)的大小,即數(shù)據(jù)包的大小,DMA_TO_DEVICE是指映射的方向,這里是數(shù)據(jù)將從內(nèi)存?zhèn)鬏數(shù)皆O(shè)備,返回的調(diào)用結(jié)果是一個(gè)DMA地址,存儲(chǔ)在dma變量中,設(shè)備可以直接通過(guò)這個(gè)地址訪問(wèn)到skb的數(shù)據(jù)。

      最后就是為前面拿到的描述符填充信息,將dma賦值給buffer_addr,網(wǎng)卡使用的時(shí)候就是從這里拿到數(shù)據(jù)包的地址。

      當(dāng)所有需要的描述符都建好,且skb的所有數(shù)據(jù)都映射到DMA地址后,驅(qū)動(dòng)就會(huì)進(jìn)入到它的最后一步,觸發(fā)真實(shí)的發(fā)送。

      到目前為止我們可以這么理解:

      應(yīng)用程序?qū)?shù)據(jù)發(fā)送到 socket,這些數(shù)據(jù)會(huì)被放入與 sock 中的發(fā)送隊(duì)列。然后,網(wǎng)絡(luò)協(xié)議棧(例如 TCP 或 UDP)將這些數(shù)據(jù)從 socket 的發(fā)送隊(duì)列中取出,往下層封裝,然后將這些數(shù)據(jù)包放入由 qdisc 管理的設(shè)備發(fā)送隊(duì)列中。最后,這些數(shù)據(jù)包將從設(shè)備發(fā)送隊(duì)列出隊(duì),放置到RingBuffer的指針數(shù)組中,通過(guò)dma將數(shù)據(jù)包的地址映射到可供網(wǎng)卡訪問(wèn)的內(nèi)存DMA區(qū)域,由硬件讀取后發(fā)送到網(wǎng)絡(luò)上。

      五、RingBuffer內(nèi)存回收

      當(dāng)數(shù)據(jù)發(fā)送完以后,其實(shí)工作并沒(méi)有結(jié)束,因?yàn)閮?nèi)存還沒(méi)有清理。當(dāng)發(fā)送完成的時(shí)候,網(wǎng)卡設(shè)備會(huì)觸發(fā)一個(gè)硬中斷(硬中斷會(huì)去觸發(fā)軟中斷)來(lái)釋放內(nèi)存

      這里需要注意的就是,雖然是數(shù)據(jù)發(fā)送完成通知,但是硬中斷觸發(fā)的軟中斷是NET_RX_SOFTIRQ,這也就是為什么軟中斷統(tǒng)計(jì)中RX要高于TX的另一個(gè)原因。

      硬中斷中會(huì)向softnet_data添加poll_list,軟中斷中輪詢后調(diào)用其poll回調(diào)函數(shù),具體實(shí)現(xiàn)是igb_poll,其會(huì)在q_vector->tx.ring存在時(shí)去調(diào)用igb_clean_tx_irq

      static bool igb_clean_tx_irq(struct igb_q_vector *q_vector)
      {
          // 釋放skb
          dev_kfree_skb_any(tx_buffer->skb);
          // 清除tx_buffer數(shù)據(jù)
          tx_buffer->skb = NULL;
          // 將tx_buffer指定的DMA緩沖區(qū)的長(zhǎng)度設(shè)置為0
          dma_unmap_len_set(tx_buffer, len 0);
          // 清除最后的DMA位置,解除映射
          while(tx_desc != eop_desc) {
          }
      }

      其實(shí)邏輯無(wú)非就是清理了skb(其中data保存的數(shù)據(jù)包沒(méi)有釋放),解決了DMA映射等,到了這一步傳輸才算基本完成。

      當(dāng)然因?yàn)閭鬏攲有枰WC可靠性,所以數(shù)據(jù)包還沒(méi)有刪除,此時(shí)還有前面的拷貝過(guò)的skb指向它,它得等到收到對(duì)方的ACK之后才會(huì)真正刪除。

      六、問(wèn)題解答

      1. 查看內(nèi)核發(fā)送數(shù)據(jù)消耗的CPU時(shí)應(yīng)該看sy還是si

        • 在網(wǎng)絡(luò)包發(fā)送過(guò)程中,用戶進(jìn)程(在內(nèi)核態(tài))完成了絕大部分的工作,甚至連調(diào)用驅(qū)動(dòng)的工作都干了。只有當(dāng)內(nèi)核態(tài)進(jìn)程被切走前才會(huì)發(fā)起軟中斷。發(fā)送過(guò)程中百分之九十以上的開(kāi)銷(xiāo)都是在用戶進(jìn)程內(nèi)核態(tài)消耗掉的,只有一少部分情況才會(huì)觸發(fā)軟中斷,有軟中斷ksoftirqd內(nèi)核線程來(lái)發(fā)送。
        • 所以在監(jiān)控網(wǎng)絡(luò)IO對(duì)服務(wù)器造成的CPU開(kāi)銷(xiāo)的時(shí)候,不能近看si,而是應(yīng)該把si、sy(內(nèi)核占用CPU時(shí)間比例)都考慮進(jìn)來(lái)。
      2. 在服務(wù)器上查看/proc/softirqs,為什么NET_RX要比NET_TX大得多

        • 對(duì)于讀來(lái)說(shuō),都是要經(jīng)過(guò)NET_RX軟中斷的,都走ksoftirqd內(nèi)核線程。而對(duì)于發(fā)送來(lái)說(shuō),絕大部份工作都是在用戶進(jìn)程內(nèi)核態(tài)處理了,只有系統(tǒng)態(tài)配額用盡才會(huì)發(fā)出NET_TX,讓軟中斷處理。
        • 當(dāng)數(shù)據(jù)發(fā)送完以后,通過(guò)硬中斷的方式來(lái)通知驅(qū)動(dòng)發(fā)送完畢。但是硬中斷無(wú)論是有數(shù)據(jù)接收還是發(fā)送完畢,觸發(fā)的軟中斷都是NET_RX_SOFTIRQ而不是NET_TX_SOFTIRQ。
      3. 發(fā)送網(wǎng)絡(luò)數(shù)據(jù)的時(shí)候都涉及那些內(nèi)存拷貝操作

        • 這里只指內(nèi)存拷貝
        • 內(nèi)核申請(qǐng)完skb之后,將用戶傳遞進(jìn)來(lái)的buffer里的數(shù)據(jù)拷貝到skb。如果數(shù)據(jù)量大,這個(gè)拷貝操作還是開(kāi)銷(xiāo)不小的。
        • 從傳輸層進(jìn)入網(wǎng)絡(luò)層時(shí)。每個(gè)skb都會(huì)被克隆出一個(gè)新的副本,目的是保存原始的skb,當(dāng)網(wǎng)絡(luò)對(duì)方?jīng)]有發(fā)揮ACK的時(shí)候還可以重新發(fā)送,易實(shí)現(xiàn)TCP中要求的可靠傳輸。不過(guò)這次只是淺拷貝,只拷貝skb描述符本身,所指向的數(shù)據(jù)還是復(fù)用的。
        • 第三次拷貝不是必須的,只有當(dāng)IP層發(fā)現(xiàn)skb大于MTU時(shí)才需要進(jìn)行,此時(shí)會(huì)再申請(qǐng)額外的skb,并將原來(lái)的skb拷貝成多個(gè)小的skb。
      4. 零拷貝到底是怎么回事

        • 如果想把本機(jī)的一個(gè)文件通過(guò)網(wǎng)絡(luò)發(fā)送出去,需要先調(diào)用read將文件讀到內(nèi)存,之后再調(diào)用send將文件發(fā)送出去
        • 假設(shè)數(shù)據(jù)之前沒(méi)有讀去過(guò),那么read系統(tǒng)調(diào)用需要兩次拷貝才能到用戶進(jìn)程的內(nèi)存。第一次是從硬盤(pán)DMA到Page Cache。第二次是從Page Cache拷貝到內(nèi)存。send系統(tǒng)調(diào)用也同理,先CPU拷貝到socket發(fā)送隊(duì)列,之后網(wǎng)卡進(jìn)行DMA拷貝。
        • 如果要發(fā)送的數(shù)據(jù)量較大,那么就需要花費(fèi)不少的時(shí)間在數(shù)據(jù)拷貝上。而sendfile就是內(nèi)核提供的一個(gè)可用來(lái)減少發(fā)送文件時(shí)拷貝開(kāi)銷(xiāo)的一個(gè)技術(shù)方案。在sendfile系統(tǒng)調(diào)用里,數(shù)據(jù)不需要拷貝到用戶空間,在內(nèi)核態(tài)就能完成發(fā)送處理,減少了拷貝的次數(shù)。

      深入理解Linux網(wǎng)絡(luò)之內(nèi)核是如何發(fā)送網(wǎng)絡(luò)包的

      • 為什么Kafka的網(wǎng)絡(luò)性能很突出

        • Kafka高性能的原因有很多,其中重要的原因之一就是采用了sendfile系統(tǒng)調(diào)用來(lái)發(fā)送網(wǎng)絡(luò)數(shù)據(jù)包,減少了內(nèi)核態(tài)和用戶態(tài)之間的頻繁數(shù)據(jù)拷貝。

      以上就是深入理解Linux網(wǎng)絡(luò)之內(nèi)核是如何發(fā)送網(wǎng)絡(luò)包的的詳細(xì)內(nèi)容,更多關(guān)于Linux 內(nèi)核發(fā)送網(wǎng)絡(luò)包的資料請(qǐng)關(guān)注其它相關(guān)文章!

      >

      分享到:
      標(biāo)簽:內(nèi)核 發(fā)送 服務(wù)器 理解 網(wǎng)絡(luò)
      用戶無(wú)頭像

      網(wǎng)友整理

      注冊(cè)時(shí)間:

      網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

      • 51998

        網(wǎng)站

      • 12

        小程序

      • 1030137

        文章

      • 747

        會(huì)員

      趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
      最新入駐小程序

      數(shù)獨(dú)大挑戰(zhàn)2018-06-03

      數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

      答題星2018-06-03

      您可以通過(guò)答題星輕松地創(chuàng)建試卷

      全階人生考試2018-06-03

      各種考試題,題庫(kù),初中,高中,大學(xué)四六

      運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

      記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

      每日養(yǎng)生app2018-06-03

      每日養(yǎng)生,天天健康

      體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

      通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定