日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

基于算法的業務或者說AI的應用在這幾年發展得很快。但是,在實際應用的場景中,我們經常會遇到一些非常奇怪的偏差現象。例如,Facebook將黑人標記為靈長類動物、城市圖像識別系統將公交車上的董明珠形象廣告識別為闖紅燈的人等。算法系統出現偏差的原因有很多。本篇博客將總結在數據獲取相關方面可能導致模型出現偏差的原因。

AI系統中(機器學習算法)導致偏差的原因總結

 

一個典型的AI系統(本文不區分算法和AI,雖然實際中二者的確不一樣)的工作過程包括:

  1. 收集數據
  2. 標記數據
  3. 數據預處理
  4. 模型訓練和測試
  5. 模型上線

因此,這些步驟中都可能會出現一些問題導致最終的應用出現偏差。本文將主要聚焦前三種情況。

  • 一、數據收集產生的偏差
  • 二、標記數據過程產生的偏差
  • 三、數據預處理產生的偏差
  • 四、總結

數據創造的偏差是最常見的問題,這里也包括幾種情況:數據收集階段產生的偏差、數據標記過程產生的偏差和數據預處理過程中產生的偏差。

一、數據收集產生的偏差

一般來說,這是由于數據收集過程中由于一些錯誤的認知或者忽視,導致一開始就是從一個“特別的”地方收集了數據。最后導致了問題的產生。前幾年,AICon北京站中,小米的工程師分享了一個案例就是這個原因。大意是小米相機想推出一個“魔法換天”的功能。于是從數據收集開始準備訓練模型。但是數據收集的過程中忽略了大多數用戶并不是專業的攝影師,拍照的角度五花八門,也不規則。但是收集的數據確是比較準確的攝影師的作品。這最終導致模型只認識質量很高的照片,最終實際應用效果非常差。這就是典型的數據收集導致的偏差問題。在實際應用中,我們需要盡可能針對應用場景收集符合實際業務的數據,避免產生意想不到的結果。

AI系統中(機器學習算法)導致偏差的原因總結

 

此外,除了一開始收集產生的偏差。有時候抽樣選擇也會導致偏差。抽樣選擇是數據收集的一個重要的過程。很多時候并不是所有的原始數據都會被使用,數據抽樣是一個重要的步驟。但是,抽樣一般容易產生偏差。例如,在一個淺色皮膚較多的照片中,如果抽樣對深色皮膚的圖像不夠重視,很容易出現最終的結果都是淺色人的圖像,進而可能會產生Facebook那樣的錯誤。

二、標記數據過程產生的偏差

收集完數據之后,大多數的應用需要對數據進行標注。尤其是在分類預測的任務中,需要對數據進行正確的劃分,才能有效地訓練模型。在這個過程也是很容易出錯的。當前,在工業界,除了尋找公開的高質量數據集進行模型訓練外,也會有很多企業嘗試自己標注數據來適應業務的發展。然而這個時候出現偏差的可能也很高。依然是小米的例子,在換天這樣的應用中,一個很重要的步驟是需要將背景中天空的輪廓識別出來。最開始標注數據的時候選擇的標注工具和標注人員都是很粗略的。導致天空輪廓標記很粗糙。尤其是在有樹葉這種場景下,邊緣的模糊導致標記結果非常粗糙。在實際訓練中也就產生了很大的問題。因此,數據標注如果要自己完成,一定需要注意質量的問題。

AI系統中(機器學習算法)導致偏差的原因總結

 

數據標記可能的偏差原因:

  • 標簽的差異(例如男性和男人,其實是一種標簽,但是給了兩種單詞)
  • 標注者思想的差異:包括標注者自身的文化、認知、信仰等導致的差異
  • 標注者記憶的差異:這種情況主要發生在一些需要標注者記憶的情況中,例如一些問卷或者是認知識別的標注,可能標注者會出現前后不一致的情況

三、數據預處理產生的偏差

數據預處理過程產生的偏差有一點類似數據抽樣選擇過程。很多時候,數據預處理包括空值處理、異常值處理等步驟。在這些步驟中,對于一些錯誤或者偏差較大的數據,很多人習慣選擇用均值填補甚至是刪除的操作來對待錯誤和異常數據,但這是很容易出現偏差的地方。例如,假設我們在處理一份關于流量歷史的數據。這種數據在一些突發時間或者特殊節點會出現很高的異常值的情況。大多數人愿意選擇刪除這些數據節點。當然,在比賽中,這種操作通常會帶來總體性能的提升。但是在實際業務中卻可能會造成很大的錯誤。例如,如果流量估計忽略了節假日因素,那么很多時候會讓我們的廣告投放或者是資源調度出現很大的問題。

AI系統中(機器學習算法)導致偏差的原因總結

 


 

四、總結

模型出現偏差,數據可能是最重要的原因。從數據收集開始,就有很多地方值得我們注意。避免使用錯誤的數據和錯誤的處理方式來產生壞結果。不僅浪費時間,也浪費感情。所以大家平時一定要注意。

分享到:
標簽:機器 學習
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定