日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

做過產業級AI研發的人,都知道和學術研究的差別有多大。

當前,基于訓練樣本有明確標簽或結果的監督學習仍然是一種主要的模型訓練方式。尤其是深度學習領域,需要更多數據以提升模型效果。

在學術領域,已經有一些規模較大的公開數據集,如ImageNet,COCO等。對于深度學習入門者,這些公開數據集可以提供非常大的幫助。

但是對于大部分企業開發者,特別在醫學成像、自動駕駛、工業質檢等領域中,他們更需要利用專業領域的實際業務數據定制AI模型應用,以保證其能夠更好地應用在業務中。因此,業務場景數據的采集和標注也是在實際AI模型開發過程中必不可少的重要環節。

數據標注的質量和規模通常是提升AI模型應用效果的重要因素,然而標注人員的培訓與手工標注成本高、耗時長,完全通過人力手動標注數據建立一個高質量、大規模專業領域數據集并不容易,行業中常開的玩笑“有多少人工就有多少智能”就是這么來的。

1分鐘讀懂智能標注的原理

為解決上述問題,我們可以利用主動學習的方法,采用“Human-in-the-loop”的交互式框架(圖1)進行數據標注,以有效減少人工數據標注量。

圖1基于主動學習的“Human-in-the-loop”交互式數據標注框架

主動學習(Active Learning, AL)是一種挑選具有高信息度數據的有效方式,它將數據標注過程呈現為學習算法和用戶之間的交互。其中,算法負責挑選對訓練AI模型價值更高的樣本,而用戶則標注那些挑選出來的樣本。如“Human-in-the-loop”交互式數據標注框架,通過用戶已標注的一部分數據來訓練AI模型,通過此模型來標注剩余數據,再從中篩選出AI模型標注較為困難的數據進行人工標注,再將這些數據用于模型的優化。幾輪過后,用于數據標注的AI模型將會具備較高的精度,更好地進行數據標注。以圖像分類問題舉例,首先,人工挑選并標注一部分圖像數據,訓練初始模型,然后利用訓練的模型預測其余未標注的數據,再通過“主動學習”中的“查詢方法”挑選出模型比較難分辨類別的數據,再人為修正這些“難”數據的標簽并加入訓練集中再次微調(Fine-tuning)訓練模型。“查詢方法”是主動學習的核心之一,最常見的“查詢方法”有基于不確定性的樣本查詢策略和基于多樣性的樣本查詢策略。

基于不確定性的樣本查詢策略可查詢出深度學習模型預測時,靠近決策邊界的樣本。以二分類問題舉例,當一個未標注樣本被預測為任一標簽的概率都是50%時,則該樣本對于預測模型而言是“不確定”的,極有可能被錯誤分類。要注意的是,主動學習是一個迭代過程,每次迭代,模型都會接收認為修正后的標注數據微調模型,通過這個過程直接改變模型決策的邊界,提高分類的正確率。

基于多樣性的查詢策略,可實現對當前深度學習模型下狀態未知樣本的查詢。將通過多樣性查詢挑選出的數據加入訓練集,可豐富訓練集的特征組合,提升模型的泛化能力。模型學習過的數據特征越豐富,泛化能力越強,預測模型適用的場景也越廣。

如何實踐智能標注

為解決大數據量標注的痛點,基于主動學習且融合多樣查詢策略的智能標注AI解決方案應運而生。通過百度飛槳企業版BML全功能AI開發平臺的智能標注功能,開發者們只需標注數據集中30%左右的數據,即可啟動智能標注在飛槳企業版BML后臺自動標注剩余數據,再返回少量后臺難以確定的數據再次進行人工標注,同時提升自動標注的準確性,經過幾輪之后,在實際項目測試中,智能標注功能可以幫助用戶節省70%的數據標注量,極大地減少數據標注中的人力成本和時間成本。

目前,飛槳企業版BML的智能標注功能已支持計算機視覺CV方向的物體檢測、圖像分割任務,及自然語言處理NLP方向的文本分類任務。在BML平臺主頁點擊“智能標注”即可免費開啟使用。

使用方法也很簡單,以物體檢測任務為例,共為三步:

- Step1上傳數據集并標注少量數據

將所有需要標注的圖片加入數據集,并創建所有需要識別的標簽按照不同的任務類型要求進行少量標注,如物體檢測任務,要求每個標簽下的標注框數不少于10個

-step 2 啟動智能標注任務并進行難例確認

創建智能標注任務,系統會基于用戶選擇數據類型及數據量級,自動預估任務運行時長。

智能標注任務啟動后,系統自動標注的過程中還會篩出部分難例,用戶可以逐一對難例標注的效果確認或修改。

最新版的飛槳企業版BML上,還提供了“指定模型標注”的形式,用戶可以選擇復用自己之前訓練的相似模型,完成對新數據及的快速標注。

-step 3 評估難例效果,完成任務

當用戶對難例完成確認后,可以根據本輪次預標注的結果是否滿意,判斷是否還需要進入下一輪難例篩選階段。如果滿意本輪難例的預標注效果,即可結束智能標注的任務,進行后續的模型訓練。

萬元福利限時領,助你踏上AI快車道

百度飛槳企業版BML全功能AI開發平臺,面向算法工程師提供數據采集和處理服務、多種建模方式和百度自研高精度預訓練模型、高效便捷的服務部署等全流程功能,針對AI模型開發過程中繁雜的工作,提供便捷高效的平臺化解決方案。

在智能標注功能的加持之下,重復枯燥的標注功能都交給AI模型,大大降低了時間與人力成本。在數據方面,BML提供覆蓋采集、清洗、標注、加工等一站式數據處理功能,并與模型訓練環節無縫對接,通過數據閉環功能支持高效的模型迭代,AI開發快上加快。

現在百度搜索“百度BML”進入產品主頁,不僅可以快速體驗“智能標注”功能,還可以參與“2021萬有引力計劃”,跑一遍模型訓練部署,獲取最低1000元、最高10000元平臺代金券。10000元#xad;代金券在BML平臺消費無使用門檻,用來跑個中型POC,妥妥不是問題。

分享到:
標簽:邊界 研發 能力 數據 企業 AI
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定