近日,由云天勵飛首席科學家王孝宇博士等多位國際AI科學家共同發起的AI基礎軟件平臺YMIR正式發布。
什么是 YMIR?
YMIR(挖米匠),是一個數據驅動的開源算法訓練平臺,能夠做到以無代碼開發的方式,實現數據管理、數據挖掘、模型訓練、模型驗證等功能。YMIR遵從Apache 2.0 許可協議,商用及個人使用均免費。
YMIR是由國際AI科學家共同發起的AI基礎軟件平臺。發起成員包括:前Snap計算機視覺主席,云天勵飛首席科學家王孝宇;美國硅谷NEC 實驗室媒體分析部主管、UCSD教授,印裔科學家Manmohan Chandraker;前谷歌、亞馬遜、Snap機器學習研究員,硅谷初創公司Heali聯合創始人、首席AI官,法裔科學家William Brendel等。
云天勵飛首席科學家 王孝宇
美國硅谷NEC 實驗室媒體分析部主管、UCSD教授 Manmohan Chandraker
前谷歌、亞馬遜、Snap機器學習研究員,硅谷初創公司Heali聯合創始人、首席AI官 William Brendel
YMIR 的五大特點?
YMIR是一個高度自動化的AI模型開發產品。其將模型開發行為抽象為數據收集、模型訓練、數據挖掘、數據標注等基本操作,并形成標準流程,提供一站式服務。實際使用時以圖形化的交互界面完成數據與模型不斷更新迭代的完整流程。由此,YMIR極大降低了AI模型研發的技能要求,不再要求從業者具備專業的AI技能。只要對系統操作員加以數據集、模型訓練、模型迭代等概念知識的少量培訓,其便具備模型開發的能力,因而對人工智能向各行各業的普及具備重大意義。
針對具備一定專業能力的算法開發人員,YMIR平臺提供開放API,使用者可籍此將自己開發的模型訓練、數據挖掘、數據標注、模型診斷等工具對接YMIR開放接口實現端到端的一站式模型開發。
YMIR 主要以數據為中心,集成了數據和模型版本控制,同時引入工作空間等概念,實現多個模型開發任務的并行快速迭代,為模型的大規模批量生產提供平臺性支持。
YMIR V1.0 新增模型生產項目管理
1、傻瓜式迭代操作流程(保姆式模型開發流程指引)
YMIR 新版本與上一版本相比,引入項目管理式的工作流程,使AI模型的生產進一步標準化。與老版本相比,模型生產操作員上手時間大幅縮短,并通過標準化的生產方式實現AI模型品控。
在以項目管理為理念的研發制式下,模型研發項目被切分為幾個關鍵模塊。每個模塊對應一個任務,這些任務具備前后依賴關系形成研發流程。只有流程前方任務完成后,流程后方任務才能被啟動。如下圖所示,當一個模型研發項目被創建后,即能看到頁面上方的任務迭代流程指引,清晰說明當前步驟與下一步驟,僅需按照指引點擊鼠標操作即可,操作對小白用戶十分友好、非常銀杏化。
賬號登錄后即可見項目創建頁面
項目創建成功后的頁面
項目創建后的任務流程指引頁面
2、數據集自動整理
在AI模型開發的周期里,模型迭代占據90%以上的時間。而數據的迭代是模型迭代的關鍵部分,數據也是AI研發過程中最為重要的資產,因此數據更新的追蹤和管理顯得尤為重要。能重現數據的更新過程,便能重復模型生產過程。
YMIR新增數據集版本管理功能,能自動生成數據集版本并記錄每次對數據集的操作。一方面,與上一版本相比,使用者無需通過手動命名數據集對不同功能數據集進行區分,系統會自動進行數據整理,歸入訓練集、挖掘集、測試集等,并對這些數據集的更新進行版本控制。數據集和模型的一一對應關系亦被記錄下來。此功能對有大量數據挖掘的模型研發十分友好,減少數據集版本的冗余,提高數據集管理效率。YMIR用戶再也不用對著上百個雷同的數據集無從下手。另一方面,模型的研發過程被完整的記錄下來,可輕易重新生產模型。傳統的算法研發人員工作交接涉及,數據集、模型、訓練流程等多個復雜環節的交接,很難重復之前的工作。而在YMIR平臺上產生的研發過程,尤其是數據集的迭代均有完整追蹤,基本不需要交接流程,企業再也不用擔心員工突然的離職。
數據集版本管理頁面(1)
數據集版本管理頁面(2)
模型迭代版本管理頁面
YMIR V1.0 無縫對接開放免費的標注工具LabelFree
數據標注的質量與效率直接影響模型訓練的質量與效率,一個好的標注工具可以讓模型訓練事半功倍。LabelFree是一個開放的、可私有化部署的高性能數據標注系統。其操作簡單、數據可靠,為算法服務提供可靠的底層數據支撐。
LabelFree項目管理頁面
1.大幅提升標注質量
LabelFree支持在數據標注的早期階段對標注質量進行嚴格把控。其支持多角色用戶管理功能,當角色為質檢員時,可對標注結果進行檢查與復核。
2.大幅提升標注效率
LabelFree可大幅提升個人標注效率。其支持大量標注步驟快捷鍵操作,通過人機交互的優化顯著提升標注效率。
快捷鍵使用說明
LabelFree亦支持團隊標注。其支持多人協作完成同一標注任務,并實現任務自動分發。
同時,LabelFree提供一鍵標注服務,幫助需要的個人及企業用戶在最短的時間內獲取質量可靠的標注數據。
3、可靠的數據安全管理
數據的完全私有化管理,最大程度的保護數據安全。數據集管理服務依托具有彈性伸縮能力的原生對象存儲,為機器學習、大數據分析平臺提供高性能、高可用的數據基座。
4、完全的免費開放平臺
LabelFree平臺對數據集大小、用戶數量、項目數量等功能均無限制,用戶可在平臺上進行各種自定義的數據標注任務并獲得良好的體驗。