怎樣低成本、高效率完成大批量人工智能(AI)算法模型的生產?在面向真實場景的AI模型應用中,這個樸素的問題正愈發成為“剛需”。畢竟術業有專攻,連廣大專業的AI算法工程師都為了“煉丹”通宵達旦,半路入門的非專業人士要想做出一個好用的AI模型,耗時費力在所難免,還冒著跑不出滿意性能的風險。那么能不能打造一個工具,將AI模型開發全流程變得像上手App般輕松易學?多位國際AI學術大牛正在組隊推進這樣的研究。他們共同發起了一個免費開放、無代碼的產品級開源AI基礎軟件平臺YMIR,想要借助開源的力量,讓每一家企業都能輕松高效地開發出滿足實際業務需求的高質量AI模型。YMIR今年5月才正式上線,短短半年已在社區大受歡迎,截至目前吸引了超過500家企業使用,涉及機器人、工業、芯片等行業。據開發者反饋,使用YMIR后算法生產效率普遍提升6倍,算法人員的需求量降為原來的1/10。現在,它進一步瞄準AI開發過程的常見痛點,升級至2.0版本,增設了公共算法庫、一鍵模型部署等新功能,真正實現AI模型生產的全生命周期覆蓋。開發者不僅可以在該平臺上免費獲取多類常見算法,而且只是動動鼠標,就能將算法一鍵部署到終端設備中,實現“開發即應用”。不管你是想要輕松上手AI開發,還是想要優化AI開發效率、提高AI模型質量,這都是個值得一試的生產力工具。
▲YMIR主頁
01 免費開放算法,高精度模型隨用隨取
要實現AI模型的規模化生產,需要有更好用的工具,來精簡整個開發流程中的重復步驟,為開發者持續“減負”。許多云大廠及AI公司都在為此拼技術、拼經驗,將開發門檻一降再降。問題是,AI應用場景太廣泛了,從廚房監控蟲鼠到工廠質檢零件,很難能用一套兼而有效的解決方案去滿足各類應用需求。而企業推出的AI開發平臺,大多聚焦于部分業務相關的高頻場景,難免不能顧及一些偏低頻、小眾的應用需求。面對這些難題,開源也許是更有效的解法。在計算機發展史中,開源的價值不言而喻,眾多開發者的智慧與經驗凝結在一起,共同打磨出更高質量、更完善的作品。同樣,開源AI基礎軟件平臺YMIR也是一項“眾志成城”的工作——一群產品經驗豐富的AI算法開發人員參與其中,將此前的經驗以數據、流程等可視化的形式沉淀積累,通過流水線流程設計,大幅提升AI算法模型的生產效率。YMIR平臺通過無代碼開發方式,實現數據管理、數據挖掘、模型訓練、模型驗證等功能,以數據驅動算法模型訓練和迭代,使得開發者能夠一站式開發可應用部署在工業化生產中的算法,滿足實際業務的需求。這樣一來,高質量的AI模型開發,就不再是只有“專家”才能辦到的事。一些中小型企業也得以節約更多專業人才的招聘留用成本,同時具備快速訓練出滿足業務需求的AI模型的能力。還有一個“減負”新招,是“公共算法庫”板塊。這是YMIR2.0的新增功能,開放了第三方算法。開發者如果不想從頭訓練,就可以在“公共算法庫”直接選用已經被訓練就緒的算法模型,調用部署到自己的業務中。
▲公共算法庫
目前,“公共算法庫”中的算法均可免費使用,已預置有城市治理、防疫、明廚亮灶等行業的多種算法,包括“人車非”檢測、口罩檢測、廚師服穿著檢測等常用的高精度算法,而且在持續上新。你也可以將自己訓練好的算法模型公開上傳,方便有同類需求的開發者調用,這樣有助于減少重復開發造成的資源浪費問題。對于上傳的算法,YMIR團隊有一套專門的審核流程,來確保算法精度能通過標準化測試,滿足基礎的應用要求。
02 一鍵部署,打通AI開發“最后一公里”
除了幫開發者提高訓練效率外,YMIR2.0還上線了另一個AI研發重要環節——“一鍵部署”,以解決從算法到應用的“最后一公里”問題。AI算法模型開發的最終目標,是將其部署到實際業務場景中,發揮應用價值。將部署環節標準化,不僅省力,也更省錢。以前工業界中,一個開發團隊做硬件部署,普遍至少需要由幾位工程師組成的小團隊,每年僅是人才成本就動輒有上百萬元。而YMIR2.0上線的模型部署功能,只要一鍵點擊鼠標,就能將高精度算法模型以簡單、高效的方式部署到智能攝像機等各類終端設備中。
▲算法一鍵部署到硬件設備上
這個部署功能的實現,對開發團隊的能力提出了更高要求,既需實現高度模塊化,使其能兼容所有算法,又得在部署速度上具備優勢,從而支撐起更高精度、更大規模的模型部署。這樣一來,企業不僅可以省去上百萬元的成本,而且有效縮短算法進入市場的周期。完成算法部署后,開發者還能夠通過平臺觀察獲取算法在應用中的表現。
模型可部署到的硬件設備也是開放的。目前YMIR2.0支持包括瑞芯微在內的6款硬件平臺。順帶提一句,YMIR已開啟硬件設備(部署硬件)認證,并有多個廠家已通過,在“Github-硬件支持”模塊或者京東上搜索“YMIR”就能查到相關信息。
之前YMIR1.0剛上線時,智東西曾上手體驗過,只要具備開發AI算法的基礎知識,基本上不需要付出什么學習成本,跟著可視化頁面的指引,就能很輕松地跑通AI模型訓練及管理流程。現在升級的YMIR2.0,可以較明顯地感受到用戶體驗方面有進一步做優化,人機交互設計變得更加友好,模型生產迭代過程更直觀,引導用戶操作的體驗也比之前更加流暢。
▲全流程項目迭代
對于AI開發來說,算法是靈魂,數據是生產力。訓練測試模型的數據集如果有問題,算法再優質也會白搭進去不少力氣。因此YMIR2.0還新增了對開發者非常有用的數據分析、模型診斷等功能,這對有密集AI開發需求的企業或個人提高效率會很有幫助。數據分析可以對數據集的大小、質量、標注框總數、標注框分辨率等進行管理和分析,還能分析模型生產后在測試集上的表現。
▲數據集分析
模型診斷則通過自動化分析模型和可視化呈現,有助于提高查錯效率,更加立體地呈現模型在什么地方出了問題、在什么地方表現比較好,從而使開發者可以更有針對性地調整優化算法設計。
▲模型診斷
03 萬里長城第一步,終極目標是AI生態繁榮
YMIR平臺由一支國際化團隊發起,包含多位國內外知名AI產學界大牛。比如云天勵飛首席科學家王孝宇;美國硅谷NEC實驗室媒體分析部主管,印裔科學家Manmohan Chandraker;前谷歌、亞馬遜、Snap機器學習研究員,硅谷公司Heali聯合創始人、首席AI官,法裔科學家William Brendel等等,都在YMIR發起團隊陣營中。
▲云天勵飛首席科學家王孝宇(圖左),印裔科學家Manmohan Chandraker(圖中),法裔科學家William Brendel(圖右)
其相關論文去年被國際頂級機器學習會議NIPS 2021收錄。
▲YMIR論文
云天勵飛首席科學家王孝宇告訴智東西,起初YMIR開發團隊預期會有更多的個人開發者上手試用該平臺,但出乎意料的是,短短5個月間,YMIR平臺已經在產業界砸出一些水花,被不少來自不同行業的企業嘗試。“用戶是用腳投票的。”王孝宇說,能提升開發效率、解決實際問題,開發者就愿意采用。與市面上一些基于云服務的AI開發平臺不同,作為一個開源平臺,YMIR具有低成本、開放式設計等優勢,不僅全流程功能免費、允許開發者按需修改優化代碼,而且能滿足私有化部署對于隱私安全的需求,全開發流程可在本地進行,數據和算法模型完全掌握在開發者或企業自己手中。王孝宇希望企業或個人用戶在使用YMIR2.0平臺的過程中,也能夠積極回饋社區,共同努力將這個項目做得更好。在他看來,現階段AI商業化解決方案雖然很多,但每家各做各的,沒有形成合力,其實并不利于AI長遠的發展。人們對于如何使用標準化AI軟件去推動產業升級缺乏經驗,這是一個預期非常長的有待被教育的過程。“只有整個行業形成共識,認同AI是必須使用到的技術能力時,AI產業才能往更高的層次推進,標準化AI生產工具會變成未來不可分割的一部分。”王孝宇說。目前,YMIR在做的事,即是通過實現小閉環,讓更多AI企業能夠利用這些小閉環幫助客戶打造大閉環,逐漸形成標準的通用化工具,最終推動整個AI大生態的繁榮。
04 結語:征文活動評選中最高贏5500元獎勵和工作機會
開源AI項目并不少見,但一款全流程免費開放、能適應大多數垂直類行業差異化應用需求的開源AI開發平臺,目前仍相對稀缺,YMIR平臺也還在持續進化和擴容生態的路上。為了進一步鼓勵和吸引開發者,YMIR開發團隊計劃舉辦“YMIR主題種草征文”活動,邀請各位開發者來講述YMIR的使用心得。活動將最終被評出一等獎、二等獎、三等獎若干,分別可獲得卡券5000元、卡券1000元、卡券500元,以及附加獎若干,可獲得卡券500元。優秀作品作者將有機會獲得YMIR團隊的工作/實習機會。
(本文轉自【智東西】)