2021年7月9日,第四屆人工智能大會在上海火熱持續,全球AI領域產學研各界大佬在此云集,突破300家科技企業在線下深度參與。一場名為“AI時代數據開放共享”的創新論壇將數據生態新活力引入高潮。AI創新明星企業格物鈦受邀出席,創始人兼CEO崔運凱發表主題演講,從全球視野分享格物鈦對于未來AI創新格局的看法,以及開源軟件和開放數據對于未來格局的影響。崔運凱表示:“開源軟件讓科技創業變得可能,如果說在AI時代數據就相當于代碼,那么開源數據之于AI的影響力和作用,絲毫不亞于開源軟件之于應用的影響力和作用。”
以下為格物鈦創始人兼CEO崔運凱演講全文:
各位領導和嘉賓們,大家上午好。我是格物鈦的創始人兼CEO崔運凱。很高興受到上海白玉蘭開源開放研究院的邀請,有機會跟大家分享格物鈦對于未來AI創新格局的看法,和開源軟件及開放數據對于這個格局的影響。
在分享開頭,我想和大家講幾個創業故事。第一個創業故事就是馬克·扎克伯格創立Facebook的故事。大家都知道扎克伯格是在大學的宿舍里寫了第一版Facebook的程序。但是大家可能不知道的是他使用了PHP編程語言、使用了MySQL數據庫,和Linux操作系統來為他的服務做托管。而這里的PHP、MySQL和Linux都是開源軟件。
第二個創業故事我要分享的是一家國內非常知名的企業,張一鳴的今日頭條。張一鳴創業的時候就要幸運得多,有更多的技術可以使用。比如說消息隊列,他們使用了Kafka,大數據分析系統用了Hadoop,數據庫用了MongoDB,內存加速使用了Redis。同樣的,這些也都是開源軟件。
跟大家分享上面兩個故事實際上是想引出我們對于過去20年科技創新驅動力的觀察,那就是開源軟件讓科技創業變得可能。沒有開源軟件,全球就不會有這么多科技公司的涌現,更不會有這么多便捷的產品,豐富我們的生活。
然而科技還在繼續進步,工作和生活的組織形式還在不斷進化。我們從PC互聯網時代,進入到了移動互聯網時代,再進而向著人工智能的時代進化。如果說軟件開源是PC和移動時代創新的動力,那么什么是AI時代的創新動力呢?這是我們不斷在思考并且追問自己的。我想用另外幾個故事,引出我們對這個問題的答案。
第一個故事發生在計算機視覺領域。2009年斯坦福的李菲菲教授發布了一個公開數據集,這個數據叫ImageNet。它的發表推動了計算機視覺的飛速發展。這個數據集包含1400百萬張圖片,發布至今被引用了29000多次。而今天大家體驗到的人工智能熱潮,其實也是被一篇叫AlexNet的論文帶起來的。通過使用卷積神經網絡,它大規模地提升了計算機視覺識別算法的性能。更是比排名第二的算法的精確度高了40%。
第二個故事我想跟大家分享的發生在自然語言處理領域。斯坦福大學的科學家Jure在2013年發布了一個叫做亞馬遜評論的公開數據集。這個數據集涵蓋了從1994年到2013年在亞馬遜網站上的一共一億四千三百萬條評論。這個數據集的發表也極大推動了自然語言處理領域的創新。圖靈獎獲得者Yann LeCun也將卷積神經網絡模型應用在了這個數據及上,取得了非常不錯的效果。他不僅推動了算法的發展,也推動了算力的發展。英偉達在2018年完成了LSTM(長短記憶模型)在整個數據集上的訓練,這個訓練用了分布式的顯卡資源,只用了4個小時。而之前訓練同樣的模型,需要數月時間。
同樣的故事也發生在語音處理領域。TIMIT數據集的發表,讓因素識別模型的預測準確性從過去10年的78%提高到了92.85%。最近幾年火熱的無人駕駛也有很多類似的例子,比如說KITT數據集。KITTI數據集的誕生和基于KITTI數據集做的大量算法的研究,為今天無人駕駛的發展奠定了基礎。
剛剛講了這么多在AI不同領域的驅動力故事,實際上是想引出我們對于什么是AI時代創新驅動力的回答——那就是開源數據。如果說在AI時代,數據就相當于代碼;那么開源數據之于AI的影響力和作用,絲毫不亞于開源軟件之于應用的影響力和作用。
雖然開源數據將會成為未來驅動AI創新的核心驅動力,但并不意味著開源一個數據集就是一件簡單的事情。我們觀察到做數據開源至少有四個痛點:
1、協議痛點:數據和軟件一樣,都有版權,但是開源數據并不像開源軟件那樣有相對標準的協議;
2、運營痛點:當一個數據集開放后,運營以這個數據集為核心的社區,并吸引足夠多的關注者,也是一件非常有挑戰的事情;
3、數據標準:數據以什么樣的格式向公眾開放,方便社區成員使用,其實也沒有通用的國際標準。最后數據的開放方還要開發并提供SDK,才能讓用戶方便使用開放的數據;
4、資金來源:ImageNet從想法到最后的發布,歷時3年才最終完成,這里少不了數據的采集、清洗、標注等工作,而所有這些工作都需要資金的支持,才能完成。而如何籌措這些資金,可能會成為數據開源的影響因素。
中國的數據開源又有一些自身的獨特點,其中包括但不限于:
中國的數據開源起步比較晚。現在世界知名的公開數據集基本都是海外機構發布和分享的。國內只有最近幾年才開始有學術機構和企業開始做類似的嘗試。比如說去年年底由我們格物鈦發起的尋集令計劃,就是其中的嘗試之一;
雖然中國AI應用有大量的場景,但是現在國內機構和企業發布的公開數據卻沒有涵蓋那么多場景。豐富度還是遠遠不足的;
同時國內的從業者,或者是場景的擁有方,對于數據開放的認識不足,或對于創新應用沒有規劃,也是導致現在國內開放數據不足的重要原因。
在這次活動中發布的《木蘭-白玉蘭開放數據許可協議》標志著一個很好的開始,也推動著中國的數據開源邁出了非常重要的一步。我們堅信開發數據協議的發布和推廣,可以很好地降低數據開源的壁壘。在海外,開源軟件的協議已經標準化,并整合進三個標準的協議,MIT、BSD和GPL,但是開源數據協議卻沒有一個統一的標注,處在多個協議并存的階段。這為數據的開放增加了很多難度。
剛才講了這么多數據開源的挑戰和痛點,我也想借此機會分享格物鈦在做哪些事情,如何幫助全球的AI社區解決這些痛點。格物鈦為全球開發者、場景和數據的擁有者提供了一個開放數據托管和協作的平臺。我們支持開源數據在我們平臺上的免費托管。不僅如此,我們為數據的擁有者可以更好地運營社區,開發了很多產品的功能,包括開源數據協議結構化和可視化,方便數據集的使用者快速了解自己使用數據的權限。同時我們有很多和社區交互相關的功能和版塊,方便數據集的擁有者直接并且快速地提供社區支持,和激發社區的貢獻活躍。最后我們提供了團隊協作能力,方便社區用戶可以一起完成開源數據相關的任務。這一切的功能,都是希望將開源數據的發布和使用的門檻降低。
格物鈦的產品幫助企業和數據的擁有者降低了開源數據的門檻,但是真正讓企業做出開放數據決定的,還是要讓企業清楚如何通過開源數據獲得成功。我們分析了大量開源數據和開源軟件的案例,發現開源數據至少可以在如下5個方面幫助企業獲得成功:
1、幫助企業發現積累數據的新創新應用,幫助企業可以拓寬產品線或者改善現有產品,提供更好的用戶體驗;
2、發現新的商業機會,包括銷售線索的獲得;
3、幫助將企業內部的標準推動成全社區的標準,因為一個數據被使用的多了,它的組織形式就會成為事實的標準;
4、幫助企業吸引人才,優秀的人才會因為數據的應用潛力而加入一家公司,或者公司可以發現社區中最具有潛力的人才;
5、提升公司品牌,比如你在做無人駕駛,你發布的數據集中有大量的長尾場景,例如突然過馬路的小動物,這些場景被識別并被追蹤,會讓用戶體會到品牌帶來的安全感。
在我演講的最后,我想分享一些我對數據開源和AI行業未來的一點看法。AI行業正在由以模型為中心的開發模式,向著以數據為中心的開發模式遷移。在未來以數據為中心的開發模式中,數據必然會扮演越來越重要的角色。開源數據從來都不是呼吁企業開源全部數據,而是將一部分場景中的一部分數據進行開源。即便是其中很小的一部分場景化的數據被開源,也會給AI的發展帶來巨大價值。
我想借此機會發出呼吁:格物鈦希望和大家一起出發,通過開放更多的數據和創造更活躍的社區,來改變未來基于人工智能的全球創新。謝謝大家!