作為中國科技創新領域的重要盛會,以及科技企業實力和形象展示的重要舞臺,2023年度的中關村論壇于5月25日晚在北京開幕。中共中央政治局常委、國務院副總理丁薛祥出席開幕式并致辭。中共中央政治局委員、北京市委書記尹力在開幕式上宣讀習總書記的賀信。
開幕式上,北京國際科技創新中心建設十項重大科技成果進行了發布和展示。據悉,本屆論壇設置了論壇會議、技術交易、展覽展示、成果發布、前沿大賽和配套活動六大板塊,共舉辦150余場活動,集中展示了人工智能、區塊鏈、量子信息、高端制造等領域的全球最新進展和前沿科技成果。
今年中關村論壇將開設55場平行論壇,主要圍繞人工智能、生命科學等前沿領域,以及數據治理、女性科技創新等熱點議題。其中,人工智能開放生態建設論壇于5月26日上午舉辦。AI訓練數據龍頭服務商海天瑞聲CEO王曉東受邀出席該論壇,并發表了題為《共享開放數據助力數字中國建設》的演講,宣布海天瑞聲將開放多模態數據集。此外,海天瑞聲將在A館1018中關村科技城展臺展示公司產品和解決方案。
開源數據集
助力AI開放生態構建
本屆中關村論壇的主題是“開放合作·共享未來”。開放生態是全球人工智能發展的大勢所趨,尤其是AI算法的優化和模型的訓練需要足夠優質和豐富的數據集支持,因此共享數據集就成為AI開放生態系統中非常關鍵的一環,對行業的推動作用也變得至關重要。在此背景下,海天瑞聲在本次大會上宣布開放共享數據集就更顯得意義重大。
海天瑞聲CEO王曉東表示,作為AI數據行業里首家上市公司,海天瑞聲天然肩負著開源開放、推進數據資源整合共享的社會責任。開源數據集可以幫助各領域的研究者和開發者快速獲得更多高質數據樣本,進而提高模型的精準度和魯棒性,幫助他們更好地進行算法研究和模型訓練。此次即將開源的多模態數據集「DOTS-MM-0526」涵蓋圖像、語音、文本等多個維度。海天瑞聲希冀與全球AI開發者和研究人員建立更加緊密的合作關系,共同推動人工智能技術的發展和應用。同時,開源數據集計劃亦是公司對于AI開放生態的一次有益嘗試,是公司在數據智能化應用領域持續發力的體現。
去年年底以來,ChatGPT、GPT-4等大模型接二連三地發布,讓我們加速走進了大模型時代,并真切地感受到了其與日俱增的能力。眾所周知,大模型也需要進行訓練,那么在此過程中與數據相關的工作,與此前有什么不同呢?
對此,海天瑞聲CTO黃宇凱認為,從大方向上來看并沒有什么不同,還是需要先提出數據方案,然后進行設計,再執行采集、標注等一系列的工作流程,最終目標也是讓客戶能夠基于所提供的數據,訓練出效果良好的模型。
其中,不一樣的地方在于,不同企業關注的側重點不同。比如,大模型主要分為預訓練和強化學習兩個階段,這兩個階段對數據都有很高的要求。就前者而言,雖然大模型對應的是大數據,但卻并不是數據越多越好,還要執行數據清洗的步驟。數據公司必須掌握如何清洗、向哪個方向清洗,才能更好地應用于大模型的基礎能力。對于后者來說,進行強化學習需要撰寫對應的提示詞,這對數據標注人員的邏輯思維能力和表達能力也有較高的要求。
對于一家數據公司來說,數據安全與合規是其底線,也是立身之本。因此,海天瑞聲組建了專門的團隊,對歐盟頒布的《通用數據保護條例》、我國頒布的《數據安全法》和《個人信息法》等法規法規進行了深刻的研究,并制定了高于國家法律的數據合規要求。具體來說,其在整個公司層面上,要求所有成員在嚴格遵循當地法律法規的基礎之上,開展包括數據采集、標注等在內的具體工作。
從語音到圖像再到文本、實現AI數據全覆蓋
品牌煥新展現海天瑞聲戰略新布局
會上,王曉東還隆重發布了海天瑞聲企業品牌煥新戰略:公司將啟用全新Logo,英文名稱將從“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞聲”不變。
王曉東表示:“此次品牌升級不僅是一個簡單的改名,它還代表著海天瑞聲將在數據科技和人工智能領域的進一步發展和探索?!彼M一步闡述道,海天瑞聲因優質海量的智能語音數據被大家所熟知,但近些年來隨著人工智能技術的不斷迭代與發展,海天瑞聲的業務已從單純的語音領域服務,擴展至提供覆蓋語音、計算機視覺、自然語言處理和多模態的數據解決方案及成品數據集,未來還將支持以數據驅動的生成式AI業務發展。顯然海天瑞聲早已不再局限于“語音Speech”而是更廣闊的“數據Data”海洋。為更好地反映公司的業務范圍和技術實力,海天瑞聲對企業品牌進行了升級,以更好地滿足客戶全方位需求。
圖丨海天瑞聲新Logo(來源:資料圖)
而品牌升級背后,海天瑞聲全新的戰略布局也逐漸清晰呈現。據了解,自2005年成立以來,海天瑞聲就一直在為AI產業鏈上的各類機構提供AI算法模型開發訓練所需的專業數據集。目前這些數據集已覆蓋智能語音、計算機視覺、自然語言等AI核心領域。經過多年深耕,海天瑞聲的產品和服務已獲得阿里巴巴、騰訊、三星等國內外頭部客戶的認可,并在自動駕駛、虛擬主播、聲紋識別、人臉姿態等眾多人工智能場景及相關算法模型的訓練過程中獲得應用。
隨著數據要素作為國家級戰略資源地位不斷凸顯,數據相關企業也肩負起未來數字化基建的重大責任。因此,無論是業務領域的自然擴展還是主動更名的品牌升級,都無疑在證明著一點,即海天瑞聲在保障基礎數據業務穩健發展的同時已找到新的業績增長點并不斷發力。從近期其在自動駕駛業務的接連動作可以看到海天瑞聲正在發力聚焦自動駕駛賽道,通過平臺、算法研發以及數據安全能力的持續建設,不斷將之打造成為公司核心競爭力之一,使之成為公司第二增長曲線。
深入布局自動駕駛領域
開發全棧式自動駕駛數據平臺
基于海量數據構建一套強大的數據鏈驅動系統,是自動駕駛技術發展過程中的必要環節。而要想推動該系統高效運轉就少不了數據采集、管理、標注、質檢和仿真等環節的支持和相互配合。
自動駕駛領域是海天瑞聲著重進行業務布局和彰顯技術實力的核心領域之一。就在上個月18日,海天瑞聲正式推出“DOTS-AD自動駕駛平臺”。 據海天瑞聲CTO黃宇凱介紹,這是一款專為自動駕駛場景設計的全棧式數據平臺,能夠支持多維度、全方位的自動駕駛標注任務,數據標注效率提升高達8倍。支持萬人同時作業,能夠解決項目經理和標注員的使用痛點,提升標注效能,且支持多元化部署。
特別要提到的是該平臺的四大核心功能:一是全面支持自動駕駛領域各維度2D/3D/4D點云或圖像數據標注;二是能針對不同場景支持輔助標注/自動化標注;三是支持項目的柔性管理,支持流程/工具/標簽的自定義;四是可實現對數據的智能化管理,確保客戶的商業敏感數據安全合規?;谶@些核心功能,海天瑞聲正建立起在智能駕駛數據訓練領域的核心壁壘,也將賦能自動駕駛技術走邁向新高度。
數據作為人工智能發展的重要一環,大模型的出現為數據需求帶來了新的挑戰和機遇。海天瑞聲王曉東在此次中關村論壇上還表示,公司將堅持以“做智能世界的數據基石”為使命,積極與各方共同推動人工智能技術的發展和應用,促進企業數字化、智能化進程的加速推進,為建設數字經濟和智能社會做出貢獻。
自2007年中關村論壇初次舉辦以來,其一直是中國面向全球科技創新交流合作的國家級平臺,并始終堅持“科技辦會”的重要理念。5月25日,習總書記向今年的中關村論壇致賀信。其指出,當前,新一輪科技革命和產業變革深入發展,人類要破解共同發展難題,比以往任何時候都更需要國際合作和開放共享。中國堅定奉行互利共贏的開放戰略,愿同世界各國一道,攜手促進科技創新,推動科學技術更好造福各國人民。
據悉,本屆論壇將持續到5月30日,期間將有80多個國家和地區的嘉賓出席,近200家外國政府部門、國際組織和機構參與,近120位頂尖專家將發表演講。借由這樣一個平臺,海天瑞聲及更多優秀的AI產業企業將共同探討如何更好地依托我國現有開放創新平臺建設人工智能開放生態,如何更科學地投入更多研發資源,以提升產品質量和服務水平,共同促進產業發展向前。