2023年,大模型的風席卷而來。
根據賽迪顧問研究顯示,僅2023年1月至7月,我國就有共計64個大模型發布。截至2023年7月,我國已累計發布130個大模型。其中不乏阿里、騰訊、百度、360、科大訊飛等科技大廠,一場“百模大戰”一觸即發。
大模型要想不斷地升級進化,數據是不可缺少的基石。根據相關消息顯示,在如今 OpenAI 基于 GPT-4 的訓練中,不僅包括邏輯推理,更包括如數據清洗、高質量數據標注等環節。
云測數據總經理賈宇航表示:“作為人工智能的三要素之一,‘數據’從本質上決定了人工智能的落地水平。通常來說,數據標注得越準確,數量越多,模型效果越好,最后的AI產品效果就越好。”
可以看到,“百模大戰”的當下,企業需要高質量、場景化、高效率的AI數據服務來進行數據訓練,助力大模型更好更快的發展。
數據是大模型勝負手
作為人工智能的三要素之一,數據是關鍵生產要素和生產資料。
馬斯克就曾公開表示,隨著產品更好地理解問題,所需的算力將減少幾個數量級,而“數據荒”更難解決,“在某個時候,AI訓練會耗盡人類數據,最終人工智能將不得不自己生成數據。”
但是放眼市場,高質量的數據供給一直是稀缺資源。
7月初,加州大學伯克利分校的計算機科學教授斯圖爾特·羅素(Stuart Russell)發出警告稱,ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”,通過收集大量文本來訓練機器人的技術“開始遇到困難”。
研究機構Epoch也估計,機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”。
國內也有專家認為:“未來一個模型的好壞,20%由算法決定,80%由數據質量決定。”
可以說,數據質量和數據量將是下一階段大模型能力涌現關鍵中的關鍵。如果數據的問題不能解決,意味著大模型發展將缺少根基。
尤其是,目前來看,未來大模型將往垂直行業發展,更需要垂直行業的高質量數據。
行業痛點,往往是巨大商機所在。
龐大的市場需求,給數據服務廠商們帶來了極大的機會。提供高質量數據供給、數據元件化和數據標注成為AI數據服務廠商們新一輪的挑戰。
云測數據發布面向垂直行業大模型AI數據解決方案,以幫助垂直行業企業可以更好的落地大模型相關算法應用。
自成立以來,云測數據一直聚焦于場景化、高質量的AI數據服務。
目前,云測數據深度合作伙伴覆蓋了汽車、安防、手機、家居、金融、教育、新零售、生態系統等多個行業。其中包含眾多世界500強企業、高校科研機構、政府機構、頭部AI企業和大型互聯網企業,涵蓋了計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術領域。
一直在人工智能數據賽道深耕的云測數據也深知目前大模型面臨的數據痛點。
多年的技術和多行業的積累之下,近日,云測數據在服貿會成果發布會上,首發了面向垂直行業的大模型AI數據解決方案。
具體來看,云測數據的垂直行業大模型AI數據解決方案可為行業大模型提供從持續預訓練、任務微調、評測聯調測試到應用發布的端到端過程中的高質高效數據。
多年的人工智能數據服務經驗與技術積累,云測數據早已打造了豐富的數據樣本資源池以及多維數據采集工具和流水線作業化的數據清洗工作平臺,可以基于企業要求提供定向垂直場景的數據服務,為大模型持續預訓練賦能。
并且,云測數據的垂直行業大模型AI數據解決方案搭配了靈活齊全的標注工具,差值預測、自動縮框、4D疊幀等等功能一應俱全,解決了大模型場景化應用所需的豐富的數據需求,全方位支持文本、語音、圖像、視頻等各類型數據的處理,為下游任務微調提供了人機耦合標注能力。
除此之外,云測數據的垂直行業大模型AI數據解決方案還支持特定數據回流處理。
截至目前,云測數據以高質量、場景化的AI訓練數據服務為基礎,持續為智能駕駛、智慧城市、智能家居、智慧金融等眾多領域提供通用數據集、數據標注平臺&數據管理工具、數據采集/數據標注等服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理。
據了解,云測數據垂直行業大模型數據解決方案,可以為行業客戶深度定制數據采集方案,助力獲取高價值數據,在面對微調任務會根據大模型落地場景特點,提供包含QA-instruct、prompt等文本類任務項目和多模態大模型的相關能力支持。在完成微調后,云測數據通過垂直領域的人員和專家積累+評測體系和服務,幫助企業對各個垂直應用落地領域進行評估。并通過以集成數據底座為核心的數據標注平臺,將難例數據回流完成清洗標注,為更有效率的模型調優做準備。
在賈宇航看來,目前人工智能行業已經從感知智能上升到認知智能,需要處理更深入的信息等能力。而云測數據將持續秉持“幫助企業擁有高質量的AI數據,成就企業核心競爭壁壘“的理念,為眾多科技的AI能力提供糧草。