我們正值數據井噴時代,據 IDC報告顯示,目前全球數據量正以平均年增長率50%的速度增長,預計到2025年全球數據總量將達到175ZB。1ZB相當于1萬億GB,假設每一個比特是一枚3毫米厚的1英鎊硬幣,一摞硬幣組成的1ZB將會有2550光年那么高,可以讓你到達最近的恒星系統半人馬座阿爾法星600次。
在數字化浪潮下,企業正在因為技術創新的應用產生海量非結構化數據,如圖像、語音、視頻等,據統計80%的企業數據由非結構化數據組成,具有規模海量且分散、形式多樣、關系復雜等顯著特點。企業機構每年因糟糕的數據質量而造成的平均損失達到1290萬美元。
“以數據為中心”的時代已然來臨,人工智能和機器學習領域國際最權威學者之一吳恩達在今年反復強調了這個觀點。他認為,整個AI行業正在由以模型為中心的開發模式,向著以數據為中心的開發模式發展,人們應該以數據為中心來開發機器學習系統。
決定AI模型效果的影響因素有兩個:數據和算法。現實中的數據集往往都是有噪聲的,對于有噪聲的數據,一種是修改算法,提出能處理噪聲、有泛化能力的算法,顯然難度較大;還有一種修改數據集,提升數據集的質量。用工具鏈和系統化的方法來提升數據質量,通過不斷地喂給高質量數據,讓模型保持輕微調整,這會使模型的效果批量提升成為可能。
可以看到,更好的數據可以帶來更優的性能提升。Gartner預測到明年,70%的企業機構將通過指標來嚴格追蹤數據質量水平并將數據質量提高60%,以此顯著降低運營風險和成本。
格物鈦智能科技是一家專注打造人工智能新型基礎設施的初創企業,定位為面向機器學習的數據平臺,致力于以數據為中心的開發方式,幫助AI開發者解決日益增長的非結構化數據難題。借助非結構化數據管理平臺TensorBay和開源數據集社區Open Datasets,機器學習團隊和個人可進行數據管理、查詢、協同、可視化和版本控制等高效操作,降低高質量數據獲取、存儲和處理成本,加速AI開發和產品創新,釋放海量非結構化數據的商業價值。
據悉,格物鈦正在向全球AI創新企業及團隊、前沿高校實驗室和機器學習開發者社區提供數據平臺支持,涵蓋自動駕駛、智慧零售、智慧物流、智慧醫療、視頻直播等各業務場景。以自動駕駛為例,格物鈦TensorBay可以幫助企業把數據準備過程從原來的以月為單位縮短到以小時為單位。某物流企業使用TensorBay短短數月,模型識別率顯著提升30%之多。
“TensorBay是我們AI開發流程中的關鍵部分,不同于傳統的本地文件系統管理模式,它提供了一個全新的云端數據管理解決方案,讓我們看到了AI非結構化數據管理的全新未來,”格物鈦獲得客戶算法負責人高度評價,“強大的數據管理平臺能夠和我們的開發流程無縫銜接,為我們的數據準備過程提供了非常便利的功能和開發者工具。”通過優化現有的AI項目工作流程來提升數據質量,從而加速AI產品迭代開發,格物鈦這一創新未來將在更多行業場景中產生長遠價值。