近日,由中國信通院、中國人工智能產業發展聯盟(AIIA)、語音之家共同主辦的“人工智能合成數據”主題沙龍成功召開。會議旨在進一步調研產業界在合成數據方面的現狀,探討合成數據如何助力人工智能產業有序健康發展。
作為AI數據服務領域知名品牌,標貝科技受邀出席會議,聯合創始人&CTO李秀林博士圍繞《合成數據的應用探索》進行主題分享,與百余位業內人士一起在線探討交流了AI語音合成在產品服務以及模型訓練上的應用和落地。
合成數據 助推人工智能產業蓬勃發展
Gartner 2022 年人工智能創新技術成熟度曲線(GartnerHype Cycle)發布,“以數據為中心的人工智能”被列為 2022年人工智能技術和應用四大創新之一,其中“合成數據”作為人工智能的創新方式之一,正處于期望膨脹期。伴隨著機器學習模型對海量數據的依賴日益增加,使得合成數據市場需求持續增長。
合成數據是計算機模擬或算法所生成的帶有注釋的信息。在真實數據稀缺或敏感的領域,可通過合成數據的方法訓練AI模型。換言之,合成數據是在數字世界中創建的數據,而不是從現實世界中采集或測量的數據。
雖然合成數據不包含任何現實世界現象或事件產生的數據,但從數學和統計學上反映了真實數據信息,并可以滿足現有真實數據中[穆向禹1]很少出現但很關鍵的特定情景需求或條件,是數據科學領域中快速發展的趨勢和新興工具。
目前,合成數據已在自動駕駛、數字醫療領域[穆向禹2]廣泛應用,成為人工智能數據一個顛覆性的新來源。根據研究公司Cognilytica發布的一份報告,合成數據生成的市場在2021年增長到1.1億美元以上,預計到2027年底將增加到11.5億美元。
高質量合成數據 加速人工智能產業應用落地
會上,李秀林博士指出,對于人工智能模型訓練來說,合成數據非常重要。在訓練人工智能(AI)模型時,企業往往會遇到沒有足夠量的數據、數據生產成本高昂,或采集的數據涉及隱私、公平等問題[穆向禹3]的挑戰。在這種情況下,合成數據為訓練符合道德標準、高質量的 AI 模型提供了另一種機會。
例如,在對皮膚視覺診斷中,使用手機等非專業設備拍攝皮膚的圖片,難以完整的表現皮膚的顏色、皮膚表面特質變化、光照條件等特點。而基于Unet結構的pix2pix圖像風格遷移網絡,可以控制變量,如不同類型的皮膚、病變,為病理判斷提供有效的參考依據。
在自動駕駛領域里,由于自動駕駛要求的能力,數據采集加工的數據量巨大。通過對數以百萬計的車輛偏離軌道的場景進行合成生成圖像,獲得現實場景下幾乎不可能捕捉到、或者[穆向禹4]只存在于極度危險場景下才能存在的圖像和視頻,極大提升并改善了自動駕駛系統的訓練效率與效果。
在多風格音色生產項目中,由于不同的人有不同的音色、說話方式,同一個人在不同語境下也會有不同的語氣語調。傳統的音色采集通常由專業主播和剪輯人員完成,錄制加工流程復雜,費時費力。通過語音合成技術,可以快速生成自然真實、充滿感情和表現力的合成音色。
標貝科技作為行業領先的智能語音交互與AI數據服務提供商,深耕智能語音交互領域多年,始終致力于語音合成技術的創新研發和商業化應用。隨著自身技術不斷迭代升級,構建了豐富的合成語音數據庫,包括超過100余種不同語言和場景的自有版權商業化發音人,覆蓋男聲、女聲、老人、童聲等多種音色,支持中文、英文、中英混讀、小語種、方言等語種。憑借自然流暢的韻律、豐富的音色層次感和多維情感表現力等優勢,充分滿足智能客服、媒體新聞、有聲閱讀、車載互聯、泛娛樂等領域語音需求。
隨著市場對更仿真、更個性的聲音需求,標貝科技基于核心的深度神經網絡技術模型,創新打造了情感合成、聲音轉換、聲音復刻等個性化聲音定制方案,幫助加速語音產品的落地。
未來,人工智能的迅猛發展,合成數據將迎來更大需求市場。標貝科技將持續加碼自主研發投入,打造更智能、更場景化的語音合成服務,實現技術創新和商業化應用的雙贏。