【ITBEAR科技資訊】3月31日消息,OpenAI公司近日揭曉了一項具有顛覆性的聲音克隆技術——“Voice Engine”,該技術能夠通過簡短的文本輸入和僅15秒的音頻樣本,生成與原始說話者高度相似、情感充沛且難以辨別的語音。
據ITBEAR科技資訊了解,Voice Engine的研發工作自2022年便已啟動,并已成功融入公司現有的文本轉語音API以及Read Aloud功能中的預設語音。這項技術不僅在閱讀輔助和語言翻譯領域大放異彩,為用戶提供了更為流暢的語音體驗,而且對于言語障礙患者而言,其意義更是非凡。舉例而言,在布朗大學的一個創新試點項目中,研究人員利用該技術成功創建了從學校項目錄制的音頻中提取的語音克隆,極大地助力了言語障礙學生的交流能力。
然而,盡管Voice Engine技術帶來了前所未有的可能性,但OpenAI對于其潛在的濫用風險保持著高度警惕。因此,在現階段,公司僅選擇向少數經過嚴格篩選的合作伙伴開放小規模測試。這一策略不僅有助于深入探索技術的各種應用場景,同時也為公司提供了評估和管理相關風險的空間。
OpenAI在推動技術發展的同時,也積極肩負起社會責任。公司希望通過這一技術的推出,能夠引發社會各界對于合成語音技術負責任應用的深入討論,共同探索適應和規范這一新興技術領域的道路。
為了確保Voice Engine技術的安全合規使用,OpenAI還實施了一系列嚴密的保護措施。其中包括利用水印技術來追蹤音頻的來源,以及對系統使用情況進行實時監控。此外,公司還計劃在產品正式上市時設立一個“禁止語音列表”,旨在檢測和阻止那些與知名人士聲音過于接近的人工智能生成語音,從而有效規避潛在的版權和隱私糾紛。