隨著智能語音技術應用場景的日益豐富,多人交互場景下的智能語音處理技術受到了越來越多的關注。其中,最為常見的就是會議場景。
當下,會議已經成為職場人日常工作中不可缺少的溝通交流方式。每周大會小會不斷,接入會議的方式也越來越多樣,例如現(xiàn)場參會、電腦入會、手機入會、電話入會等。而多人會議場景普遍存在語音口語化、環(huán)境噪聲、房間混響和人聲重疊等問題,都會影響會議音頻數(shù)據(jù)采集效果,給實時語音識別、錄音文件轉寫等需求帶來挑戰(zhàn)。
尤其近幾年,疫情影響下,“云辦公”需求呈現(xiàn)爆發(fā)式增長,越來越多的企業(yè)衍生出線上線下協(xié)同開會的混合式會議形式。隨之而來的,是如何有效應對企業(yè)在不同會議場景下的開會需求,減少會議流程、提高溝通效率成為重點關注話題。
無論是線下會議還是線上會議,提供高品質音頻都是其核心能力。而且會議形式越多,對于會議音頻采集能力的要求就越高。標貝科技深耕AI數(shù)據(jù)服務領域多年,積累了豐富的復雜場景多人會議數(shù)據(jù)制作項目經驗,可支持多設備多通道的語音錄制、覆蓋金融保險、醫(yī)療、教育、政府機關、房地產等數(shù)十個行業(yè)領域會話內容。
標貝科技多人會議音頻采集方案
標貝科技多人會議音頻采集方案模擬真實會議場景,包括大型會議、中型會議和小型會議等多人會議類型,采用線性和環(huán)形16麥克風錄制,可以有效增強噪聲環(huán)境中參會人說話聲音信號,提升音頻采集質量。并將采集到的實時語音數(shù)據(jù)切分為標準的語音數(shù)據(jù)包,便于語音處理引擎對語音數(shù)據(jù)包進行識別處理。
▍方案特點
◆ 模擬會場真實環(huán)境,包括會議室墻面(水泥墻、玻璃墻等),會議室裝飾(沙發(fā)、電視、電子屏幕、空調、植物等);
◆搭配會議系統(tǒng),適應室內輕微噪音,包含參會人員非刻意鍵盤敲擊、開關門、空調等聲音,拾音清晰;
◆語種支持中文普通話,包含部分中英混場景;
◆錄音設備為16麥線性、16麥環(huán)形、近講耳麥手機數(shù)據(jù)時間對齊誤差差小于10ms,說話人角度誤差小于10°;
◆可以針對各個角色的語音實時識別,生成單獨的錄音文件;
◆自研的多設備多通道對齊技術,有效解決時鐘不同步問題。
▍適用場景
會議作為多人對話領域中組織高效協(xié)同的核心場景,對語音轉文字相關應用有著強需求。標貝科技多人會議音頻采集方案適用于包括會議紀要、培訓記錄、實時演講字幕、訪談錄音轉寫、法庭庭審實時記錄等多個場景,為語音識別需求提供高質量音頻數(shù)據(jù)。
政企會議:用于政府和企業(yè)的重要會議、公檢法庭審等會議內容記錄等場景,高效采集多人發(fā)言音頻,便于速記并輸出與會者發(fā)言內容或庭審內容。
演講培訓:用于企業(yè)和個人的公開演講或內部培訓記錄等場景,可完整的采集演講音頻內容,用于轉寫存量音頻以及后期校對和整理語音記錄。
交流訪談:用于律師取證、咨詢顧問、企業(yè)面試、課題等專業(yè)領域的訪談語音采集記錄,輸出訪談內容文稿并轉寫存量音頻。
標貝科技多人會議數(shù)據(jù)集
眾所周知,基于機器學習的各種技術,往往都離不開算法和數(shù)據(jù)的積累。想要提高會議場景下語音識別的準確率,就需要采集大量的優(yōu)質會議場景數(shù)據(jù)作為模型訓練支撐。
除了提供多人會議音頻采集方案,標貝科技還針對不同的會議主題,精心制作了高質量的多人會議語音數(shù)據(jù)集,包括了實際會議場景下各種特性,例如停頓、重疊、說話人輪轉、噪聲等,提高會議場景語音識別準確性。
中文普通話會議音頻數(shù)據(jù)集
語種:中文普通話
錄音環(huán)境:室內會場真實環(huán)境
數(shù)據(jù)時長:100小時
錄音語料:不同主題的自由對話
文件格式:WAV, TXT
語音參數(shù):16 kHz/16 bits
適用領域:語音識別
歡迎對以上數(shù)據(jù)集感興趣的行業(yè)伙伴聯(lián)系我們~