成人AV十八亚洲二区,性爱视频无码,久久91亚洲人成电影网站

作者：王佳杰

引言

語音喚醒（Keyword Spotting，KWS）是較為初級的語音識別任務，在2014年陳果果的工作[1]后，學界興起大量研究，業界也獲普遍應用，如智能家居（音箱、TV）、智能穿戴（TWS耳機、手表）、智能座艙等。KWS參、算量遠低于ASR，可離線工作。作為智能語音系統的入口，KWS常要全天候（Always On）運行，若應用場景是功耗敏感、內存受限的可穿戴設備，則參、算量要求更為嚴苛。脈沖神經網絡（Spiking Neural.NETwork, SNN）作為所謂的第三代神經網絡，相比于人工神經網絡（Artificial Neural Network，ANN）有功耗及內存優勢，近年來逐漸拓寬應用。在音頻領域，場景分類和KWS較早獲得SNN應用。

一、歷史工作

2018年，加州大學圣迭戈分校的Bruno U. Pedroni等人[2]在TIMIT數據集中挑選出greasy, oily, water, carry, dark, wash六個詞語做KWS，余下詞、靜音及噪聲作為其他類別，共七分類。文中SNN及做對比之用的ANN均采用前向全連接結構，SNN又分為基于速率的SNN（RBSNN），和基于時間的SNN（TBSNN），前者可使用映射方程將預訓練的ANN參數“翻譯”給RBSNN，后者則需要其他方法訓練。

RBSNN選用輸出層脈沖數最多的類別作為勝出類別，TBSNN則是脈沖最先到達的類別。由于脈沖神經元激活與否可用0/1二進制代替，因此與（浮點）權重的乘法（Multiply-and-Accumulate operations，mac）可簡化為權重自身的加法（Accumulate，AC）。結果表明，RBSNN及TBSNN與ANN性能基本相當，但RBSNN的計算代價為ANN的91%，TBSNN僅為ANN的16%，這是因為TBSNN依據脈沖間隔編碼，相比于依據同等時間內脈沖個數編碼的RBSNN更為“優雅”高效。該工作指出未來的優化方向是基于TBSNN做網絡結構優化，即將前饋全連接結構優化為卷積結構。

2020年10月，新加坡國立大學李海洲組的Emre Yilmaz等人[3]宣稱首次將深度卷積結果應用于SNN-KWS，該網絡使用串聯學習（Tandem Learning）訓練，數據使用Hey Snips及google Speech Commands數據集，加噪使用MUSAN數據庫，加噪信噪比-5至10 dB。實驗結果表明，在各測試條件下，SpikeCNN-KWS的ROC性能與CNN-KWS基本相當或略有優勢，在類腦芯片上能耗僅是后者的15~30分之一。該工作代碼開源。

時隔不久，同年11月，法國圖盧茲大學的Thomas Pellegrini等人[4]將擴張卷積引入SNN-KWS，且施加關于SNN各層脈沖數的正則項，以求神經脈沖激發盡可能稀疏，以進一步節省能耗。訓練使用替代時間反傳（Back-Propagation Through Time with Surrogate Gradient, BPTT with SG）法。該工作代碼開源，且宣稱將嘗試SNN-ASR。

2021年，時識科技（SynSense）[5]瑞士中心的研發副總Sadique Sheik和Philipp Weidel受WaveNet結構的啟發，指出脈沖神經元的膜電位積累機制，同WaveNet中擴張時間卷積之前存在一定的相似性，因此提出具有一組固定膜時間常數和簡單前饋結構的WaveSense來替代WaveNet做KWS。結果表明在Aloha, Hey Snips, Google Speech Commands數據集上均優于前述SNN-KWS工作，且逼近ANN-KWS的SOTA性能，所提SNN含脈沖神經元864個，權重參量18k。

2022年7月，國內另一家類腦芯片公司九天睿芯[6]發布智能語音芯片ADA100，宣稱其感、存、算語音喚醒方案支持預設多大30個關鍵詞，還支持用戶提取特征做自定義語音喚醒，但不確定其方案是否基于SNN。

同年月，荷蘭Yin Bojian及華為Guo Qinghai等人[7]使用含注意力機制的循環脈沖神經網絡Attention-RSNN做流式KWS，宣稱在Google Speech Commands v1&v2數據集上，性能優于GRU基線和時識科技的WaveSense。

2023年1月，瑞典呂勒奧理工大學嵌入式智能系統實驗室的Mattias Nilsson等人[8]基于脈沖時差編碼器和突觸興奮/抑制單元對音頻脈沖串做更深層次的信息抽取，所抽取的信息組合后接線性分類器，對TIDIGITS數據集分類。此架構有別于先前SNN-KWS的工作，遺憾的是，未與其他工作進行性能對比。

2023年2月，比利時根特大學的Sun Pengfei等人[9]指出當前SNN在音頻領域應用時的局限性——訓練時大多只關注突觸權重，而少關注脈沖傳遞過程中的軸突延遲，因此提出在訓練中逐層調整軸突延遲上限，具體做法是先對網絡預訓練幾個epoch得到初始的延遲，再使用滑動窗口大小和上限比例來校準上限并微調延遲。訓練使用SLAYER框架，在SHD和NTDIDIGITS數據集上，和其他工作相比，以最少的參數取得最佳分類準確率超過。

二、討論

(1)在學界的研究論文中，KWS的性能指標主要以分類準確度為主，多詞（喚醒詞+命令詞）常以混淆度矩陣展示分類性能。但在業界，KWS性能主要表現方式是某時段（如每天）內誤喚醒1次下的喚醒率，誤喚醒測試由各團隊在自收集的語料庫上測得。工業界的表達自然更為直觀。KWS本質還是一個分類問題，分類越精準，業界指標也會更好。由于學界沒有一個各方共用的誤喚醒測試數據集，因此給出分類準確率即可。

(2)目前SNN還不成熟，“入局”的科研人才和工程人員太少，訓練框架不少卻沒有一個占主導地位，甚至背后的理論都還在摸索實踐中。目前，SNN-KWS論文發表者多在學術領域，不了解業界先進水平（實際上，產業界基于ANN-KWS路線的語音喚醒方案已經做到參、算量均極小的水平，且KWS問題的核心在訓練策略、擊中策略的設計，而不在網絡的具體實現形式），且原本也不做KWS，只是為了驗證SNN可應用于KWS，故而基于SNN路線的KWS也并沒有優化到極致，未來還有很大的發展空間。

(3)雖然目前SNN的訓練還比較困難，應用有限。但回顧ANN的發展歷程，在誤差反傳出現之前，ANN不也同樣如陷泥潭、裹足不前么？因此還是應當對SNN的發展抱有期待，它畢竟是人類對腦工作機制的模仿（即便現在還很拙劣），是朝著輕量、節能的路線上的努力探索。在當下以ChatGPT為代表的大功耗、大參量模型攪動學界、業界乃至世界的時代狂熱背景下，持續投入SNN發展的科研及工程人員，仿佛背離時代主流在坐冷板凳。但當初DNN的先驅如Hinton等人，不也同樣坐了好久的冷板凳么？

參考文獻：

[1] Chen, Guoguo, Carolina Parada, and Georg Heigold. “Small-footprint keyword spotting using deep neural networks.” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.

[2] Pedroni, Bruno U., et al. “Small-footprint spiking neural networks for power-efficient keyword spotting.” 2018 IEEE Biomedical Circuits and Systems Conference (BioCAS). IEEE, 2018.

[3] Yilmaz, Emre, et al. “Deep convolutional spiking neural networks for keyword spotting.” Proceedings of INTERSPEECH. 2020.

[4] Pellegrini, Thomas, Romain Zimmer, and Timothee Masquelier. “Low-activity supervised convolutional spiking neural networks Applied to speech commands recognition.” 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021.

[5] Weidel, Philipp, and Sadique Sheik. “WaveSense: Efficient Temporal Convolutions with Spiking Neural Networks for Keyword Spotting.” arXiv preprint arXiv:2111.01456 (2021).

[6] https://www.52audio.com/archieves/126158.html

[7] Yin, Bojian, et al. “Attentive decision-making and dynamic resetting of continual running SRNNs for end-to-end streaming keyword spotting.” Proceedings of the International Conference on Neuromorphic Systems 2022. 2022.

[8] Nilsson, Mattias, et al. “A Comparison of Temporal Encoders for Neuromorphic Keyword Spotting with Few Neurons.” arXiv preprint arXiv:2301.09962 (2023).

[9] Sun, Pengfei, et al. “Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition.” arXiv preprint arXiv:2302.08607 (2023).

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

語音識別系列之基于脈沖神經網絡的語音喚醒

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03