●章開篇
1.1什麼是語音識別2
1.2語音識別的歷史4
1.3語音識別的用處6
1.4為什麼很難8
1.5本書的目標10
1.6小結12
第2章什麼是語音
2.1語音學16
2.2聲音是如何產生的——發音語音學16
2.3聲音的真面目——聲學語音學23
2.4聲音是如何被感知的——感知語音學29
2.5總結32
第3章統計模式識別
3.1什麼是模式識別34
3.2統計模式識別的思路36
3.3生成模型的訓練40
3.4判別模型的訓練44
3.5統計語音識別的概要45
3.6總結48
第4章有限狀態自動機
4.1什麼是有限狀態自動機50
4.2用有限狀態自動機表達的語言53
4.3各種各樣的有限狀態自動機55
4.4有限狀態自動機的性質58
4.5總結59
第5章語音特征的提取
5.1特征提取的步驟62
5.2語音信號的數字化64
5.3人類聽覺模擬——頻譜分析67
5.4另一個精巧設計——倒譜分析69
5.5噪聲去除72
5.6總結73
第6章語音識別:基本聲學模型
6.1聲學模型的單位76
6.2什麼是隱馬爾可夫模型78
6.3隱馬爾可夫模型的概率計算81
6.4狀態序列的估計83
6.5參數訓練85
6.6總結89
第7章語音識別:不錯聲學模型
7.1實際的聲學模型92
7.2判別訓練94
7.3深度學習96
7.4總結98
第8章語音識別:語言模型
8.1基於語法規則的語言模型100
8.2統計語言模型的思路101
8.3統計語言模型的建立方法103
8.4總結108
第9章語音識別:搜索算法
9.1填補聲學模型和語言模型之間的空隙112
9.2狀態空間搜索113
9.3用樹形字典減少浪費115
9.4用集束搜索縮小範圍116
9.5用多次搜索提高精度118
9.6總結120
0章語音識別:WFST運算
10.1WFST的合成運算124
10.2確定化129
10.3權重移動133
10.4最小化134
10.5總結135
1章語音識別:使用WFST進行語音識別
11.1WFST轉換138
11.2聲學模型的WFST轉換139
11.3發音字典的WFST轉換141
11.4語言模型的WFST轉換142
11.5WFST的搜索144
11.6總結145
2章語義分析
12.1什麼是語義表示148
12.2基於規則的語義分析處理151
12.3基於統計的語義分析處理153
12.4智能手機的語音服務156
12.5總結159
3章語音對話繫統的實現
13.1對話繫統的開發方法162
13.2基於規則的對話管理164
13.3針對對話管理的統計方法166
13.4總結170
4章終篇
14.1語音分析工具WaveSurfer174
14.2HMM構建工具HTK175
14.3大詞彙量連續語音識別引擎Julius177
14.4虛擬代理對話工具MMDAgent179
14.5深入學習之路180
思考題的解答182
參考文獻188
後記191
內容簡介
本書從語音識別的歷史和基礎知識講起,通過圖解的方式對語音識別技術進行了盡可能簡單的解釋。內容涉及語音學基礎知識、統計模式識別、有限狀態自動機、語音特征的提取、聲學模型和語言模型、搜索算法和基於WFST的語音識別技術等。
此外,本書沒有將語音識別限定在"將語音轉換成文本"的傳統範疇內,而是在此基礎上,還講解了從語音識別技術到人機對話技術的演進過程和方法。內容涉及語義分析和語音對話繫統的實現。
本書圖例豐富,內容直觀且深入淺出,適合語音識別的相關從業人員入門
以及對語音識別感興趣的人士閱讀。