作 者:湯志遠 等 著
定 價:89
出 版 社:電子工業出版社
出版日期:2021年02月01日
頁 數:256
裝 幀:平裝
ISBN:9787121404788
"語音技術全景圖速覽,覆蓋常規語音任務,包括語音識別、說話人識別、語種識別、情緒識別、語音合成;語音識別全方位講解,包括基本概念和流程,以及應用中的各種實際問題;基於流行的語音工具,結合直觀理解與動手實踐,適合快速入門與進階。"
●1語音是什麼2
1.1大音希聲2
1.2產生語音4
1.3看見語音5
1.4小結8
2語音識別方法9
2.1總體思路10
2.2聲學模型GMM-HMM12
2.2.1HMM12
2.2.2GMM14
2.2.3訓練15
2.3聲學模型DNN-HMM16
2.4語言模型18
2.4.1N-Gram18
2.4.2RNN語言模型18
2.5解碼器20
2.6端到端結構22
2.6.1CTC23
2.6.2RNN-T26
2.6.3Attention27
2.6.4Self-Attention29
2.6.5CTC+Attension31
2.7開源工具和硬件平臺32
2.7.1深度學習平臺32
2.7.2語音識別工具33
2.7.3硬件加速34
2.8小結36
3完整的語音識別實驗37
3.1語音識別實驗的步驟38
3.2語音識別實驗的運行46
3.3其他語音任務案例47
3.4小結47
4前端處理48
4.1數據準備48
4.2聲學特征提取52
4.2.1預加重(Pre-Emphasis)54
4.2.2加窗(Windowing)54
4.2.3離散傅裡葉變換(DFT)55
4.2.4FBank特征56
4.2.5MFCC特征57
4.3小結58
5訓練與解碼59
5.1GMM-HMM基本流程60
5.1.1訓練60
5.1.2解碼61
5.1.3強制對齊62
5.2DNN-HMM基本流程63
5.3DNN配置詳解64
5.3.1component和component-node65
5.3.2屬性與描述符66
5.3.3不同組件的使用方法66
5.3.4LSTM配置範例76
5.4小結81
6說話人自適應84
6.1什麼是說話人自適應84
6.2特征域自適應與聲道長度規整85
6.3聲學模型自適應:HMM-GMM繫統87
6.3.1基於MAP的自適應方法88
6.3.2基於MLLR的自適應方法91
6.4聲學模型自適應:DNN繫統93
6.4.1模型參數自適應學習93
6.4.2基於說話人向量的條件學習94
6.5領域自適應95
6.6小結95
7噪聲對抗與環境魯棒性97
7.1環境魯棒性簡介97
7.2前端信號處理方法98
7.2.1語音增強方法99
7.2.2特征域補償方法103
7.2.3基於DNN的特征映射106
7.3後端模型增強方法108
7.3.1簡單模型增強方法108
7.3.2模型自適應方法109
7.3.3多場景學習和數據增強方法109
7.4小結110
8小語種語音識別111
8.1小語種語音識別面臨的主要困難112
8.2基於音素共享的小語種語音識別113
8.3基於參數共享的小語種語音識別方法118
8.4其他小語種語音識別方法121
8.4.1Grapheme建模121
8.4.2網絡結構與訓練方法121
8.4.3數據增強122
8.5小語種語音識別實踐122
8.5.1音頻數據采集122
8.5.2文本數據采集122
8.5.3文本正規化123
8.5.4發音詞典設計123
8.6小結123
9關鍵詞識別與嵌入式應用125
9.1基本概念125
9.2評價指標126
9.3實現方法129
9.3.1總體框架129
9.3.2基於LVCSR的KWS繫統130
9.3.3基於示例的KWS132
9.3.4端到端KWS133
9.3.5滑動窗口133
9.4嵌入式應用134
9.4.1模型壓縮134
9.4.2遷移學習136
9.4.3網絡結構搜索與設計137
9.5小結137
10說話人識別140
10.1什麼是說話人識別140
10.1.1基本概念140
10.1.2技術難點143
10.1.3發展歷史143
10.2基於知識驅動的特征設計144
10.3基於線性高斯的統計模型147
10.3.1高斯混合模型-通用背景模型147
10.3.2因子分析150
10.4基於數據驅動的特征學習154
10.4.1模型結構156
10.4.2訓練策略157
10.4.3多任務學習157
10.5基於端到端的識別模型158
10.6小結160
11語種識別161
11.1什麼是語種識別161
11.2語言的區分性特征163
11.3統計模型方法165
11.3.1基於聲學特征的識別方法165
11.3.2基於的語種識別方法167
11.4深度學習方法170
11.4.1基於DNN的統計模型方法170
11.4.2基於DNN的端到端建模172
11.4.3基於DNN的語言嵌入176
11.5Kaldi中的語種識別178
11.6小結180
12語音情緒識別182
12.1什麼是語音情緒識別182
12.2語音情緒模型185
12.2.1離散情緒模型186
12.2.2連續情緒模型186
12.3語音情緒特征提取187
12.3.1語音情緒識別中的典型特征187
12.3.2局部特征與全局特征190
12.4語音情緒建模192
12.4.1離散情緒模型192
12.4.2連續情緒模型195
12.5深度學習方法196
12.5.1基礎DNN方法196
12.5.2特征學習198
12.5.3遷移學習200
12.5.4多任務學習200
12.6小結201
13語音合成203
13.1激勵-響應模型204
13.2參數合成207
13.3拼接合成208
13.4統計模型合成210
13.5神經模型合成212
13.6基於注意力機制的合成繫統214
13.7小結216
參考文獻217
索引241
語音是新一代人機交互的方式,語音識別是實現這一方式的關鍵環節,也是實現人工智能的基本步驟之一。本書結合當下使用廣泛的Kaldi工具,對語音識別的基本概念和流程進行了詳細的講解,包括GMM-HMM、DNN-HMM、端到端等常用結構,並探討了語音識別在實際應用中的問題,包括說話人自適應、噪聲對抗與環境魯棒性、小語種語音識別、關鍵詞識別與嵌入式應用等方面,也對語音技術的相關前沿課題進行了介紹,包括說話人識別、語種識別、情緒識別、語音合成等方向。本書的寫作以讓讀者快速、直觀地理解概念為目標,隻展示最基本的數學公式,同時本書注重理解與實踐相結合,在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令,以便讓讀者進一步融會貫通。本書適用於語音識別及相關技術的初學者、在校學生,以及基於Kaldi進行產品研發的同仁,也可以作為語音從業者的參考書籍。
湯志遠 等 著
湯志遠,中國科學院大學與清華大學聯合培養博士,清華博士後。專注於語音技術,研究領域涉及語音識別、聲紋識別、語種識別、口語測評等,在國際重要期刊或會議上累計發表論文數十篇。 個人主頁:http://tangzy.cslt.org。