●《信息科學技術學術著作叢書》序
前言
章藏語語法單位1
1.1藏文字符1
1.2藏文字2
1.2.1藏文字結構2
1.2.2藏文的書寫及字體3
1.3藏語詞語3
1.3.1格助詞4
1.3.2不自由虛詞7
1.3.3自由虛詞10
1.3.4動詞概述12
1.4藏語短語13
1.5藏語句子14
1.5.1藏語句子的特點14
1.5.2藏語句子的分類14
第2章理論基礎17
2.1集合論基礎17
2.1.1集合17
2.1.2字符串18
2.1.3函數20
2.1.4圖20
2.2概率論基礎22
2.2.1概率22
2.2.2似然估計23
2.2.3條件概率24
2.2.4全概率公式與貝葉斯公式24
2.2.5獨立性26
2.2.6隨機變量26
2.2.7聯合概率分布和條件概率分布27
2.2.8貝葉斯決策理論28
2.2.9期望和方差29
2.3信息論基礎30
2.3.1信息熵30
2.3.2信息熵的性質32
2.3.3聯合熵和條件熵34
2.3.4相對熵35
2.3.5互信息35
2.3.6交叉熵36
2.3.7困惑度37
2.3.8噪聲信道37
2.4齊普夫定律39
2.5隱馬爾可夫模型41
2.5.1馬爾可夫模型41
2.5.2隱馬爾可夫模型的基本原理42
2.5.3隱馬爾可夫模型的三個基本問題44
2.6熵模型56
2.6.1熵模型的約束條件57
2.6.2熵模型的原則58
2.6.3熵模型的參數訓練58
2.7條件隨機場模型59
2.7.1條件隨機場定義60
2.7.2條件隨機場模型形式61
2.7.3條件隨機場模型的參數估計62
第3章形式語言與自動機64
3.1形式語言64
3.1.1形式語言概述64
3.1.2形式文法65
3.1.3形式文法的類型66
3.2自動機68
3.2.1自動機概述68
3.2.2正規文法與自動機72
第4章字符編碼75
4.1西文字符編碼75
4.2ISO/IEC10646與Unicode76
4.2.1緣起76
4.2.2ISO/IEC10646體繫結構76
4.2.3Unicode79
4.3中文字符編碼81
4.3.1漢字字符編碼81
4.3.2藏文字符編碼85
第5章藏語語料庫的建設91
5.1語料庫概述91
5.2語料庫的類型91
5.3典型語料庫93
5.4藏語語料庫建設中存在的問題96
第6章藏文信息熵99
6.1概述99
6.2藏文字符的信息熵100
6.3藏文字的信息熵102
6.4藏語語言模型及其困惑度105
6.4文法模型105
6.4.2困惑度107
6.4.3數據平滑109
6.5藏文輸入法的數學模型111
6.6藏文文本自動校對115
第7章藏文拼寫文法的形式化118
7.1藏文拼寫文法形式化描述118
7.1.1術語定義118
7.1.2符號映射119
7.1.3藏文拼寫文法規則120
7.1.4藏文的基本拼寫結構122
7.1.5藏文拼寫文法形式化描述127
7.1.6藏文拼寫文法性質131
7.2藏文拼寫形式語言133
7.2.1藏文拼寫形式語言概述133
7.2.2藏文拼寫形式文法135
7.3藏文字組成成分識別186
7.3.1藏文字組成成分的識別概述186
7.3.2藏文拼寫形式文法使用中的二義性問題188
第8章藏語自動分詞及詞性和語義標注190
8.1藏語自動分詞中的幾個關鍵問題190
8.1.1緊縮詞問題190
8.1.2歧義切分問題193
8.1.3未登錄詞問題195
8.2藏語自動分詞方法197
8.2.1基於規則的分詞方法197
8.2.2基於統計的分詞方法198
8.2.3基於條件隨機場模型的藏語分詞方法199
8.3命名實體識別206
8.3.1概述206
8.3.2命名實體識別方法207
8.4詞性標注209
8.4.1概述209
8.4.2詞類標記集的確定211
8.4.3基於規則的詞性標注方法215
8.4.4基於統計模型的詞性標注方法217
8.4.5基於規則與統計相結合的詞性標注方法219
8.5詞義標注221
8.5.1概述221
8.5.2基於互信息的詞義消歧方法221
8.5.3基於貝葉斯判別的詞義消歧方法223
8.5.4基於詞典的詞義消歧方法224
第9章現代藏語短語結構及其形式化描述225
9.1概述225
9.1.1藏語短語的句法知識理論225
9.1.2藏語短語的句法功能分類226
9.1.3藏語短語規則的形式表達229
9.2名詞性短語結構及其形式化描述231
9.2.1概述2319.2.2定中結構的NP232
9.2.3聯合結構的NP240
9.3動詞性短語結構及其形式化描述241
9.3.1概述241
9.3.2主謂結構的VP242
9.3.3述賓結構的VP244
9.3.4述補結構的VP246
9.3.5動詞聯合的VP250
9.3.6狀中結構的VP251
9.4形容詞性短語結構及其形式化描述252
9.4.1概述252
9.4.2聯合結構的AP252
9.4.3狀中結構的AP255
0章藏語句法分析258
10.1藏語句型概述258
10.1.1NP+PP+VP句型258
10.1.2NP+VP句型259
10.2短語結構語法260
10.2.1形式語法260
10.2.2CFG句法分析264
10.3藏語CFG句法分析265
10.3.1LR分析算法265
10.3.2句法樹273
10.4依存語法275
10.4.1概述275
10.4.2依存句法分析方法277
10.5藏語依存句法分析281
10.5.1概述281
10.5.2藏語依存關繫體繫282
10.5.3確定性藏語依存句法分析286
1章統計機器翻譯原理288
11.1機器翻譯概述288
11.1.1機器翻譯技術的發展288
11.1.2機器翻譯方法289
11.2統計機器翻譯291
11.3基於噪聲信道模型的統計機器翻譯基本原理291
11.4統計語言模型293
11.5統計翻譯模型296
11.5.1共現296
11.5.2對齊297
11.5.3IBM模型1300
11.5.4學習詞彙翻譯模型301
11.5.5其他更不錯的IBM模型304
參考文獻305
內容簡介
本書介紹藏語自然語言處理的基本理論和方法。全書11章,章介紹構成藏語語法單位的字、詞、短語和句子第2章介紹概率論、信息論等的基本概念,以及馬爾可夫模型、優選熵模型、條件隨機場等模型。第3章介紹形式語言與自動機理論涉及的內容。第4章介紹計算機字符編碼。第5~10章分別闡述藏語語料庫、信息熵、拼寫形式語言、自動分詞及詞性和語義標注、短語結構及其形式化描述和句法分析。1章結合藏漢機器翻譯,介紹統計機器翻譯原理。本書對從事藏語自然語言處理研究的研究者有參考價值,也可供藏文信息技術和藏語計算語言學專業教師和研究生使用。