![](/c49/30/10357200686.jpg)
出版社:清華大學 ISBN:9787302389507 商品編碼:10357200686 開本:16 出版時間:2015-03-01 代碼:39 作者:苗奪謙衛志華張志飛
" 基本信息 - 商品名稱:中文信息處理原理及應用(第2版高等學校計算機專業規劃教材)
- 作者:苗奪謙//衛志華//張志飛
- 代碼:39
- 出版社:清華大學
- ISBN號:9787302389507
其他參考信息 - 出版時間:2015-03-01
- 印刷時間:2015-03-01
- 版次:2
- 印次:1
- 開本:16開
- 包裝:平裝
- 頁數:281
- 字數:423千字
內容提要 苗奪謙、衛志華、張志飛編著的《中文信息處理 原理及應用(第2版高等學校計算機專業規劃教材)》 全面繫統地介紹了中文文本信息處理技術,由淺入深 地講述了中文文本理解的原理與應用。全書共5個部 分: 預備知識、詞法分析、語法分析、語義分析和應 用與技術。預備知識部分介紹了本書所需的數學、語 言學和形式語言與自動機方面的理論知識。詞法分析 、語法分析和語義分析是自然語言處理的基礎。詞法 分析部分針對中文信息處理中特有的分詞問題,介紹 了若干分詞算法以及分詞歧義消除和未登錄詞識別算 法。語法分析和語義分析兩部分從語法(語義)的表 示入手,介紹自然語言的結構化和形式化,給出語法 分析和語義分析的常用算法,並針對該過程中的歧義 問題給出可行的解決思路。應用與技術部分講述中文 信息處理的應用,尤其是在文本分類、信息檢索、問 答繫統和自動文摘等領域的應用技術。 本書涉及內容廣泛,能滿足不同層次讀者群的需 求,可以作為高等學校計算機、信息類高年級本科生 的教材,也可作為自然語言處理方向研究生的教材, 同時非常適合供自然語言處理應用領域的研究人員和 技術人員參考。 作者簡介 苗奪謙,男,1964年4月生,1997年於中國科學院自動化研究所模式識別與智能繫統專業獲博士學位。現任同濟大學電子與信息工程學院教授、博導、副院長,計算機科學與技術繫教務委員會主任,計算機與信息技術***教學實驗示範中心主任,嵌入式繫統與服務計算 重點實驗室副主任。主要研究方向包括粒計算、粗糙集、自然語言理解、數據挖掘、機器學習、Web智能等,在IEEE TKDE、IEEE TCYB、IEEE TIFS、Pattern Recoqrfitiorl、Information Scierices、《計算機學報》、《軟件學報》等國內外重要學術刊物與會議上發表論文80餘篇,其中SCI收錄51篇,出版教材和學術著作9部,授權專利9項;主持**自然科學基金項目6項,高等學校博士學科點專項科研基金項目2項;作為骨干參與973項目一項,863項目一項,**自然科學基金重大、重點項目各一項;曾獲 科技進步一等獎(2007)、上海市技術發明一等獎(2009)、重慶市自然科學一等獎(2010)、 -IBM**教師獎(2010)、寶鋼**教師獎(2011)。目前主要學術任職包括國際粗糙集學會咨詢委員會委員,**自然科學基金委信息學部評議組專家, 高等學校計算機科學與技術專業教學指導分委員會專家工作組成員。中國計算機學會傑出會員,中國人工智能學會租糙集與軟計算專委會主任,上海市計算機學會人工智能專委會主任。 目錄 **部分 預備知識 **章概論 1.1 自然語言處理與中文信息處理 1.1.1 自然語言處理 1.1.2 中文信息處理 1.2 研究內容 1.3 應用領域 第2章預備知識 2.1 數學基礎 2.1.1 概率論 2.1.2 隨機過程 2.1.3 信息論 2.1.4 形式語言與自動機 2.2 語言學基礎 2.2.1 計算語言學概述 2.2.2 語素和詞 2.2.3 句法與篇章語法 2.2.4 詞義與句義 第2部分 詞法分析 第3章自動分詞概述 3.1 自動分詞 3.1.1 分詞規範 3.1.2 自動分詞的研究內容及意義 3.1.3 自動分詞方法 3.2 分詞歧義問題 3.3 未登錄詞問題 3.4 自動分詞評測 第4章基於詞典的分詞方法 4.1 分詞詞典 4.1.1 關於分詞詞典的構造 4.1.2 基於詞屬性的分詞詞典 4.1.3 基於逐字二分的分詞詞典 4.2 機械分詞方法 4.2.1 正向*大匹配算法 4.2.2 逆向*大匹配算法 4.2.3 鄰近匹配算法 4.2.4 *短路徑匹配算法 4.3 基於規則的分詞方法 4.3.1 分詞預處理中的規則 4.3.2 分詞規則 4.4 中文姓名切分 4.4.1 切分姓名中的當用資源 4.4.2 同源對表、互斥對表及其操作 4.4.3 姓名左右邊界的確定 4.4.4 屏蔽與恢復 4.4.5 同源對表和互斥對表的校正規則 4.4.6 概率再篩選 4.4.7 中文姓名切分繫統 第5章基於語料庫的分詞方法 5.1 語料庫 5.1.1 語料庫概述 5.1.2 語料庫加工規範 5.1.3 現代漢語語料庫構建實例 5.2 基於統計的分詞方法 5.2.1 統計分詞概述 5.2.2 統計分詞消歧 5.2.3 統計未登錄詞獲取 5.2.4 統計分詞模型 5.3 基於機器學習的分詞方法 5.3.1 *大熵分詞 5.3.2 條件隨機場分詞 第2部分 習題 第3部分 語法分析 第6章自動詞性標注 6.1 詞性標注概述 6.1.1 詞性標注 6.1.2 詞性標記規範 6.1.3 詞性消歧 6.1.4 詞性標注評測 6.2 基於統計的詞性標注方法 6.2.1 統計模型的訓練 6.2.2 馬爾可夫模型標注方法 6.2.3 隱馬爾可夫模型標注方法 6.3 基於規則的詞性標注方法 6.3.1 按兼類詞搭配關繫構造的規則 6.3.2 按詞語結構獲取的規則 6.4 其他標注方法 6.4.1 基於規則和統計相結合的標注方法 6.4.2 基於條件隨機場的詞性標注方法 6.4.3 詞性標注中的未登錄詞處理方法 第7章語法表示方法 7.1 語法表示概述 7.2 形式語法描述 7.2.1 重寫規則 7.2.2 轉移網絡 7.3 短語結構語法 7.4 依存語法 第8章句法分析方法 8.1 句法分析概述 8.1.1 句法分析 8.1.2 結構歧義 8.1.3 句法分析評測 8.2 基於規則的句法分析方法 8.2.1 自頂向下句法分析 8.2.2 自底向上句法分析 8.2.3 線圖句法分析 8.2.4 轉移網絡句法分析 8.3 基於統計的句法分析方法 8.3.1 概率上下文無關文法分析 8.3.2 依存句法分析137 第3部分 習題 第4部分 語義分析 第9章概念標注 9.1 概念標注概述 9.2 語言知識庫 9.3 概念標注方法 **0章語義表示 10.1 語義表示概述 10.2 語義邏輯表示法 10.2.1 一階謂詞演算 10.2.2 基本邏輯形式語言 10.2.3 邏輯形式中的歧義表示 10.2.4 論旨角色 10.3 語義網絡表示法 10.4 語義框架表示法 **1章語義分析 11.1 語義分析概述 11.2 基於語義特征的語義分析 11.2.1 組合理論 11.2.2 λ表達式與語義解釋 11.2.3 帶語義解釋的簡單語法和詞典 11.2.4 語義角色 11.2.5 特征合一的語義解釋 11.3 基於語法關繫的語義分析 11.4 基於模板匹配的語義分析 11.5 語義消歧 11.5.1 語義消歧概述 11.5.2 基於規則的語義消歧 11.5.3 基於統計的語義消歧 第4部分 習題 第5部分 應用與技術**2章文本分類 12.1 文本分類概述 12.1.1 自動文本分類定義 12.1.2 文本分類任務的特點 12.1.3 文本分類基本實現途徑 12.1.4 文本分類的組成 12.1.5 文本分類的應用領域 12.1.6 國內外研究現狀 12.2 文本分類方法 12.2.1 文本表示與文本特征選擇 12.2.2 分類器設計 12.2.3 分類器的閾值選擇 12.3 文本分類評測 12.3.1 單類賦值 12.3.2 多類排序 **3章信息檢索 13.1 信息檢索概述 13.1.1 信息檢索的對像和任務 13.1.2 信息檢索的評測 13.1.3 信息檢索模型 13.1.4 中文信息檢索的特點 13.2 基於統計的信息檢索模型 13.2.1 布爾模型及其擴展 13.2.2 向量空間模型 13.2.3 概率模型 13.3 基於語義的信息檢索 13.3.1 基於NLP的方法 13.3.2 潛在語義索引 13.3.3 基於神經網絡的信息檢索 13.4 信息檢索技術評測 13.4.1 文本檢索會議 13.4.2 亞洲語言信息檢索評測會議 13.4.3 863信息檢索評測項目 13.5 Web信息檢索 13.5.1 Web信息檢索的特點 13.5.2 搜索引擎 **4章問答繫統 14.1 問答繫統概述 14.1.1 問答繫統的發展 14.1.2 問答繫統的定義 14.1.3 問答繫統的研究趨勢 14.2 關鍵技術 14.2.1 關鍵詞抽取 14.2.2 關鍵詞擴展 14.3 問答繫統評測 14.4 Watson問答繫統 **5章自動文摘 15.1 自動文摘概述 15.1.1 文摘的定義 15.1.2 文摘的分類 15.1.3 自動文摘的意義 15.2 自動文摘的方法 15.2.1 基於統計的自動文摘 15.2.2 基於理解的自動文摘 15.2.3 基於信息抽取的自動文摘方法 15.2.4 基於結構的自動文摘 15.3 自動文摘繫統評測 15.3.1 內部評價 15.3.2 外部評價 15.4 自動文摘繫統273 第5部分 習題 附錄A 北京大學計算語言學研究所漢語詞性標注標記集 附錄B 哈爾濱工業大學CDT依存句法標注體繫 參考文獻
" |