[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 計算語言學新發展研究
    該商品所屬分類:研究生 -> 工學
    【市場價】
    635-920
    【優惠價】
    397-575
    【作者】 張霄軍 
    【所屬類別】 圖書  教材  研究生/本科/專科教材  工學 
    【出版社】清華大學出版社 
    【ISBN】9787302573388
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:精裝

    是否套裝:否
    國際標準書號ISBN:9787302573388
    叢書名:新時代外國語言文學新發展研究叢書

    作者:張霄軍
    出版社:清華大學出版社
    出版時間:2023年12月 


        
        
    "
    編輯推薦

    清華大學出版社此前無此類圖書。該書出版助於該學科和領域的學習者和興趣者尤其是大學生和研究生作為學習和研究的參考。可以更有效地積聚全國外國語言文學的研究力量和資源,融合語言文學的研究力量和資源,調動各相關學術團體的學術研究與合作交流的積極性和創造性,為外國語言文學一流學科建設添磚加瓦。

     
    內容簡介

    計算語言學與自然語言處理的界限越來越模糊,學科融合的特點越來越明顯,但作為技術應用的理論基礎,計算語言學的研究對自然語言處理技術的發展尤為重要,該著市場需求旺盛。本著在介紹計算語言學基本方法、主要內容和應用領域的基礎上,重點介紹計算語言學近年來的新發展和新趨勢,適用於語言學、數學和計算機學科所有對自然語言處理感興趣的讀者。

    作者簡介

    張霄軍,博士,西交利物浦大學翻譯學科主管、英國利物浦大學客座講師,社會兼職包括世界翻譯教育聯盟翻譯技術教學研究會副會長等,研究興趣為計算語言學、機器翻譯和翻譯技術。

    目錄
    第1章 詞彙形態分析1
    1.1 詞與詞彙形態學2
    1.1.1 詞型與詞例2
    1.1.2 詞彙形態學3
    1.2 詞法分析4
    1.3 詞法分析技術研究綜述及進展5
    1.3.1 詞法分析器6
    1.3.2 詞法分析研究進展9
    1.4詞法分析應用11
    2.1 傳統的漢語自動分詞方法14
    2.1.1 最大匹配法15
    2.1.2 最大概率法17
    2.2 未登錄詞識別20
    2.2.1 姓名識別21

    第1章 詞彙形態分析1
    1.1 詞與詞彙形態學2
    1.1.1 詞型與詞例2
    1.1.2 詞彙形態學3
    1.2 詞法分析4
    1.3 詞法分析技術研究綜述及進展5
    1.3.1 詞法分析器6
    1.3.2 詞法分析研究進展9
    1.4詞法分析應用11


    第2章 漢語自動分詞13
    2.1 傳統的漢語自動分詞方法14
    2.1.1 最大匹配法15
    2.1.2 最大概率法17
    2.2 未登錄詞識別20
    2.2.1 姓名識別21
    2.2.2 地名識別22
    2.2.3 機構名識別24
    2.2.4 新詞識別24
    2.2.5 指代消解25
    2.3 切分歧義26
    2.3.1 術語的辨析27
    2.3.2 交集型歧義切分的處理29
    2.3.3 組合型歧義切分的處理31
    2.4 漢語自動分詞研究進展31
    2.5 古漢語和中古漢語自動分詞35


    第3章 自動詞性標注41
    3.1 詞性標記集及詞性標注示例42
    3.2 兼類詞消歧45
    3.2.1 基於規則的方法48
    3.2.2 基於統計的方法50
    3.2.3 基於轉換的方法52
    3.3 未登錄詞詞性預測53
    3.3.1 使用單一特征的未登錄詞詞性預測54
    3.3.2 使用組合特征的未登錄詞詞性預測 55
    3.4 文本序列標注研究進展57
    3.4.1 基於賓州樹庫的詞性標注研究58
    3.4.2 基於社交媒體文本的詞性標注研究60
    3.4.3 基於依存樹庫的詞性標注研究61


    第4章 局部句法分析63
    4.1 短語結構語法與淺層分析63
    4.2 淺層分析研究進展70
    4.3 骨架分析72
    4.4 骨架分析研究進展76
    4.5 局部句法分析應用78
    4.5.1 樹庫建設7
    4.5.2 機器翻譯調序79


    第5章 完全句法分析83
    5.1 語法理論84
    5.1.1 表層結構與深層結構85
    5.1.2 依存語法及研究進展86
    5.1.3 詞彙-功能語法90
    5.2 句法分析93
    5.2.1 自頂向下的分析93
    5.2.2 自底向上的分析96
    5.2.3 左角分析法98
    5.2.4 CYK算法102
    5.2.5 Earley 算法105
    5.3 漢語小句復合體110
    5.4 依存關繫與語言網絡113
    5.4.1 依存關繫與依存距離113
    5.4.2 復雜繫統與語言網絡116


    第6章 語義標注與分析119
    6.1 動詞中心論及其發展120
    6.1.1“格語法”中的“動詞中心論”120
    6.1.理論中的“動詞中心論”121
    6.1.3 配價語法中的“動詞中心論”123
    6.2 語義知識庫126
    6.3 語義角色標注134
    6.3.1 基於語塊的語義角色標注134
    6.3.2 端對端語義角色標注繫統135
    6.4 中心詞驅動的短語結構語法137
    6.5 語言資源建設中的語義分析140


    第7章 形式語言理論與自然語言生成143
    7.1 形式語法與自動機144
    7.1.1 形式語法145
    7.1.2 自動機理論150
    7.2 自然語言生成153
    7.2.1 傳統的模塊化生成框架155
    7.2.2 端到端的自然語言生成框架158
    7.3 自然語言生成任務159
    7.4 自然語言生成質量評價162
    7.5 自然語言生成現狀分析與展望163
    7.6 ChatGPT及其性能評測167


    第8章 多語言機器翻譯研究進展169
    8.1 多路翻譯170
    8.1.1 參數共享170
    8.1.2 訓練方法172
    8.1.3 語言多樣性174
    8.2 低資源翻譯175
    8.2.1增強現有雙語平行語料176
    8.2.2 融合單語語言模型177
    8.2.3 低資源翻譯方法178
    8.3 多源翻譯182
    8.3.1 多源翻譯的發展契機182
    8.3.2 可獲得多源數據182
    8.3.3 多源數據的缺失183
    8.3.4 多源翻譯的使用場景184
    8.4 領域適配問題184
    8.5 機器翻譯的難點185
    8.6 機器翻譯評測188


    第9章 文本智能挖掘研究進展193
    9.1 文本分類193
    9.2 文本聚類195
    9.3 主題模型198
    9.3.1 LSA和 PLSA199
    9.3.2 LDA201
    9.4 情感分析與觀點挖掘202
    9.4.1 文檔和句子級情感分析方法203
    9.4.2 屬性級情感分析205
    9.4.3 情感分析中的特殊問題207
    9.5 話題檢測與跟蹤211
    9.6 文本自動摘要215


    參考文獻217


    附 錄243
    附錄1 詞性標記集243
    附錄2 數學基礎 255


    術語表263

    前言
    Grishman(1986;4)將“計算語言學”(computational linguistics)定義為“一門研究如何利用計算機來理解和生成自然語言的科學”。這指明了計算語言學的研究目標和研究手段。理解和生成自然語言,是計算語言學的研究目標;利用計算機,是計算語言學的研究手段。更確切地說,是“利用計算機建立傳輸說話者所表述和聽話者所理解的信息的計算模型”(Hausser,2014:xix)。Allen(1995:3)則認為計算語言學的目標應該表述為:“利用計算機科學的算法和數據結構來建立語言的計算理論。”
    要實現語言的生成,首先得要實現計算機對自然語言的理解。有人認為,現階段提出理解目標不切實際,因為目前占主流地位的統計方法和深度學習的方法所達到的目標隻是處理,還談不上理解。更進一步說。並非經過理解纔能處理。但是,統計方法隻是解決問題的方法之一,它不能處理所有的語言問題;深度學習也不能真正理解語言,計算機所理解的人類語言不過是一種模仿或者復述。隻有真正理解了人類語言,纔能實現語言的生成。
    要使計算機理解自然語言,必須使之具備以下自然語言知識(Allen,1995):
    ·語音和音繫學知識:主要關注語音怎樣轉化為詞;

      Grishman(1986;4)將“計算語言學”(computational linguistics)定義為“一門研究如何利用計算機來理解和生成自然語言的科學”。這指明了計算語言學的研究目標和研究手段。理解和生成自然語言,是計算語言學的研究目標;利用計算機,是計算語言學的研究手段。更確切地說,是“利用計算機建立傳輸說話者所表述和聽話者所理解的信息的計算模型”(Hausser,2014:xix)。Allen(1995:3)則認為計算語言學的目標應該表述為:“利用計算機科學的算法和數據結構來建立語言的計算理論。”
      要實現語言的生成,首先得要實現計算機對自然語言的理解。有人認為,現階段提出理解目標不切實際,因為目前占主流地位的統計方法和深度學習的方法所達到的目標隻是處理,還談不上理解。更進一步說。並非經過理解纔能處理。但是,統計方法隻是解決問題的方法之一,它不能處理所有的語言問題;深度學習也不能真正理解語言,計算機所理解的人類語言不過是一種模仿或者復述。隻有真正理解了人類語言,纔能實現語言的生成。
      要使計算機理解自然語言,必須使之具備以下自然語言知識(Allen,1995):
    ·語音和音繫學知識:主要關注語音怎樣轉化為詞;
    ·形態學知識:主要關注詞素怎樣構成詞;
    ·句法知識:主要關注詞怎樣構成句子;
    ·語義知識:主要關注詞義怎樣構成句義;
    ·語用知識:主要關注句子在不同語境中的使用;
    ·語篇知識:主要關注上下句之間的關繫;
    ·世界知識:主要指說話者和聽話者所具備的對外部世界的認知。
      通常來說,計算機要具備的自然語言知識似乎和傳統語言學和現代語言學的內容大致相當。傳統語言學著重語言事實的描寫,經驗性質比較突出。現代語言學,例如喬姆斯基語言學(Chomskyan linguistics ).
      理論性非常強,已經脫離了經驗科學的範疇,我們稱之為“理論語言學”。但計算語言學和這兩者是有本質區別的。
      理論語言學和計算語言學都是研究自然語言的,但服務對像有所不同:前者是面向人的,後者是面向計算機的。計算語言學是一門實驗科學,所以它提出的問題既要符合自然語言處理的實際需要,又要用現有的計算機技術解決。超出計算機的能力,就不具有可行性。此外,計算語言學中研究對像的定義必須明確,不能含期。例如漢語“詞”的定義,理論語言學上的定義是:詞是最小的、能獨立運用的語言單位,但這一定義並不清晰。語言學家也分析了詞的一些特征,例如“結合緊密、使用穩定”等,但沒有定量標準,這樣的定義對計算機來說是無益的。計算語言學中“詞”的定義,簡言之,能在分詞詞表中找到的就是詞,否則就不是詞,或者是未登錄詞。這樣,計算機就在詞表中查找,能找到的就是詞,找不到的就劃歸到未登錄詞裡做下一步處理。
      理論語言學研究主要不是考慮計算機的應用,因此無法提出自然語言處理的問題和理論。例如,漢語自動分詞(Chinese word segmentqtion)問題就是從中文信息處理角度提出來的,漢語理論語言學研究從來沒有、也不可能提出這樣的問題’。此外,理論語言學不一定要形式化,也沒有為形式化提供任何手段。形式化是數學表示的問題,包括兩個方面:一是問題本身的形式化描述;二是解決問題的方法的形式化描述,後者通常用數學模型來體現。要讓計算機掌握和具備以上的語言知識,計算語言學研究者首先得將這些知識形式化,並將其用算法的形式在計算機上加以實現。
      從宏觀上看,計算語言學的基本方法有兩種:基於規則的方法和基於經驗的方法。前者的理論基礎是語言學上的理性主義(rationalism).以喬姆斯基理論為代表。喬姆斯基(Chomsky,1986;5)認為人的語言知識“通過某種方式表現在我們的心智之中,最終表現在我們的大腦之中,這種知識的結構我們希望能夠抽像地描寫出來,用具體的原則、根據物質機制描寫出來”。語言學研究的目標是人類的這種語言能力。
      言語是語言能力的具體表現,不是語言學應該關注的重點。理性主義方法的特點是演繹法。從原則和參數演繹出規則。從規則推導出具體的句子。喬姆斯基語言學雖然不屬於計算語言學,但對於計算語言學的形成和發展有重大影響。基於規則的計算語言學研究方法中的理性主義體現在兩個方面:第一,目標定位於“自然語言理解”,希望在理解的基礎上來處理自然語言;第二,方法的核心是“基於規則”,希望根據通過內省和滴繹得到的一整套規則來處理自然語言。
      而基於經驗的方法的理論基礎是經驗主義(empiricism),來源於香農的信息論。信息論認為語言事件(語言表現)是有概率的,可以通過統計得到這些概率,從而對自然語言處理(natural language processing.NLP)的各種具體問題進行決策。經驗主義方法的特點是歸納法,集中體現為語料庫語言學。與理性主義相對立,經驗主義認為,完成自然語言處理任務不一定要經過理解的階段。通過內省和演繹得到的規則往往是顆粒度較大的語言知識,隻有通過運用統計方法。纔能自動獲得大量的、帶概率的小顆粒度語言知識,從而處理大規模真實文本。
      馮志偉(2005)將計算機對語言的研究和處理劃分為以下四個階段:
      (1)把需要研究的問題在語言學上加以形式化,建立語言的形式化模型,使之能以一定的數學形式,嚴密面規整地表示出來;
      (2)把這種嚴密而規整的數學形式表示為算法,使之在計算上形式化;
      (3)根據算法編寫計算機程序,使之在計算機上加以實現,建立各種實用的自然語言處理繫統;
      (4)對於建立的自然語言處理繫統進行評測,使之不斷地改進質量和性能,以滿足用戶的要求。
      自然語言處理的這四個階段可以簡單概括為:數學模型→算法表示→程序實現→質量評測。計算語言學會涉及上述四個階段的哪個階段或者哪些階段,目前學界和業界對此認識並不明晰。計算語言學和自然語言處理的學科分界尚不明確。
      一般情況下,學界對於計算語言學和自然語言處理這兩個術語是不加區分的。因為兩者的本質是基本相同的,區別可能僅僅在於自然語言處理更注重實踐,而計算語言學較重視理論。在《牛津計算語言學手冊》(The Oxford Handbook of Computational Linguistics)第一版(2003)中尚能看到兩者的明顯區別;全書分為三部分——第一部分“基礎篇”、第二部分“方法與資源篇”、第三部分“應用篇”,自然語言處理的內容大都被放在第三部分“應用篇”;然而在其第二版(2014)中已然很難發現兩者的界限了:全書分為四部分——第一部分“語言學基礎篇”、第二部分“計算基礎篇”、第三部分“語言處理任務”和第四部分“自然語言處理應用”,其中第三部分和第四部分占據全書的大部分體量,但對計算語言學和自然語言處理並未做區分。然而,Roland Hausser在其全三版《計算語言學基礎》(Foundations of Computational Linguistics)教材中堅持語言的可計算性和形式語言學,從未涉及任何具體的語言處理任務,以示計算語言學“堅壁清野”,不與自然語言處理發生任何學科交叉。
     我們相信,在學科交叉和學科融合的大背景下,堅持一個學科的純潔性既無必要也不現實。但一個學科有一個學科本身的發展規律和學科特點,丟掉特點去迎合熱點是一件極其危險的事情。盡管兩者的本質是基本相同的,但總體而言自然語言處理更注重實踐,而計算語言學較重視理論。也可以說,計算語言學是建構自然語言處理繫統的理論基礎(劉海濤,2001),兩者還是應該各自有所側重的。Manaris (1998:1)認為自然語言處理可以定義為“研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科,即研究表示語言能力和語言應用的模型,建立計算框架來實現這樣的語言模型,提出相應的方法不斷地加以完善,根據模型設計各種實用繫統,並探討這些實用繫統的評測技術”。
      也有學者認為,自然語言處理就是計算語言學的應用領域。隨著計算機速度的加快和存儲量的增加,計算語言學在語音合成、語音識別、文字識別、拼寫檢查、語法檢查應用領域進行了商品化開發。除了早期開始的機器翻譯和信息檢索等應用研究進一步得到發展之外,計算語言學在信息抽取、間答繫統、自動文摘、術語的自動抽取和標引、文本數據挖掘、自然語言接口,計算機輔助語言教學(computer-assisted language learning)等新興的應用研究中,都有了長足的進展。此外,計算語言學的技術在多媒體繫統(multimedia system)和多模態繫統(multimodal system)中也得到了應用。
      漢字識別的核心技術是字形特征的抽取和模式識別,識別緒果是否能組織為有意義的文本,取決於自然語言理解。語音識別和語音合成則需要用到文語轉換技術,即從文本到標音符號的相互轉換,其中多音字的處理是關鍵。自動校對可大大減輕人工校對工作量,使這一環節跟出版業的其他環節的自動化相適應。計算機輔助語言教學屬於現代教育技術,如果沒有自然語言處理技術的支持,電子教案可以說是紙質教案的翻版。好的教學軟件應該包括更多的人機交互活動,例如習題的自動生成、作業的自動批改。機器翻譯的意義毋庸贅言,這是一種綜合性最強的應用。僅就文本形式的翻譯而言,就需要用到知識表示方法、機譯詞典構造、源語言的分析、目標語言的生成等技術。如果是口語現場翻譯,還需要有語音識別、語音合成以及人機接口技術的配合。智能檢索,包括信息檢索、信息抽取、文本挖掘、話題跟蹤、文本分類、文本過濾,間答繫統等,是當前最熱門的應用。文本分類是智能檢索的一個重要方面,對於網站新聞頻道的自動更新具有特殊意義。例如。中國搜索在線報告,他們的新聞頻道就是使用文本分類技術而自動更新的,其他網站的最新消息可在兩分鐘內在他們的頻道得到反映。自動文摘可幫助人們快速、準確、全面地獲取信息,特別是因特網上的信息。簡單的原文濃縮,就能起到一定的作用。哪些句子最能代表原文內容,需要根據其出現位置、所含詞語進行計算。如果要用不同於原文的句子來表示,還需要用到語句分析和語句生成技術。
      但計算語言學的研究內容和其主要應用不是一一對應的,後者應符合市場需要。有些基礎研究本來就不是瞄準直接應用的,例如句法分析技術可在多種應用繫統中起作用,但不可能獨立成為一種社會大眾需要的應用。也很難講在上述應用場景中,計算語言學到底在自然語言處理任務的哪個(哪些)環節作出了貢獻。
      一般認為計算語言學是語言學的分支,自然語言處理是計算機科學的子學科。但是現在由於計算語言學和自然語言處理之間的界限越來越模糊,甚至兩個領域的學者常常去參加同樣的會議,交流各自的研究工作也完全沒有障礙,於是就有了一個說法;計算語言學和自然語言處理都是跨語言學和計算機科學的交叉學科。然而,Ryan Cotterell博士和Emily M.Bender教授幾年前在推特上發起的一場有關“自然語言處理是不是交叉學科”的爭論「卻將此引入縱深,同時也引發了對計算語言學學科屬性的深層次討論。
      Ryan Cottercll認為自然語言處理的研究成果並沒有吸收語言學方面最新的進展,因此不被公認為是跨學科的。他更加坦率地認為語言學和自然語言處理已經分離開了,甚至表示自然語言處理在過去10到20年的發展與近期語言學的研究無關,理由是他認為交叉學科必須建立在兩個學科共同的工作基礎上,而目前自然語言處理的工作大部分不符合這個定義。Emily Bender則認為如果問題要求多個領域的專業知識有效地接近,一個研究領域原則上就是跨學科的。據此定義,自然語言處理原則上就是跨學科的。但她同時又同意Ryan的觀點,說自然語言處理在實踐中大多不是學科交叉的,同樣也不認為語言學的所有子領域都和自然語言處理相關。因此她的觀點是;學習語言如何工作以及(或者)與有相關經驗的人合作,會讓自然語言處理發展得更好。無獨有偶,現代語音識別和自然語言處理研究的先驅Frederick Jelinek曾經說過:“每當我開除一個語言學家,語音識別繫統就更準確了。”後來他又改口說“我的一些最好的朋友是語言學家”(曾江,2020)。由此看來,為了從事計算語言學和自然語言處理的研究,語言學家很有必要更新知識,很有必要學習數學和計算機科學的知識。
      如果把計算語言學或自然語言處理領域分為兩大派別,即計算機主義者和語言學主義者,隨著人工智能、機器學習在自然語言處理領城影響力不斷增大,計算機主義者逐漸演化成人工智能/機器學習主義者,而Bender教授則是堅定的語言學主義者。她認為自然語言處理領域越來越看重神經模型、人工智能算法而忽視傳統、忽視語言本體,而且對模型和算法的過分贊譽和誇大宣傳主要是由於對語言形式和語言意義的誤解造成的,一個直接的理由就是“語言模型無法學習語義,因為語言模型僅僅使用語言形式作為訓練數據,並沒有踫觸到語言意義本身”(Bender & Koller, 2020:5185)。
      相對於自然語言處理工程問題,計算語言學主要致力於用計算的方法來回答語言學的科學問題。語言學的核心問題包括語言表征和語言知識的性質,如何在語言的產生、理解中獲得和運用語言學知識。對這類問題的回答,有助於描述人類的語言能力,也有助於解釋實際記錄的語言數據和行為的分布。在計算語言學中,我們用更形式化的答案來回答這些問題。語言學家關心人類計算了什麼以及是如何計算的,所以我們將語言表征和語法通過數學的形式來定義,研究它們的數學屬性,並設計有效的算法來學習、生成和理解。隻要這些算法可以實際運行,就可以測試我們的模型,看它們是否能作出合理的預測。
      語言學也考慮一些“非核心”的語言問題,例如社會語言學、歷史語言學、生理語言學或者神經語言學等。這些學科問題本質上和計算語言學是平等的,都是在用一套模型和算法讓語言數據看起來合理。從這個角度來說,計算語言學並不試圖去對日常用語進行建模,而是將語言學家所作的抽論自動化。這潛在地就使我們能夠處理更大的數據集(甚至新的數據)並得出更準確的結論。同樣的,計算語言學家可能會設計軟件工具來幫助記錄瀕危語言。那麼,很明顯計算語言學具有跨學科的性質。
      以機器翻譯為例,計算語言學致力於機器翻譯的主要目標是解釋和探究翻譯的本質以及翻譯活動的過程,但自然語言處理工程師則不會考慮機器翻譯有沒有解釋翻譯的本質是什麼或者翻譯人員是如何工作的,他們在意的是機器翻譯繫統能否產生一個合理、精確、流暢的翻譯結果。機器翻譯也有自己的衡量方法用以評價和提高這些機器翻譯質量,而不是理解翻譯的本質。因此套用人工翻譯的評價標準和體繫(如“信、達、雅”)去衡量機器翻譯的譯文質量的做法本身就不可取,也不可信。
      從學科屬性上來說,計算語言學到目前為止,理論體繫尚未建立,還不能算是一門理論科學。一方面,其主流方法(統計方法和神經網絡方法)是經驗主義的,這充分表明計算語言學還是一門經驗科學。另一方面,計算語言學又的確是一門實驗科學。其理論和方法的正確性都需要通過在計算機上做實驗來得到證明。而理論語言學則不是一門實驗科學,有些問題本質上無法通過實驗來研究,例如語言的發展規律。
      近年來,隨著人工智能的崛起。自然語言處理也走向了智能化。出現了計算語言學的另外三種主義——符號主義(symbolicism)、連接主義(connectionism)和行為主義(actionism)。符號主義又稱為邏輯主義、心理學派或計算機學派,原理主要為物理符號繫統(即符號操作繫統)假設和有限合理性原理。連接主義又稱為仿生學派或生理學派,主要原理為神經網絡及神經網絡間的連接機制與學習算法。行為主義又稱為進化主義或控制論學派,原理為控制論及感知-動作型控制繫統。
      符號主義認為人工智能源於數理邏輯。數理邏輯從19世紀末起得以迅速發展,到20世紀30年代開始用於描述智能行為。計算機出現後,又在計算機上實現了邏輯演繹繫統。其有代表性的成果為啟發式程序LT邏輯理論家,它證明了38條數學定理,表明了可以應用計算機研究人的思維過程,模擬人類智能活動。正是這些符號主義者,早在1956年首先采用“人工智能”這個術語,後來又發展了啟發式算法、專家繫統、知識工程理論與技術等,並在20世紀80年代取得很大發展。符號主義曾長期一枝獨秀,為人工智能的發展作出重要貢獻,尤其是專家繫統的成功開發與應用,對人工智能走向工程應用和實現理論聯繫實際具有特別重要的意義。在人工智能的其他學派出現之後,符號主義仍然是人工智能的主流派別。這個學派的代表人物有Newell、Simon、Nilsson等。
      連接主義認為人工智能源於仿生學,特別是對人胸模型的研究。它的代表性成果是1943年由生理學家McCulloch和數理邏輯學家Pits創立的腦模型,即MP模型,開創了用電子裝置模仿人腦結構和功能的新途徑。它開始研究神經網絡模型和腦模型,開闢了人工智能的又一發展道路。20世紀60~70年代,連接主義,尤其是對以感知機為代表的腦模型的研究出現過熱潮,由於受到當時的理論模型、生物原型和技術條件的限制,腦模型研究在20世紀70年代後期至80年代初期落入低潮。直到Hopfield教授在1982年和1984年發表兩篇重要論文,提出用硬件模擬神經網絡以後,連接主義纔又重新抬頭。1986年,Rumelhart et al.(1986)提出多層網絡中的反向傳播(backpropogation, BP)算法。此後,連接主義勢頭大振,從模型到算法。
      從理論分析到工程實現,為神經網絡計算機走向市場打下基礎。現在,對人工神經網絡(Artificial Neural Network,ANN)的研究熱情仍然較高,但研究成果未達預期。
      行為主義認為人工智能源於控制論。控制論思想早在20世紀40~50年代就成為時代思潮的重要部分,影響了早期的人工智能工作者。Wiener et al.(1948)提出的控制論和自組織繫統以及錢學森等人提出的工程控制論和生物控制論,影響了許多領域。控制論把神經繫統的工作原理與信息理論、控制理論、邏輯以及計算機聯繫起來。早期的研究工作重點是模擬人在控制過程中的智能行為和作用,如對自尋優、自適應、自鎮定、自組織和自學習等控制論繫統的研究,並進行“控制論動物”的研制。到20世紀60年代,上述控制論繫統的研究取得一定進展,播下了智能控制和智能機器人的種子,並在20世紀80年代誕生了智能控制和智能機器人繫統。行為主義是20世紀末纔以人工智能新學派的面孔出現的,引起許多人的興趣。這一學派的代表作者首推Brooks的六足行走機器人,它被看作新一代的“控制論動物”,是基於感知-動作模式模擬昆蟲行為的控制繫統。
      近來學界對自然語言處理領域發展的反思和態度轉變可以總結為兩種理論構建視角,即自底向上(bottom-up)和自頂向下(top-down)的理論構建。在自底向上的視角下,學術界研究是通過發現和解決具體的研究挑戰驅動的,如果科學研究能完全解決一個具體挑戰,或者部分解決,那就可以被視作一項學術成果,隻要這些讓人滿意的成果是頻繁出現且不斷攀升的,就會帶來一種持續進步的總體氛圍。與之相對的自頂向下視角則聚焦遠期終極目標,為整個領域提供一套完整統一的理論體繫。自頂向下的視角會帶來焦慮感,因為我們還不能完全解釋所有現像,還會出現更加棘手的問題,那就是自底向上的進步到底有沒有把我們領向正確的方向。同樣的任務從自底向上的視角看是自然語言處理問題,而從自頂向下的視角看就成了計算語言學的問題。毫無疑問,自然語言處理正以飛速攀登的速度進步,每年各領域自然語言處理任務的解決辦法都通過更好預訓練的語言模型得到顯著改進,都能達到目前最好的水平(state-of-the-art,SOTA)。但是,如果從自頂向下的角度看,我們如此飛速攀登的山峰,究竟是不是“正確的”山呢?不知道當今飛速進步會把我們帶向什麼樣的最終目標,是普遍語言智能(general linguistic intelligence ),還是一個可以通過圖靈測試(Turing test)的繫統?
      但計算語言學與自然語言處理的學科屬性的爭論和各自研究重點的區別仍然懸而未決,或許無法解決。不管爭論的結果是什麼,都是有益的,因為討論會促使人們反復思考自己的觀點。因此,大部分學者對“計算語言學”和“自然語言處理”這兩個術語的使用隻是遵循各自的使用習慣而未作細致區分,甚至有時兩者是混用的。如果非要給兩者加以界定,那可能計算語言學更“理論”,而自然語言處理更偏向“應用”。
      縱觀計算語言學發展史,計算語言學家經歷了多次主流變革。基於語法規則和專家知識的方法讓位於統計方法,如今大部分研究又吸收了神經網絡和深度學習方法。每一代研究者都覺得他們解決了相關問題並且不斷進步,但是當每種範式出現不可解決的致命缺陷,該範式隨即就會被拋棄。那麼,應該如何盡量讓計算語言學的科研攀登是在一座正確的山上呢?Bender &Koller在論文中提出了五種“爬山攻略”(hillclimbing diagnostics ):
      第一,對語言問題保持謙卑與敬畏,多問一些自頂向下的問題。神經網絡並不是自然語言處理領域第一個取得成功的方法,應該也不會是最後一個。
      第二,了解自然語言處理下遊任務的局限性。比如CAMRP這樣的人工賽道任務(見第6章)可以幫助某一個領域的研究盡早取得突破,但是不要妄想測試數據的語言分布能完全模擬現實語言世界的整體分布。
      第三,重視和支持新賽道,但要慎重選擇和創建新任務。比如,在第十三屆語言資源與評測國際會議(LREC 2020)上舉行的第一屆古代漢語分詞和詞性標注國際評測(EvaHan)就大力推動了古漢語信息處理和古籍數字人文研究(見第2章)。
     

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部