[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 在線文本數據挖掘 算法原理與編程實現
    該商品所屬分類:圖書 -> 電子工業出版社
    【市場價】
    849-1232
    【優惠價】
    531-770
    【作者】 劉通 
    【所屬類別】 電子工業出版社 
    【出版社】電子工業出版社 
    【ISBN】9787121356322
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:電子工業出版社
    ISBN:9787121356322
    版次:1

    商品編碼:12677998
    品牌:電子工業出版社
    包裝:平裝

    開本:16開
    出版時間:2019-08-01
    用紙:膠版紙

    頁數:352
    字數:388000
    正文語種:中文

    作者:劉通

        
        
    "

    內容簡介

    本書介紹了互聯網環境下文本類型數據的分析方法,探討了當前主流的文本挖掘技術,以及這些技術在商業環境中的具體應用。本書從算法原理和應用場景兩方面分別對在線文本分析技術進行了介紹:從算法原理的角度,以數據挖掘和機器學習的相關知識為基礎,介紹了以文本建模、文本分類、文本聚類、序列標注為主要任務的文本分析方法,並對當前主流的深度學習方法與文本分析的結合進行了討論。從應用場景的角度,討論了文本分析技術的幾個重要實踐領域,包括信息檢索、內容摘要、口碑分析、社交網絡分析以及智能繫統。

    作者簡介

    劉通,畢業於上海交通大學安泰經濟與管理學院,獲得博士研究生學位,多年從事動畫、虛擬現實、手機遊戲設計開發的研究。曾出版《PREMIERE PRO CS4 視頻編輯與實戰演練》、《手機動畫角色設計》目前就職於華為技術有限公司

    目錄

    第1章 概述 1
    1.1 網絡運營與文本分析 1
    1.1.1 互聯網運營的戰略思維 1
    1.1.2 網絡運營與大數據文本分析 2
    1.2 文本分析的4V特征 4
    1.2.1 Volume特征 4
    1.2.2 Variety特征 5
    1.2.3 Value特征 6
    1.2.4 Velocity特征 7
    1.3 在線文本分析應用 8
    1.3.1 在線文本分析的管理類應用 9
    1.3.2 在線文本分析的內容類應用 12
    1.4 本章小結 16
    第2章 預備知識 18
    2.1 文本挖掘的主要任務 18
    2.2 語義分析與語法分析 20
    2.3 文本的結構化分析 21
    2.4 文本的標準化分析 24
    2.5 機器學習的基本概念 24
    2.5.1 機器學習與深度學習 25
    2.5.2 機器學習的基本要素 33
    2.6 機器學習的重要問題 36
    2.6.1 概率圖模型 36
    2.6.2 判別式模型和產生式模型 39
    2.6.3 機器學習模型求解 40
    2.6.4 模型過擬合 43
    2.7 本章小結 45
    第3章 文本建模 46
    3.1 文本建模的基本概念 46
    3.2 文本建模的應用場景 48
    3.2.1 主體角色識別 48
    3.2.2 語言風格分析 49
    3.2.3 智能繫統 49
    3.2.4 文本表示 50
    3.2.5 文本降維 50
    3.2.6 話題分析 50
    3.3 語言學建模概述 51
    3.4 詞標注分析 52
    3.5 句法分析 55
    3.5.1 轉換生成語法 56
    3.5.2 依存句法 56
    3.6 知識庫與語義網 58
    3.7 統計學建模概述 59
    3.8 向量空間模型 61
    3.9 LSI模型 64
    3.9.1 SVD 64
    3.9.2 基於SVD的降維分析 66
    3.10 Unigram模型 67
    3.11 pLSI模型 67
    3.11.1 pLSI的模型結構 67
    3.11.2 pLSI的參數估計 68
    3.12 LDA主題模型 70
    3.12.1 LDA的模型結構 70
    3.12.2 LDA的參數估計 72
    3.13 主題模型拓展 75
    3.13.1 相關主題模型 76
    3.13.2 層次主題模型 77
    3.13.3 動態主題模型 80
    3.13.4 句子主題模型 82
    3.14 基於詞彙的統計學建模方法 83
    3.15 本章小結 86
    第4章 文本分類 88
    4.1 文本分類的基本概念 88
    4.2 文本分類的應用場景 89
    4.2.1 文檔有用性判斷 89
    4.2.2 口碑情感分析 90
    4.2.3 負面信息識別 90
    4.2.4 信息檢索 90
    4.3 樸素貝葉斯模型 91
    4.3.1 貝努利模型 91
    4.3.2 多項式模型 93
    4.3.3 模型參數平滑 94
    4.4 向量空間模型 95
    4.4.1 Rocchio方法 95
    4.4.2 KNN方法 96
    4.5 SVM模型 97
    4.5.1 硬間隔SVM 97
    4.5.2 軟間隔SVM 100
    4.6 文本分類的評價 102
    4.6.1分類評價 102
    4.6.2 多類問題評價 104
    4.6.3 分類測試集 105
    4.7 分類特征優化 106
    4.7.1 分類特征提取 106
    4.7.2 分類特征轉化 112
    4.7.3 分類特征擴展 114
    4.8 分類學習策略優化 117
    4.8.1 AdaBoost算法 117
    4.8.2 主動式學習 118
    4.8.3 遷移學習 119
    4.9 本章小結 119
    第5章 文本聚類 121
    5.1 文本聚類的基本概念 121
    5.2 文本聚類的應用場景 122
    5.2.1 探索分析 122
    5.2.2 降維 123
    5.2.3 信息檢索 123
    5.3 扁平式聚類 124
    5.3.1 K-均值算法 125
    5.3.2 基於模型的聚類 128
    5.4 凝聚式聚類 132
    5.4.1 層次聚類 132
    5.4.2 基於簇距離的聚類過程 132
    5.4.3 算法停止條件 135
    5.5 聚類結果分析 136
    5.5.1 聚類算法評估 136
    5.5.2 聚類標簽生成 138
    5.6 聚類特征優化 140
    5.6.1 基於迭代的方法 141
    5.6.2 無監督指標 141
    5.7 半監督聚類 143
    5.7.1 遷移學習 144
    5.7.2 AP算法 145
    5.8 短文本聚類 146
    5.8.1 文本特征補充 146
    5.8.2 TermCut算法 148
    5.8.3 Dirichlet多項式混合模型 149
    5.9 流數據聚類 151
    5.9.1 OSKM算法 151
    5.9.2 可拓展K-means算法 152
    5.10 本章小結 153
    第6章 序列標注 155
    6.1 序列標注的基本概念 155
    6.2 序列標注的應用場景 157
    6.2.1 詞性標注 157
    6.2.2 命名實體識別 157
    6.2.3 分詞 157
    6.3 HMM 158
    6.3.1 HMM的概率計算問題 160
    6.3.2 HMM的學習問題 162
    6.2.3 HMM的預測問題 164
    6.4 最大熵模型和最大熵馬爾可夫模型 166
    6.4.1 最大熵模型 167
    6.4.2 最大熵馬爾可夫模型 170
    6.5 條件隨機場 172
    6.5.1 標注偏置問題 172
    6.5.2 條件隨機場的基本原理 174
    6.6 本章小結 176
    第7章 信息檢索 177
    7.1 信息檢索的基本概念 177
    7.2 信息檢索的應用場景 180
    7.2.1 搜索引擎 180
    7.2.2 內容推薦 182
    7.3 基於空間模型的信息檢索 184
    7.3.1 文檔查找 184
    7.3.2 文檔排序 185
    7.3.3 繫統評價 187
    7.4 基於概率模型的信息檢索 190
    7.4.1 二值獨立模型 191
    7.4.2 模型參數估計 193
    7.5 基於語言模型的信息檢索 196
    7.5.1 語言模型 196
    7.5.2 查詢似然模型 198
    7.6 本章小結 201
    第8章 文本摘要 203
    8.1 文本摘要的基本概念 203
    8.2 文本摘要的應用場景 206
    8.2.1 信息檢索 206
    8.2.2 信息壓縮 207
    8.2.3 用戶畫像 208
    8.2.4 知識管理 209
    8.3 關鍵詞提取的特征設計 210
    8.3.1 詞頻特征 210
    8.3.2 詞彙基礎特征 211
    8.3.3 詞彙位置特征 212
    8.3.4 詞彙標記特征 214
    8.4 關鍵詞提取的有監督算法 214
    8.5 關鍵詞提取的無監督算法 217
    8.5.1 簡單指標設計 217
    8.5.2 復合指標設計 217
    8.6 基於圖模型的關鍵詞提取算法 218
    8.6.1 圖模型靜態指標算法 220
    8.6.2 圖模型動態指標算法 223
    8.7 關鍵詞提取的技術優化 226
    8.7.1 長文本問題優化 227
    8.7.2 短文本問題優化 228
    8.7.3 多主題特征優化 229
    8.7.4 時序特征優化 232
    8.7.5 歧義問題優化 233
    8.8 關鍵短語提取 234
    8.8.1 短語性指標 235
    8.8.2 信息性指標 235
    8.9 關鍵句提取 236
    8.9.1 基於詞彙關鍵性的方法 236
    8.9.2 基於句子特征的方法 237
    8.9.3 基於圖模型的方法 238
    8.10 本章小結 240
    第9章 口碑分析 241
    9.1 口碑分析的基本概念 242
    9.2 口碑分析的應用場景 243
    9.2.1 用戶視角的應用 243
    9.2.2 網站運營者視角的應用 244
    9.2.3 商家視角的應用 244
    9.2.4 其他應用 245
    9.3 基於詞典的評價對像提取 245
    9.4 基於語料的評價對像提取 246
    9.5 評價水平量化 252
    9.5.1 整體粗粒度情感分析 253
    9.5.2 整體細粒度情感分析 254
    9.5.3 局部粗粒度情感分析 258
    9.5.4 局部細粒度情感分析 259
    9.6 基於語言模型的情感分析技術 259
    9.6.1 最大熵LDA主題模型:模型性質 260
    9.6.2 最大熵LDA主題模型:基本結構 260
    9.6.3 最大熵LDA主題模型:參數估計 263
    9.7 本章小結 265
    第10章 社交網絡分析 266
    10.1 社交網絡分析的基本概念 266
    10.2 社交網絡分析的應用場景 269
    10.2.1 虛擬社區發現 270
    10.2.2 用戶影響力分析 271
    10.2.3 情感分析 271
    10.2.4 話題發現與演化 272
    10.2.5 信息檢索 273
    10.3 社交網絡的虛擬社區發現 274
    10.3.1 社區發現的信息基礎 274
    10.3.2 基於隱性位置的聚類模型 275
    10.4 社交網絡的用戶影響力分析 276
    10.4.1 網絡結構與用戶影響力 276
    10.4.2 TwitterRank算法 277
    10.5 社交網絡的情感分析 279
    10.5.1 基於表情符號的訓練集合構建 279
    10.5.2 基於POSTag的特征優化 280
    10.6 社交網絡的話題發現與演化 282
    10.6.1 話題發現分析 282
    10.6.2 Twitter-LDA 284
    10.6.3 基於文檔聚類的話題發現 284
    10.6.4 基於詞彙聚類的話題發現 286
    10.6.5 話題演化分析 287
    10.6.6 基於NMF的主題建模 287
    10.7 社交網絡的信息檢索 289
    10.7.1 信息檢索的內容拓展策略 290
    10.7.2 信息檢索的綜合排序策略 291
    10.8 本章小結 293
    第11章 深度學習與NLP 295
    11.1 基本原理 296
    11.2 詞嵌入模型 299
    11.2.1 詞彙的分布式表示 299
    11.2.2 神經概率語言模型 300
    11.2.3 詞嵌入模型概述 301
    11.3 RNN與NLP 304
    11.3.1 RNN 304
    11.3.2 基於RNN的機器翻譯 305
    11.3.3 RNN的其他應用 308
    11.4 本章小結 309
    第12章 實證研究 311
    12.1 研究框架 311
    12.1.1 研究問題背景 311
    12.1.2 問題分析 313
    12.2 理論與模型 314
    12.2.1 相關理論與假設 314
    12.2.2 模型構建 317
    12.3 文本數據處理 319
    12.3.1 基於文本分析的口碑打分調整 319
    12.3.2 基於文本分析的口碑權重計算 323
    12.3.3 基於文本分析的候選集合構建 324
    12.4 研究結論 326
    12.4.1 實證結果 326
    12.4.2 管理建議 328
    12.5 本章小結 329
    第13章 總結 330

    查看全部↓

    前言/序言

    前言

    在大數據時代,數據的價值開始被推上各行各業的舞臺。人們更注重從海量的數據中挖掘感興趣的信息,以實現豐富的技術應用,進行科學的管理決策。在互聯網環境中,數據的分析與利用尤為重要,尤其是數值類型數據的分析和文本類型數據的分析。其中,文本類型數據的分析比一般數值類型數據的分析復雜,文本類型數據是大數據4V特征的具體體現,其相關技術也更具難度。盡管如此,文本類型數據在整個網絡中的信息占比仍十分龐大,且對用戶的各種在線交互、活動及購買行為也有著不容小覷的影響。因此,網絡中的文本類型數據具有十分重要的分析價值。本書將重點對當今文本類型數據的重要分析技術進行詳細、繫統的介紹。

    在應用方面,文本分析技術在大多數互聯網運營工作中具有重要的實踐意義。基於文本分析技術的應用包括管理類應用和技術類應用。在管理類應用中,文本分析可以有效提取用戶在線交互和在線行為的重要信息,幫助管理者更好地掌握用戶、產品、市場的信息,從而進行科學的建模與決策;在技術類應用中,文本分析可以充分從在線社區、平臺、數據庫大量的文本數據中提取、解析、創造用戶感興趣的信息與知識,為在線用戶提供內容服務。本書既介紹了與文本分析密切相關的理論、模型、方法,也介紹了文本分析在管理類應用與技術類應用等具體場景中的實現。

    文本分析是一門綜合的學科,其核心技術是文本挖掘技術。文本挖掘技術與傳統的數據挖掘技術一脈相承,是數據挖掘在語言學領域中的應用。從事文本分析的數據分析者不僅需要掌握豐富的數據處理、建模及挖掘方法,還需要掌握語言學知識、社會學知識,也需要充分理解語言產生的背景、應用和使用語言信息的用戶對像。文本數據比一般的數值數據更容易體現人類的感情與行為,其相應的技術也具備更高的智能化程度,因此,在任何領域,掌握文本分析技術對數據分析者來說都是一個不小的挑戰。

    近些年,隨著整個信息社會對文本數據重視程序的提升,以及計算機軟硬件技術的飛速發展,文本分析領域的研究成果形成井噴式爆發。由於篇幅所限,本書雖然無法全面講解文本分析的所有前沿技術,但是仍然盡可能地將所有經典的、有代表性的研究成果展現給大家,使從事文本分析的工作人員、科研人員及文本分析技術的愛好者能夠高效而繫統地對整個文本分析領域有一定的了解。閱讀本書後,希望讀者能夠具備基於文本分析技術的能力,從而解決工作中的各種文本分析問題,並能深刻地認識到文本分析為互聯網領域及整個社會帶來的實踐價值。

    本書特色

    1. 內容豐富,繫統全面,詳略得當

    本書內容涵蓋了當前大部分主流的文本分析技術與方法,筆者按照自身的知識體繫對其進行了細致的歸納與梳理,並由淺入深地向讀者進行了繫統的介紹。本書內容詳略得當,突出了知識的重點、難點。書中內容依托於數據分析技術,但不拘泥於技術本身,在介紹相關技術理論時注重向讀者教授核心的方法及思維方式,幫助讀者掌握技術的核心理念,從而使讀者做到靈活應用、深入思考、舉一反三、即時實踐。

    2. 行文通俗易懂,隨意而不失嚴謹,有利於讀者快速吸收理解

    本書在介紹知識時,盡可能地用通俗易懂的語言對技術細節進行描述,而不是生硬地對學術文獻中的定義、規範和公式進行搬運。對於很多技術難點,筆者均賦予了自身的思考和感悟,並用生動而接地氣的語言進行了轉述。

    本書中所有方法和理論都具有翔實可靠的學術依據,是科學而嚴謹的,所介紹的方法和技術也都得到了學術上的廣泛認可和接受。本書還在特定的位置附注了關鍵知識點的學術來源,以供感興趣的讀者進一步進行知識的補充、考證。

    3. 圖文並茂,配備實例,有趣生動

    本書雖是一本技術類書籍,但在排版風格上力爭做到圖文並茂,以增加讀者的閱讀興趣,提高讀者對於知識的理解效率。一圖勝千字,本書中很多文本分析中重要的技術流程采用了示意圖的表述方式,這可以有效地對知識點進行串聯與總結。

    此外,對於很多分析方法,本書還介紹了其具體應用場景,以及具體技術實現。這樣,讀者不僅掌握了知識的核心理念,根據具體實例也知道了如何運用知識。本書在知識結構上,可大致分成基礎篇和應用篇,基礎篇重點講述理論方法,而應用篇偏向於知識在具體場景中的技術實現。本書在知識點設計方面更加生動靈活,有效地保證了文本分析技術的落地與推廣。

    本書內容及體繫結構

    第1章 概述

    本章詳細談論了大數據時代下互聯網公司的機會與挑戰,介紹了在線文本分析技術在網站運營中重要的戰略性地位。本章還基於大數據背景,從4V角度介紹了文本分析的主要技術特征。本章內容可以幫助讀者更好地了解在線文本分析總體的知識框架和體繫。

    第2章 預備知識

    本章引入了與在線文本分析密切相關的理論知識。首先,介紹了文本挖掘的主要任務,並介紹了與其相關的一些重要理論知識,如文本語義分析與語法分析、文本的結構化分析與標準化分析。其次,介紹了機器學習的基本概念,闡述了機器學習與深度學習的關繫。對於機器學習,本章涉及的技術要點主要包括概率圖模型、判別式模型、產生式模型、機器學習模型求解,以及模型過擬合。

    第3章 文本建模

    本章介紹了文本分析的基本任務—文本建模,即科學而有效地將非結構化的文本類型數據轉換為可以直接進行數據分析與挖掘的數值類型數據。本章介紹了文本建模的主要應用場景,並從語言學建模和統計學建模兩個主要方面對相關技術進行了詳細介紹。

    第4章 文本分類

    本章所討論的文本分類方法主要是對文檔對像進行分類。本章從文本分類的基本概念、應用場景及分類特征優化等方面對文本分類的技術進行了繫統的介紹。本章介紹了三類重要的分類模型:樸素貝葉斯模型、向量空間模型、支持向量機模型。

    第5章 文本聚類

    本章介紹了對文檔對像進行聚類描述的主要技術方法,主要涵蓋了扁平式聚類和凝聚式聚類兩大基本問題解決思路。本章還介紹了如何對聚類結果進行分析,以及對聚類的特征進行優化等相關內容。對特殊文本對像的聚類技術的介紹也是本章的重點內容,具體包括半監督聚類、短文本聚類及流數據聚類。

    第6章 序列標注

    序列標注是特殊的分類問題,很多文本分析任務都需要抽像成序列標注問題進行解決。本章介紹了當前三類重要的序列標注基礎模型,即隱馬爾可夫模型、最大熵馬爾可夫模型及條件隨機場。本章還介紹了各模型的主要特征、優點和缺點,並提供了具體的應用範例。

    第7章 信息檢索

    本章介紹了如何根據用戶的特定信息需求,從在線環境中有效地提取重要的文本對像並進行反饋。除了介紹信息檢索的重要應用場景,本章還討論了三類主流的模型方案:基於空間模型的信息檢索、基於概率模型的信息檢索、基於語言模型的信息檢索。

    第8章 文本摘要

    本章介紹了如何基於已有文本內容對信息進行壓縮,並從中提取有價值的、關鍵的文本要素。文本摘要技術包括關鍵詞提取和關鍵句提取,前者是本章介紹的重點。本章還介紹了很多經典的對詞彙的關鍵詞進行量化評估的指標,同時介紹了當前主流的基於圖模型的關鍵詞提取算法。

    第9章 口碑分析

    本章介紹了如何從在線平臺的用戶評論文本數據中提取有價值的產品信息。一方面,本章討論了如何通過詞典或語料集合對在線評價對像進行提取;另一方面,本章介紹了如何在不同的粒度水平上挖掘用戶對於產品或服務的情感態度。

    第10章 社交網絡分析

    社交網絡是重要的互聯網應用場景。本章介紹了很多社交網絡上的文本分析任務及具體的技術方案,包括社交網絡的虛擬社區發現、用戶影響力分析、情感分析、話題發現與演化,以及信息檢索。本章還介紹了如何將社交網絡的多屬性特征和圖結構特征有機地結合到文本分析技術框架中。

    第11章 深度學習與NLP

    本章介紹了當前熱門的深度學習技術在文本分析中的應用。深度學習以神經網絡為基礎模型。本章分別介紹了基於多層感知器模型和循環神經網絡的深度學習文本分析技術。對於循環神經網絡,本章特別介紹了詞嵌入模型和機器翻譯技術。

    第12章 實證研究

    本章介紹了文本分析技術在互聯網領域中的管理類應用,講述了如何通過實證研究來挖掘在線平臺上的用戶行為,並結合研究結果有針對性地提供管理決策建議。本章還介紹了文本分析技術在互聯網醫療中的具體應用,以真實的場景、數據為依托,為從事互聯網運營相關工作的讀者提供了有價值的解決問題的思路。

    第13章 總結

    作為結束語,本章簡要回顧了全書的核心內容,並為文本分析領域的工作者提供了若干條有價值的實踐經驗。

    本書讀者對像

    ?從事數據分析、文本分析相關職業的技術人員、網絡運營人員;

    ?所學專業與計算機技術、互聯網技術、語言學相關的本科生及研究生;

    ?計算機科學、自然語言處理等領域的大學教師及科研工作者;

    ?其他對文本分析有興趣愛好的人員。


    查看全部↓



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部