[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • Linux經典實例(第二版)
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    832-1206
    【優惠價】
    520-754
    【作者】 美卡拉·施羅德(Carla 
    【所屬類別】 圖書  計算機/網絡  操作繫統/繫統開發  LINUX 
    【出版社】中國電力出版社 
    【ISBN】9787519869724
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:銅版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787519869724
    作者:[美]卡拉·施羅德(Carla

    出版社:中國電力出版社
    出版時間:2023年03月 

        
        
    "

    產品特色

    編輯推薦

    Linux學習的經典書籍,Linux用戶及繫統與網絡管理員的實用技巧。
    編輯推薦

    這本實用手冊向初中級Linux用戶介紹了通過圖形及命令行工具管理Linux繫統的重要技巧。無論你的Linux繫統是嵌入式、桌面版、服務器、雲服務,還是虛擬環境,其基礎知識都是相同的。本書介紹了大量示例,可幫助你快速入門並運行Linux。
    本書針對各種具體問題,提出解決方案,並詳細解釋了涉及到的技術原理,z後還給出了參考資料以供深入學習。
    專家推薦
    “Linux學習的經典書籍。作者深入簡出地介紹了Linux操作繫統的各個方面。”
    —— Jack Wallen,
    屢獲殊榮的科技作家,TechRepublic、The New Stack等網站撰稿人
    “高效工程師不僅了解工具,還知道如何高效地使用工具。本書介紹的Linux工具讓人嘆為觀止。”
    —— Jonathan Johnson,
    Dijure獨立軟件顧問與培訓師

     
    內容簡介

    本書針對各種具體問題,提出解決方案,並詳細解釋了涉及到的技術原理,z後還給出了參考資料以供深入學習。本書的主要內容有:學習使用全新的通用服務管理器systemd。利用firewalld構建簡單或復雜的防火牆。保證Linux繫統與移動設備間網絡連接的安全。搶救無法引導的繫統。重置Linux與Windows的用戶密碼。利用dnsmasq管理局域網名稱服務。管理用戶與組,控制文件的訪問。探測計算機硬件,監控硬件健康。管理GRUB引導加載程序,設置Linux與Windows雙啟動。通過z新的工具同步網絡上所有繫統的時間。在樹莓派上構建互聯網路由器與防火牆。管理文件繫統與分區。

    作者簡介

    Carla Schroder是一名科技記者與作家,擁有繫統與網絡管理員的經驗,曾負責管理Linux-微軟-蘋果混合網絡。她撰寫過1000多篇Linux操作指南,目前就職於一家Linux企業軟件公司,負責編寫和維護產品手冊。出版的書籍有《Linux Networking Cookbook》《The Book of Audacity》等。

    目錄
    目錄
    前言 .1
    第1 章 強化學習概述 .13
    1.1 為什麼現在就需要強化學習? . 14
    1.2 機器學習 15
    1.3 強化學習 17
    1.3.1 什麼時候使用強化學習 19
    1.3.2 強化學習的應用場景 20
    1.4 強化學習的種類 22
    1.4.1 免模型學習或有模型學習 . 22
    1.4.2 智能體如何使用並更新它們的策略 23
    1.4.3 離散或連續的行為 . 25
    1.4.4 優化方法. 25
    1.4.5 策略評估和改進 . 26

    目錄
    前言 .1
    第1 章 強化學習概述 .13
    1.1 為什麼現在就需要強化學習? . 14
    1.2 機器學習 15
    1.3 強化學習 17
    1.3.1 什麼時候使用強化學習 19
    1.3.2 強化學習的應用場景 20
    1.4 強化學習的種類 22
    1.4.1 免模型學習或有模型學習 . 22
    1.4.2 智能體如何使用並更新它們的策略 23
    1.4.3 離散或連續的行為 . 25
    1.4.4 優化方法. 25
    1.4.5 策略評估和改進 . 26
    1.5 強化學習的基本概念 . 27
    1.5.1 歷史上個強化學習算法 . 28
    1.5.2 強化學習和機器學習是一種東西嗎? . 31
    1.5.3 獎勵和反饋 32
    1.6 強化學習的發展簡史 . 35
    1.7 本章總結 37
    1.8 擴展閱讀 38
    1.9 參考文獻 38
    第2 章 馬爾可夫決策過程,動態規劃,蒙特卡洛方法 44
    2.1 多臂老虎機測試 44
    2.1.1 獎勵工程. 45
    2.1.2 策略評估:價值函數 45
    2.1.3 策略改進:選擇動作 48
    2.1.4 模擬環境. 50
    2.1.5 運行實驗. 50
    2.1.6 ε - 貪婪算法的改進. 52
    2.2 馬爾可夫決策過程 . 54
    2.2.1 庫存控制. 56
    2.2.2 庫存控制仿真 . 60
    2.3 策略與價值函數 62
    2.3.1 打折的獎勵 62
    2.3.2 用狀態?C 價值函數預測獎勵 64
    2.3.3 用動作值函數預測獎勵 . 67
    2.3.4 策略. 69
    2.4 蒙特卡洛策略生成 70
    2.5 動態規劃的值迭代 72
    2.5.1 值迭代的過程 74
    2.5.2 數值迭代結果 76
    2.6 總結 78
    2.7 擴展閱讀 79
    2.8 參考文獻 79
    第3 章 時序差分學習,Q 學習和n 步算法 80
    3.1 時序差分學習的相關公式 81
    3.1.1 Q 學習 . 83
    3.1.2 SARSA 85
    3.1.3 Q 學習與SARSA 方法的對比 . 87
    3.1.4 案例解析:自動擴展應用程序容器以降低成本 . 90
    3.2 行業實例:廣告中的實時競價 . 92
    3.2.1 MDP 的定義 . 92
    3.2.2 實時競價案例的環境 93
    3.2.3 進一步改進 94
    3.3 Q 學習的相關擴展 96
    3.3.1 雙重Q 學習 96
    3.3.2 延遲Q 學習 97
    3.3.3 各類版本的Q 學習之間的對比 98
    3.3.4 對抗學習. 98
    3.4 n 步算法 99
    3.5 有效跟蹤 104
    3.6 有效跟蹤算法的擴展 107
    3.6.1 沃特金斯的Q(λ) 107
    3.6.2 沃特金斯Q(λ) 的模糊擦除 . 108
    3.6.3 快速Q 學習 108
    3.6.4 積累式有效跟蹤與取代式有效跟蹤 108
    3.7 總結 . 109
    3.8 擴展閱讀 110
    3.9 參考文獻 110
    第4 章 深度Q 網絡 . 112
    4.1 深度學習的體繫結構 113
    4.1.1 基礎知識 113
    4.1.2 深度學習架構 114
    4.1.3 深度學習庫 . 115
    4.1.4 深度強化學習 117
    4.2 深度Q 學習 . 117
    4.2.1 經驗重放 118
    4.2.2 克隆Q 網絡 118
    4.2.3 神經網絡結構 119
    4.2.4 DQN 的實現 119
    4.2.5 實際案例:倒立擺環境中的DQN 120
    4.2.6 案例研究:減少建築物的能源使用 125
    4.3 彩虹DQN 126
    4.3.1 分配強化學習 126
    4.3.2 優先經驗重放 129
    4.3.3 噪聲網絡 129
    4.3.4 決鬥網絡 129
    4.4 實際案例:雅達利的彩虹DQN 130
    4.4.1 結果 131
    4.4.2 討論 132
    4.5 其他DQN 改進 134
    4.5.1 改進探索過程 135
    4.5.2 改進獎勵過程 136
    4.5.3 從離線數據中進行學習 137
    4.6 總結 . 139
    4.7 擴展閱讀 140
    4.8 參考文獻 140
    第5 章 梯度策略 144
    5.1 直接學習策略的優勢 144
    5.2 如何計算策略的梯度 145
    5.3 策略梯度理論 . 146
    5.4 策略函數 149
    5.4 1 線性策略 149
    5.4.2 其他策略 151
    5.5 基本實現 152
    5.5.1 蒙特卡洛算法(強化算法) 152
    5.5.2 帶基線的強化算法 153
    5.5.3 梯度方差的減小 157
    5.5.4 n 步演員評論家和優勢演員評論家(A2C) . 159
    5.5.5 基於資格跡的演員評論家算法 . 164
    5.5.6 基本策略梯度算法的比較 165
    5.6 行業研究:為客戶自動提供產品 . 166
    5.6.1 行業實例:Gym 環境中的購物車實驗 . 167
    5.6.2 預設期望 168
    5.6.3 購物車實驗環境的結果展示 169
    5.7 總結 . 173
    5.8 擴展閱讀 174
    5.9 參考文獻 174
    第6 章 超越策略梯度 176
    6.1 離線算法 177
    6.1.1 重要性抽樣 177
    6.1.2 行為和目標策略 179
    6.1.3 離線 Q 學習 180
    6.1.4 梯度時差學習 180
    6.1.5 Greedy-GQ 算法 181
    6.1.6 離線演員評論家算法 . 182
    6.2 決定性策略梯度 183
    6.2.1 決定性策略梯度 183
    6.2.2 深度確定性策略梯度 . 185
    6.2.3 雙延遲DDPG 189
    6.2.4 案例研究:利用到用戶評論的推薦算法 193
    6.2.5 改進DPG. 194
    6.3 信賴域方法 195
    6.3.1 Kullback-Leibler 散度 197
    6.3.2 自然策略梯度與信任區域策略優化 198
    6.3.3 近端策略優化 201
    6.4 實際案例:在現實生活中使用伺服器 206
    6.4.1 實驗設置 . 206
    6.4.2 強化學習算法實現 207
    6.4.3 增加算法的復雜度 210
    6.4.4 模擬中的超參數調優 . 211
    6.4.5 產生的策略 212
    6.5 其他策略梯度算法 214
    6.5.1 回溯(λ) 214
    6.5.2 有經驗重放的演員評論家(ACER) 214
    6.5.3 使用Kronecker 因子信任區域的演員評論家算法(ACKTR) 215
    6.5.4 更多相關方法 216
    6.6 策略梯度算法的擴展 216
    6.7 總結 . 217
    6.7.1 應該使用哪種算法? . 217
    6.7.2 關於異步方法的注意事項 218
    6.8 擴展閱讀 218
    6.9 參考文獻 219
    第7 章 用熵方法學習所有可能的策略 225
    7.1 什麼是熵? 225
    7.2 熵強化學習 226
    7.3 弱演員評論家算法 227
    7.3.1 SAC 的實現細節與離散動作空間 228
    7.3.2 自動調整溫度 229
    7.3.3 案例研究:有助於減少交通擁堵的自動化交通管理繫統 229
    7.4 熵方法的推廣 231
    7.4.1 熵的其他度量(以及策略集) . 231
    7.4.2 基於雙重Q 學習上限的優化探索 231
    7.4.3 通過歷史經驗重放改進結果 232
    7.4.4 軟策略梯度 . 232
    7.4.5 軟Q 學習(及其擴展) 232
    7.4.6 路徑一致性學習 233
    7.5 性能比較:SAC 與PPO 233
    7.6 熵是如何激勵智能體進行探索的? . 235
    7.7 行業實例:通過遙控車學習自動駕駛 240
    7.7.1 問題描述 241
    7.7.2 減少訓練時間 241
    7.7.3 誇張的動作 . 244
    7.7.4 超參數探索 . 246
    7.7.5 終策略 246
    7.7.6 進一步改進 . 247
    7.8 本章總結 248
    7.8.1 策略梯度與軟Q 學習的等價性 249
    7.8.2 這對今後的發展意味著什麼? . 249
    7.8.3 這對目前來說意味著什麼? 249
    7.9 參考文獻 250
    第8 章 改進智能體的學習方式 253
    8.1 關於MDP 的思考 . 254
    8.1.1 部分可觀察馬爾可夫決策過程 . 254
    8.1.2 案例研究:POMDP 在自動駕駛汽車中的應用 256
    8.1.3 上下文馬爾可夫決策過程 . 257
    8.1.4 動作不斷變化的MDPs 257
    8.1.5 正則化MDP 258
    8.2 層次強化學習 . 259
    8.2.1 初級層次強化學習 . 259
    8.2.2 具有內在獎勵的層次強化學習(HIRO) 260
    8.2.3 學習技巧和無監督學習 262
    8.2.4 在HRL 中使用技能 263
    8.2.5 HRL 研究結論 264
    8.3 多智能體強化學習 265
    8.3.1 MARL 的框架 265
    8.3.2 集中式或分布式 267
    8.3.3 單智能體算法 268
    8.3.4 案例研究:單智能體分散學習在無人機中的應用 . 269
    8.3.5 集中學習,分散執行 . 270
    8.3.6 分散的學習 . 272
    8.3.7 其他的組合 . 273
    8.3.8 MARL 的挑戰 274
    8.3.9 MARL 的結論 275
    8.4 專家的指導 276
    8.4.1 克隆行為 276
    8.4.2 模擬強化學習 276
    8.4.3 反向強化學習 277
    8.4.4 課程學習 279
    8.5 其他案例 281
    8.5學習 281
    8.5.2 遷移學習 281
    8.6 總結 . 282
    8.7 擴展閱讀 283
    8.8 參考文獻 285
    第9 章 強化學習實踐 293
    9.1 強化學習的生命周期 293
    9.2 問題定義:一個真正的強化學習項目到底包括什麼? . 299
    9.2.1 強化學習問題是連續性問題 299
    9.2.2 強化學習問題是戰略性問題 300
    9.2.3 強化學習中的基礎指標 302
    9.2.4 學習類型 304
    9.3 強化學習工程和改進 309
    9.3.1 項目過程 309
    9.3.2 環境工程 310
    9.3.3 狀態工程或狀態表示學習 313
    9.3.4 策略工程 316
    9.3.5 將策略映射到操作空間 322
    9.3.6 探索 326
    9.3.7 獎勵工程 333
    9.4 總結 . 337
    9.5 擴展閱讀 338
    9.6 參考文獻 339
    第10 章 強化學習的生產部署 348
    10.1 實現階段 . 349
    10.1.1 框架 . 349
    10.1.2 大規模強化學習 353
    10.1.3 評價 . 361
    10.2 部署 370
    10.2.1 目標 . 371
    10.2.2 體繫架構 374
    10.2.3 輔助工具 376
    10.2.4 安全、保障和道德 382
    10.3 總結 389
    10.4 擴展閱讀 . 390
    10.5 參考文獻 . 392
    第11 章 結論與展望 . 400
    11.1 提示和技巧 400
    11.1.1 框架問題 400
    11.1.2 你的數據 402
    11.1.3 訓練 . 403
    11.1.4 評價 . 404
    11.1.5 部署 . 404
    11.2 調試 405
    11.2.1 ${ALGORITHM_NAME} 不能解決${ENVIRONMENT}! 406
    11.2.2 監測調試 407
    11.3 強化學習的未來 408
    11.3.1 強化學習市場機會 409
    11.3.2 強化學習的研究方向 410
    11.4 結束語 416
    11.4.1 未來下一步 417
    11.4.2 現在輪到你了! . 418
    11.5 擴展閱讀 . 418
    11.6 參考文獻 . 419
    附錄A 兩種動作的Logistic 策略梯度 423
    附錄B Softmax 的策略梯度 . 427

    前言
    譯者序2016 年,由Google DeepMind 開發的AlphaGo 在人機對弈中以4:1 擊敗了韓國圍棋冠軍李世石;稍遠一些,1997 年IBM 的“深藍”戰勝了國際像棋大師卡斯帕羅夫。與之前不同的是,AlphaGo 的火爆讓人們經常提及人工智能這一詞彙。但值得注意的是,當談到AlphaGo 的具體技術,人們常用“左右互搏”來表達“自己和自己下棋,訓練的模型越來越強大”,漸漸的,有一些非專業技術人員使用“強化學習”來表達這一過程,這樣的認識是非常片面的。簡單地說,強化學習是為了訓練智能體,將智能體與環境之間進行探索– 利用(exploration-exploitation)有機結合的算法,其常見模型是標準的馬爾可夫決策過程(Markov Decision Process, MDP)。第d一步,在智能體與環境交互過程中,得到完整或非完整軌跡(軌跡是否完整對應於強化學習的不同算法:蒙特卡洛或者SARSA/Q-Learning);第二步,使用各類可行算法訓練智能體本身,然後返回第d一步繼續迭代。當然,在具體強化學習算法中,如果模型是已知的,可以省略第d一步,直接使用動態規劃方法。這將是第2 章和第3章的重點內容。我個人認為,充分理解SARSA/Q-Learning 算法是進入強化學習殿堂的過門石。多說一句,Richard Bellman 在1957 年提出的馬爾可夫決策過程的動態規劃算法,往往被學者認為是強化學習的發端。在當前硬件水平和項目需求的促進下,強化學習算法往往與深度學習相結合。因此,第4 章將經典強化學習算法與深度模型相結合,詳細介紹DQN 算法,事實上,DQN 就是使用機器玩雅達利遊戲時提出的,感興趣的讀者請參考Volodymyr Mnih 等於2013 年發表的“Playing Atari with Deep Reinforcement Learning”這篇經典論文。至於雅達利本身,對該公司生產的街機遊戲的痴迷是一個暴露年齡的話題,而它曾經吸引了包括喬布斯在內的多位計算機程序員的加入,這裡不再贅述。接下來,本書的第5~7 章介紹策略梯度方法(Policy Gradient,PG)以及由此衍生的AC、DPG、DDPG 等算法;在介紹信息熵、KL 散度、信賴域(Trust Regions)等概念後,引出ACKTR、Soft-AC、Soft-PG 等算法。強化學習絕非“紙上談兵”,第8 章將介紹自動駕駛、無人機的實際案例,其中涉及對本書前序知識的使用,也涉及部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)、單智能體去中心化學習(Decentralized Learning)等內容。掌握一種技術,初學者往往陷入“隻見樹木,不見森林”的境地,為了避免該現像,第9、10 章介紹了在實踐中如何使用強化學習、如何讓其在具體工作項目中真正發揮作用,甚至介紹了如何避免“踩坑”。對於強化學習的使用者,我建議應重點關注這幾章,其內容是本書內容的升華和綜合運用。我們深感自己水平有限,但認真通讀全書發現,原書作者從事科研工作,也有自己的公司來實踐,以認真、務實的態度完成了本書。我本人使用數據挖掘的手段從事礦產普查與探索的相關工作,同時在一些公司擔任技術負責人,從事若干深度學習的具體項目。或許與作者身份的相似性,在翻譯工作過程中能感受到作者對寫書過程的認真和細致。我認為本書非常值得科研工作者和工程技術人員研讀。本書的第二譯者香港大學研究助理康俊鵬博士全程參與並形成了譯稿,康博士在本書的翻譯工作中花費了更多的精力。本書也得到了香港大學楊良河教授以及曹文明博士後的悉心指導。本書在翻譯之初,我們將譯文段落在微信群由多位大學老師幫忙指點,無法一一提及,再次深表感謝。期待讀者能夠從此書獲益。譯者

    譯者序2016 年,由Google DeepMind 開發的AlphaGo 在人機對弈中以4:1 擊敗了韓國圍棋冠軍李世石;稍遠一些,1997 年IBM 的“深藍”戰勝了國際像棋大師卡斯帕羅夫。與之前不同的是,AlphaGo 的火爆讓人們經常提及人工智能這一詞彙。但值得注意的是,當談到AlphaGo 的具體技術,人們常用“左右互搏”來表達“自己和自己下棋,訓練的模型越來越強大”,漸漸的,有一些非專業技術人員使用“強化學習”來表達這一過程,這樣的認識是非常片面的。簡單地說,強化學習是為了訓練智能體,將智能體與環境之間進行探索– 利用(exploration-exploitation)有機結合的算法,其常見模型是標準的馬爾可夫決策過程(Markov Decision Process, MDP)。第d一步,在智能體與環境交互過程中,得到完整或非完整軌跡(軌跡是否完整對應於強化學習的不同算法:蒙特卡洛或者SARSA/Q-Learning);第二步,使用各類可行算法訓練智能體本身,然後返回第d一步繼續迭代。當然,在具體強化學習算法中,如果模型是已知的,可以省略第d一步,直接使用動態規劃方法。這將是第2 章和第3章的重點內容。我個人認為,充分理解SARSA/Q-Learning 算法是進入強化學習殿堂的過門石。多說一句,Richard Bellman 在1957 年提出的馬爾可夫決策過程的動態規劃算法,往往被學者認為是強化學習的發端。在當前硬件水平和項目需求的促進下,強化學習算法往往與深度學習相結合。因此,第4 章將經典強化學習算法與深度模型相結合,詳細介紹DQN 算法,事實上,DQN 就是使用機器玩雅達利遊戲時提出的,感興趣的讀者請參考Volodymyr Mnih 等於2013 年發表的“Playing Atari with Deep Reinforcement Learning”這篇經典論文。至於雅達利本身,對該公司生產的街機遊戲的痴迷是一個暴露年齡的話題,而它曾經吸引了包括喬布斯在內的多位計算機程序員的加入,這裡不再贅述。接下來,本書的第5~7 章介紹策略梯度方法(Policy Gradient,PG)以及由此衍生的AC、DPG、DDPG 等算法;在介紹信息熵、KL 散度、信賴域(Trust Regions)等概念後,引出ACKTR、Soft-AC、Soft-PG 等算法。強化學習絕非“紙上談兵”,第8 章將介紹自動駕駛、無人機的實際案例,其中涉及對本書前序知識的使用,也涉及部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)、單智能體去中心化學習(Decentralized Learning)等內容。掌握一種技術,初學者往往陷入“隻見樹木,不見森林”的境地,為了避免該現像,第9、10 章介紹了在實踐中如何使用強化學習、如何讓其在具體工作項目中真正發揮作用,甚至介紹了如何避免“踩坑”。對於強化學習的使用者,我建議應重點關注這幾章,其內容是本書內容的升華和綜合運用。我們深感自己水平有限,但認真通讀全書發現,原書作者從事科研工作,也有自己的公司來實踐,以認真、務實的態度完成了本書。我本人使用數據挖掘的手段從事礦產普查與探索的相關工作,同時在一些公司擔任技術負責人,從事若干深度學習的具體項目。或許與作者身份的相似性,在翻譯工作過程中能感受到作者對寫書過程的認真和細致。我認為本書非常值得科研工作者和工程技術人員研讀。本書的第二譯者香港大學研究助理康俊鵬博士全程參與並形成了譯稿,康博士在本書的翻譯工作中花費了更多的精力。本書也得到了香港大學楊良河教授以及曹文明博士後的悉心指導。本書在翻譯之初,我們將譯文段落在微信群由多位大學老師幫忙指點,無法一一提及,再次深表感謝。期待讀者能夠從此書獲益。譯者







     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部