[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 正版 強化學習 第2版 人工神經網絡 人工智能 計算機理論和方法
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    1160-1680
    【優惠價】
    725-1050
    【作者】 俞凱等 
    【出版社】電子工業出版社 
    【ISBN】9787121295164
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    ISBN編號:9787121295164
    書名:強化學習(第2版) 強化學習(第2版)
    作者:俞凱等

    代碼:168
    開本:16開
    是否是套裝:否

    出版社名稱:電子工業出版社

        
        
    "

    強化學習(第2版)

    作  者: 【加】RichardS.Sutton(理查德?桑頓)【美】AndrewG.Barto(安德魯?巴圖) 著 俞凱 等 譯
    size="731x8"
    定  價: 168
    size="731x8"
    出?版?社: 電子工業出版社
    size="731x8"
    出版日期: 2018年03月01日
    size="731x8"
    頁  數: 519
    size="731x8"
    裝  幀: 平裝
    size="731x8"
    ISBN: 9787121295164
    size="731x8"
    主編推薦

    《強化學習(第2版)》被業界認可為任何對人工智能領域感興趣的人員的推薦閱讀書。 《強化學習(第2版)》是被稱為“強化學習教父”的Richard Sutton在強化學習領域的開創性、奠基性著作。自1998年版出版以來,一直是強化學習領域的經典導論性教材,培育了好幾代強化學習領域的研究人員。 在第2版中,隨著強化學習近來的蓬勃發展,作者補充了很多新的內容:人工神經網絡、蒙特卡洛樹搜索、平均收益優選化……涵蓋了當今很關鍵的核心算法和理論。不僅如此,作者還以真實世界的應用為例闡述了這些內容。

    目錄
    目錄 章 導論?? ? ? ? 1 1.1 強化學習?? ? ? ? 1 1.2 示例?? ? ? ? 4 1.3 強化學習要素?? ? ? ? 5 1.4 局限性與適用範圍?? ? ? ? 7 1.5 擴展實例:井字棋 ? ??? ? ? ?? 8 1.6 本章小結?? ? ? ? 12 1.7 強化學習的早期歷史?? ? ? ? 13 第I部分 表格型求解方法?? ? ? ? 23 第2章 多臂賭博機?? ? ? ? 25 2.1 一個 k 臂賭博機問題?? ? ? ? 25 2.2 動作-價值方法?? ? ? ? ? 27 2.3 10 臂測試平臺?? ? ? ? 28 2.4 增量式實現?? ? ? ? 30 2.5 跟蹤一個非平穩問題??? ? ? ? 32 2.6 樂觀初始值?? ? ? ? 34 2.7 基於置信度上界的動作選擇 ??? ? ? ? 35 2.8 梯度賭博機算法?? ? ? ? 37 2.9 關聯搜索 (上下文相關的賭博機) ?? ? ? ? ? 40 2.10 本章小結?? ? ? ? 41 第3章 有限馬爾可夫決策過程?? 45 3.1 “智能體-環境”交互接口 ?? ? ? ? 45 3.2 目標和收益 ?? ? ? ? ? ? ? ? ? ? 51 3.3 回報和分幕? ? ? ? ? ? 52 3.4 分幕式和持續性任務的統一表示法 ?? ?? 54 3.5 策略和價值函數 ?? ? ? ? ? 55 3.6 最優策略和最優價值函數 ? ?? ? 60 3.7 最優性和近似算法 ? ? ? ? ?? ? ? ? ? ? ? ? 65 3.8 本章小結? ? ?? ? 66 第4章 動態規劃 ? ?? ? 71 4.1 策略評估 (預測) ? ?? ? ? 72 4.2 策略改進? ?? ? 75 4.3 策略迭代? ?? ? 78 4.4 價值迭代? ?? ? 80 4.5 異步動態規劃 ?? ? 83 4.6 廣義策略迭代 ?? 84 4.7 動態規劃的效率? ? ? ? 85 4.8 本章小結?? ? ? 86 第5章 蒙特卡洛方法 ?? ? 89 5.1 蒙特卡洛預測 ? ? ? 90 5.2 動作價值的蒙特卡洛估計 ?? ? ? ? ? ? ? 94 5.3 蒙特卡洛控制 ? ?? ? ? ? 95 5.4 沒有試探性出發假設的蒙特卡洛控制 ? ?? ? ? ? ? ? 98 5.5 基於重要度采樣的離軌策略 ? ?? ? ? ? ? ? 101 5.6 增量式實現 ? ?? 107 5.7 離軌策略蒙特卡洛控制 ? ?? ? ? ??? ? ? ? ? 108 5.8 ? 敏感的重要度采樣?? ? ? ? ? ?110 5.9 ? 每次決策型重要度采樣?? ? ? ? ? 112 5.10 本章小結?? ? ? ? ? 113 第 6 章 時序差分學習 ? ?? ? ? 117 6.1 時序差分預測 ?? 117 6.2 時序差分預測方法的優勢 ? ?? ? ? 122 6.3 TD(0) 的最優性 ?? ? ? ? ? ? ? ? ? ? ? 124 6.4 Sarsa:同軌策略下的時序差分控制 ? ? ? ?? ? 127 6.5 Q 學習:離軌策略下的時序差分控制 ? ?? ? ? 129 6.6 期望 Sarsa ? ?? ? 131 6.7 優選化偏差與雙學習? ? ? ?? ? ? ? 133 6.8 遊戲、後位狀態和其他特殊例子? ?? ? 135 6.9 本章小結? ?? ? 136 第7章 n 步自舉法 ?? ? ? 139 7.1 n 步時序差分預測 ?? ? ? ? ? ? ? ? 140 7.2 n 步 Sarsa ? ?? ? ? 144 7.3 n 步離軌策略學習 ? ? ? ? ? ? ? ?146 7.4 ? 帶控制變量的每次決策型方法? ?? ? ?148 7.5 不需要使用重要度采樣的離軌策略學習方法:n 步樹回溯算法? ?? ? ?150 7.6 ? 一個統一的算法:n 步 Q(σ) ? ?? ? ?153 7.7 本章小結?? ?? ? ?155 第8章 基於表格型方法的規劃和學習 ?? ? ?? ? 157 8.1 模型和規劃 ? ?? ? 157 8.2 Dyna:集成在一起的規劃、動作和學習?? ? ? ? ? 159 8.3 當模型錯誤的時候 ?? ?? ? ? ? 164 8.4 優先遍歷? ? ?? ? ? 166 8.5 期望更新與采樣更新的對比 ?? ? ?? 170 8.6 軌跡采樣?? ? ? 173 8.7 實時動態規劃 ?? ? 176 8.8 決策時規劃 ?? ? 179 8.9 啟發式搜索 ? ?? ? ? 180 8.10 預演算法? ? ? ? 182 8.11 蒙特卡洛樹搜索? ? ? ? ? ? ? ? 184 8.12 本章小結 ? ?? ? ? 187 8.13 第I部分總結 ?? ? ? ? ? ? ? 188 第II部分 表格型近似求解方法? ?? ? ? ? ? ? ? ? 193 第9章 基於函數逼近的同軌策略預測 ?? ? ? ? ? ? ? ? 195 9.1 價值函數逼近 ? ? ?? ? 195 9.2 預測目標 (VE ) ?? ? ? ? ? ? ? 196 9.3 隨機梯度和半梯度方法 ? ?? ? ? 198 9.4 線性方法? ? ? ? ? ?? ? ? ? 202 9.5 線性方法的特征構造? ?? ? ? ? ? ? ? ? 207 9.5.1 多項式基 ? ?? ? ? ? 208 9.5.2 傅立葉基 ? ? ?? ? ? ? 209 9.5.3 粗編碼? ? ? ? ? ? ?? ? ? 212 9.5.4 瓦片編碼? ? ?? ?214 9.5.5 徑向基函數 ?? ? ? ? ? ? ? ? 218 9.6 手動選擇步長參數 ? ? ? ?? ? ? ? ? 219 9.7 非線性函數逼近:人工神經網絡? ? ? ?? ? ? 220 9.8 最小二乘時序差分 ? ? ? ?? ? ? ? 225 9.9 基於記憶的函數逼近? ? ? ? ?? ? 227 9.10 基於核函數的函數逼近 ? ? ? ?? ? 229 9.11 深入了解同軌策略學習:“興趣”與“強調” ? ? ?? ? ? 230 9.12 本章小結 ? ? ?? ? ? ? 232 0章 基於函數逼近的同軌策略控制? ?? ? ? ? ? ? 239 10.1 分幕式半梯度控制 ? ? ?? 239 10.2 半梯度 n 步 Sarsa? ?? ? ? ? ? ? ? ? 242 10.3 平均收益:持續性任務中的新的問題設定? ? ?? ? 245 10.4 棄用 ? ? ? ?? ? ? ? ? 249 10.5 差分半梯度 n 步 Sarsa ? ? ? ?? 251 10.6 本章小結 ? ?? ? ? ? ? ? 252 1 章 ? 基於函數逼近的離軌策略方法? ? ? ?? 253 11.1 半梯度方法? ? ? ?? 254 11.2 離軌策略發散的例子? ? ? ?? 256 11.3 致命三要素? ? ? ?? 260 11.4 線性價值函數的幾何性質 ? ? ? ? ? ? ? ?? ? 262 11.5 對貝爾曼誤差做梯度下降 ? ? ? ? ? ? ?? ? 266 11.6 貝爾曼誤差是不可學習的 ? ? ? ? ? ? ? ? ? 270 11.7 梯度 TD 方法 ? ? ? ?? ? ? ? ? ? 274 11.8 強調 TD 方法 ? ??? 278 11.9 減小方差 ? ? ?? ? ? ? ? ? ? 279 11.10 本章小結 ? ? ? ? ?? ? ? ? ? ? 280 2章 資格跡 ? ? ? ? ?? ? ? ? 283 12.1 λ-回報? ? ? ? ?? ? ? ? ? 284 12.2 TD(λ)? ? ? ?? ? 287 12.3 n-步截斷 λ- 回報方法 ? ? ?291 12.4 重做更新:在線 λ-回報算法? ? ? ? ?? ? 292 12.5 真實的在線 TD(λ) ? ? ? ? ?? ? 294 12.6 ? 蒙特卡洛學習中的荷蘭跡? ? ? ? ?? ? 296 12.7 Sarsa(λ)?? ? ? ? ?? ?? 298 12.8 變量 λ 和 γ ? ? ? ? ?? ? 303 12.9 帶有控制變量的離軌策略資格跡 ? ?? ? ? ? ? ? 304 12.10 從 Watkins 的 Q(λ) 到樹回溯 TB(λ)? ? ? ? ?? ? ? 308 12.11 采用資格跡保障離軌策略方法的穩定性 ? ? ?? ? 310 12.12 實現中的問題 ? ? ? ?? ? ? ? ? ? ? ? ? ? ? 312 12.13 本章小結 ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? 312 3章 策略梯度方法? ? ?? ? 317 13.1 策略近似及其優勢 ? ? ? ? ??? ? 318 13.2 策略梯度定理 ?? ?? 320 13.3 REINFORCE:蒙特卡洛策略梯度 ? ? ? ?? ? ? 322 13.4 帶有基線的 REINFORCE ? ? ?? ? ? ? 325 13.5 “行動器-評判器”方法 ? ? ? ? ?? ? ? 327 13.6 持續性問題的策略梯度 ? ? ? ??? ? ? 329 13.7 針對連續動作的策略參數化方法 ? ? ??? ? 332 13.8 本章小結 ? ? ? ? ?? ?? ? ? 333 第III部分 表格型深入研究 ? ? ? ?? ?? ? 337 4章 心理學 ? ?? ? ? ? ? ? ? ? 339 14.1 預測與控制 ? ?? ? ? ? ? ? ? ? ? ? ? 340 14.2 經典條件反射 ? ? ? ?? ? ? ? ? ? 341 14.2.1 阻塞與不錯條件反射? ? ? ? ?? ? ? 342 14.2.2 Rescorla-Wagner 模型? ? ? ? ?? ? 344 14.2.3 TD 模型 ? ? ?? ? 347 14.2.4 TD 模型模擬 ? ? ? ?? ? ? ? ? ? 348 14.3 工具性條件反射? ?? ? ? ? ? 355 14.4 延遲強化 ?? ? ? 359 14.5 認知圖 ? ? ? ?? ? 361 14.6 習慣行為與目標導向行為 ? ? ?? ? ? ? ?362 14.7 本章小結 ? ? ?? ? ? ? 366 5章 神經科學 ? ? ?? ? ? 373 15.1 神經科學基礎 ? ? ? ?? ? ? ? 374 15.2 收益信號、強化信號、價值和預測誤差 ? ?? ? ? 375 15.3 收益預測誤差假說 ? ? ? ? ? ?? ? ? 377 15.4 多巴胺 ? ? ?? ? ? ? 379 15.5 收益預測誤差假說的實驗支持? ? ? ?? ? ? 382 15.6 TD 誤差/多巴胺對應 ? ?? ? ? ? ? ? 385 15.7 神經“行動器-評判器” ? ?? ? ? ? ? ? 390 15.8 行動器與評判器學習規則 ? ? ? ?? ? ? 393 15.9 享樂主? ? ? ? ? ? ?? ? ? 397 15.10 集體強化學習 ? ? ?? ? ? ? ? 399 15.11 大腦中的基於模型的算法 ? ?? ? ? 402 15.12 成癮? ?? ? ? ? ? ? ? 403 15.13 本章小結 ?? ? ? ? ? 404 第 16 章 應用及案例分析 ? ?? ? ? ? 413 16.1 TD-Gammon ? ? ? ?? ? 413 16.2 Samuel 的跳棋程序 ? ? ? ? ? ? ?? 418 16.3 Watson 的每日雙倍投注 ? ? ? ? ? ?? ? ? ? ? 421 16.4 優化內存控制 ? ? ? ?? ? ? ? ? 424 16.5 人類級別的視頻遊戲 ? ? ? ? ? ? ?? ? ? ? 428 16.6 主宰圍棋遊戲 ? ? ? ? ?? ? ? ? ? 433 16.6.1 AlphaGo ? ? ? ?? ? ? ? ? 436 16.6.2 AlphaGo Zero ? ? ? ?? ? ? ? ?439 16.7 個性化網絡服務? ? ?? ? 442 16.8 熱氣流滑翔 ? ?? ? ? ? ? 446 7章 前沿技術 ? ? ? ? ?? ? ? ? ? ? ? ? ? ? 451 17.1 廣義價值函數和輔助任務 ? ? ?? ? 451 17.2 基於選項理論的時序摘要 ? ? ? ? ? ? ? ? ? ?? ? ? 453 17.3 觀測量和狀態 ? ? ? ? ?? ? ? ? 456 17.4 設計收益信號 ? ?? ? ? ? ? ? ? ? ? 460 17.5 遺留問題 ? ?? ? ? 464 17.6 人工智能的未來? ? ? ? ? ? ?? 467 參考文獻 ? ?? ? ? ?? 473
    內容虛線

    內容簡介

    size="789x11"

    《強化學習(第2版)》作為強化學習思想的深度解剖之作,被業內認可為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發,深入淺出又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。 《強化學習(第2版)》適合所有對強化學習感興趣的讀者閱讀、收藏。

    作者簡介

    【加】RichardS.Sutton(理查德?桑頓)【美】AndrewG.Barto(安德魯?巴圖) 著 俞凱 等 譯

    size="43x26"

    Richard Sutton(理查德?薩頓) 埃德蒙頓 DeepMind 公司的傑出科學家,阿爾伯塔大學計算科學繫教授。他於2003年加入阿爾伯塔大學,2017年加入DeepMind。之前,曾在美國電話電報公司(AT&T)和通用電話電子公司(GTE)實驗室工作,在馬薩諸塞大學做學術研究。 1978年獲得斯坦福大學心理學學士學位,1984年獲得馬薩諸塞大學計算機科學博士學位,加拿大皇家學會院士和人工智能促進會的會士。 主要研究興趣是在決策者與環境相互作用時所面臨的學習問題,他認為這是智能的核心問題。其他研究興趣有:動物學習心理學、聯結主義網絡,以及能夠不斷學習和改進環境表征和環境模型的繫......

    摘要

    本書版出版的20年以來,在機器學習(包括強化學習) 前沿技術發展的推動下,人工智能取得了重大進展。這些進展不僅歸功於這些年迅猛發展起來的計算機強大的計算能力,也受益於許多理論和算法上的創新。面對這些進展,我們早有對1998年版書進行更新再版的打算,但直到2012年纔開始真正著手編纂。第2版的目標與版一致:為強化學習的核心概念與算法提供清晰簡明的解釋,以供所有相關學科的讀者學習。這一版仍然是一本概要介紹性的讀物,仍然關注最核心的在線學習算法,同時增加了一些近年來日趨重要的話題,並拓展了部分內容,給出了更新的理解。強化學習領域可以延伸出很多不同的方向,但我們並不想包羅萬像,在此為可能出現的些許遺漏表示歉意。 第2版記號變化 和版一樣,我們沒有以最嚴謹的形式化的方式來定義強化學習,也沒有采用特別抽像的術語表達,但是為了大家能更深入地理解,有些話題仍然需要用數學來解釋。無數學需求的讀者可以......

    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部