[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • 強化學習 鄒偉,鬲玲,劉昱杓 著 程序設計(新)專業科技 新華書店
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    838-1216
    【優惠價】
    524-760
    【作者】 鄒偉、鬲玲、劉昱杓 
    【出版社】清華大學出版社 
    【ISBN】9787302538295
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    品牌:清華大學出版社
    ISBN編號:9787302538295
    書名:強化學習(人工智能科學與技術叢書) 強化學習(人工智能科學與技術叢書)

    作者:鄒偉、鬲玲、劉昱杓
    代碼:99
    開本:16開

    是否是套裝:否
    出版社名稱:清華大學出版社

        
        
    "

    強化學習

    作  者: 鄒偉,鬲玲,劉昱杓 著
    size="731x8"
    定  價: 99
    size="731x8"
    出?版?社: 清華大學出版社
    size="731x8"
    出版日期: 2020年06月01日
    size="731x8"
    頁  數: 380
    size="731x8"
    裝  幀: 平裝
    size="731x8"
    ISBN: 9787302538295
    size="731x8"
    主編推薦

    "為了讓讀者快速理解和應用強化學習技術,《強化學習》深入分析了相關算法的具體實現,由淺入深,循序漸進,內容豐富,易學實用。 《強化學習》作者具有豐富的行業實踐經驗,使得內容兼具理論性與實用性,不僅給出了算法的運行流程,還給出了該類算法的應用案例。書中列舉了近20個強化學習算法案例,可以幫助讀者快速提升自己的能力。 "

    目錄
    ●章 強化學習概述
    1.1 強化學習的背景
    1.2 強化學習初探
    1.2.1 智能體和環境
    1.2.2 智能體主要組成
    1.2.3 強化學習、監督學習、非監督學習
    1.2.4 強化學習分類
    1.2.5 研究方法
    1.2.6 發展歷程
    1.3 強化學習的重點概念
    1.3.1 學習與規劃
    1.3.2 探索與利用
    1.3.3 預測與控制
    1.4 小結
    1.5 習題
    第2章 馬爾可夫決策過程
    2.1 馬爾可夫基本概念
    2.1.1 馬爾可夫性
    2.1.2 馬爾可夫過程
    2.1.3 馬爾可夫決策過程
    2.2 貝爾曼方程
    2.2.1 貝爾曼期望方程
    2.2.2 貝爾曼最優方程
    2.3 最優策略
    2.3.1 最優策略定義
    2.3.2 求解最優策略
    2.4 小結
    2.5 習題
    第3章 動態規劃
    3.1 動態規劃簡介
    3.2 策略評估
    3.3 策略改進
    3.4 策略迭代
    3.5 值迭代
    3.6 實例講解
    3.6.1 “找寶藏”環境描述
    3.6.2 策略迭代
    3.6.3 值迭代
    3.6.4 實例小結
    3.7 小結
    3.8 習題
    第4章 蒙特卡羅
    4.1 蒙特卡羅簡介
    4.2 蒙特卡羅評估
    4.3 蒙特卡羅控制
    4.4 在線策略蒙特卡羅
    4.5 離線策略蒙特卡羅
    4.5.1 重要性采樣離線策略蒙特卡羅
    4.5.2 加權重要性采樣離線策略蒙特卡羅
    4.6 實例講解
    4.6.1 “十點半”遊戲
    4.6.2 在線策略蒙特卡羅
    4.6.3 離線策略蒙特卡羅
    4.6.4 實例小結
    4.7 小結
    4.8 習題
    第5章 時序差分
    5.1 時序差分簡介
    5.2 三種方法的性質對比
    5.3 Sarsa:在線策略TD
    5.4 Q-learning:離線策略TD方法
    ……
    第6章 資格跡
    第7章 值函數逼近
    第8章 隨機策略梯度
    第9章 Actor-Critic及變種
    0章 確定性策略梯度
    1章 學習與規劃
    2章 探索與利用
    3章 博弈強化學習
    參考文獻
    內容虛線

    內容簡介

    size="789x11"

    本書內容繫統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯繫實際。書中全面繫統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關繫,為讀者構建了一個完整的強化學習知識體繫;同時包含豐富的經典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應的詳細案例說明和代碼描述,讓讀者深度理解各類強化學習算法的精髓。書中案例生動形像,描述深入淺出,代碼簡潔易懂,注釋詳細。本書可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對強化學習感興趣的研究人員和工程技術人員閱讀參考。

    作者簡介

    鄒偉,鬲玲,劉昱杓 著

    size="43x26"

    "鄒偉 博士,睿客邦創始人,研究方向為機器學習、數據挖掘、計算幾何,致力於機器學習和深度學習在實際中的應用;主持研發50多個人工智能領域工業級項目,並受邀在中國移動、花旗銀行、中信集團、中航信、烽火科技、京東方、完美世界等公司進行了上百場講座和內部培訓。創立的睿客邦與靠前十多所高校建立了AI聯合實驗室或實訓基地;兼任天津大學創業導師、山東交通學院客座教授等。曾在多個在線平臺講授“機器學習”“深度學習”等課程,廣受網友好評,累計學習人數超過百萬。 鬲玲 碩士,北京神舟航天軟件公司知識工程團隊負責人,資深研發工程師。研究方向為知識工程、語義檢索、強化學習、自然語言處理。作為牽頭單位技術負責人......

    "




     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部