[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • Python強化學習實戰 應用OpenAI Gym和TensorFlow精通強化學習和
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    529-768
    【優惠價】
    331-480
    【作者】 蘇達桑拉維尚迪蘭 
    【出版社】機械工業出版社 
    【ISBN】9787111612889
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    ISBN編號:9787111612889
    書名:Python強化學習實戰-應用OpenAI Python強化學習實戰-應用OpenAI
    作者:蘇達桑.拉維尚迪蘭

    作者地區:其他
    代碼:69
    開本:16開

    是否是套裝:否
    出版社名稱:機械工業出版社

        
        
    "

    Python強化學習實戰 應用OpenAI Gym和Tens

    作  者: (印)蘇達桑·拉維尚迪蘭(Sudharsan Ravichandiran) 著 連曉峰 等 譯
    size="731x8"
    定  價: 69
    size="731x8"
    出?版?社: 機械工業出版社
    size="731x8"
    出版日期: 2019年01月01日
    size="731x8"
    頁  數: 203
    size="731x8"
    裝  幀: 平裝
    size="731x8"
    ISBN: 9787111612889
    size="731x8"
    目錄
    譯者序
    原書前言
    章 強化學習簡介//1
    1.1 什麼是強化學習//1
    1.2 強化學習算法//2
    1.3 強化學習與其他機器學習範式的不同//3
    1.4 強化學習的要素//3
    1.4.1 智能體//3
    1.4.2 策略函數//3
    1.4.3 值函數//4
    1.4.4 模型//4
    1.5 智能體環境接口//4
    1.6 強化學習的環境類型//5
    1.6.1 確定性環境//5
    1.6.2 隨機性環境//5
    1.6.3 完全可觀測環境//5
    1.6.4 部分可觀測環境//5
    1.6.5 離散環境//5
    1.6.6 連續環境//5
    1.6.7 情景和非情景環境//5
    1.6.8 單智能體和多智能體環境//6
    1.7 強化學習平臺//6
    1.7.1 OpenAI Gym和Universe//6
    1.7.2 DeepMind Lab//6
    1.7.3 RL-Glue//6
    1.7.4 Project Malmo//6
    1.7.5 VizDoom//6
    1.8 強化學習的應用//7
    1.8.1 教育//7
    1.8.2 醫療和健康//7
    1.8.3 制造業//7
    1.8.4 庫存管理//7
    1.8.5 金融//7
    1.8.6 自然語言處理和計算機視覺//7
    1.9 小結//8
    1.10 問題//8
    1.11 擴展閱讀//8
    第2章 從OpenAI和TensorFlow入門//9
    2.1 計算機設置//9
    2.1.1 安裝Anaconda//9
    2.1.2 安裝Docker//10
    2.1.3 安裝OpenAI Gym和Universe//11
    2.2 OpenAI Gym//13
    2.2.1 基本模擬//13
    2.2.2 訓練機器人行走//14
    2.3 OpenAI Universe//16
    2.3.1 構建一個視頻遊戲機器人//16
    2.4 TensorFlow//20
    2.4.1 變量、常量和占位符//20
    2.4.2 計算圖//21
    2.4.3 會話//21
    2.4.4 TensorBoard//22
    2.5 小結//25
    2.6 問題//25
    2.7 擴展閱讀//25
    第3章 馬爾可夫決策過程和動態規劃//26
    3.1 馬爾可夫鏈和馬爾可夫過程//26
    3.2 MDP//27
    3.2.1 獎勵和回報//28
    3.2.2 情景和連續任務//28
    3.2.3 因數//28
    3.2.4 策略函數//29
    3.2.5 狀態值函數//29
    3.2.6 狀態—行為值函數(Q函數)//30
    3.3 Bellman方程和最優性//30
    3.3.1 推導值函數和Q函數的Bellman方程//31
    3.4 求解Bellman方程//32
    3.4.1 動態規劃//32
    3.5 求解冰凍湖問題//38
    3.5.1 值迭代//39
    3.5.2 策略迭代//43
    3.6 小結//45
    3.7 問題//45
    3.8 擴展閱讀//46
    第4章 基於蒙特卡羅方法的博弈遊戲//47
    4.1 蒙特卡羅方法//47
    4.1.1 利用蒙特卡羅方法估計π值//47
    4.2 蒙特卡羅預測//50
    4.2.1 首次訪問蒙特卡羅//51
    4.2.2 每次訪問蒙特卡羅//52
    4.2.3 利用蒙特卡羅方法玩二十一點遊戲//52
    4.3 蒙特卡羅控制//58
    4.3.1 蒙特卡羅探索開始//58
    4.3.2 在線策略的蒙特卡羅控制//59
    4.3.3 離線策略的蒙特卡羅控制//61
    4.4 小結//62
    4.5 問題//62
    4.6 擴展閱讀//63
    第5章 時間差分學習//64
    5.1 時間差分學習//64
    5.2 時間差分預測//64
    5.3 時間差分控制//66
    5.3.1 Q學習//66
    5.3.2 SARSA//72
    5.4 Q學習和SARSA之間的區別//77
    5.5 小結//77
    5.6 問題//78
    5.7 擴展閱讀//78
    第6章 MAB問題//79
    6.1 MAB問題//79
    6.1.1 ε貪婪策略//80
    6.1.2 Softmax探索算法//82
    6.1.3 UCB算法//83
    6.1.4 Thompson采樣算法//85
    6.2 MAB的應用//86
    6.3 利用MAB識別正確的廣告標識//87
    6.4 上下文賭博機//89
    6.5 小結//89
    6.6 問題//89
    6.7 擴展閱讀//89
    第7章 深度學習基礎//90
    7.1 人//90
    7.2 ANN//91
    7.2.1 輸入層//92
    7.2.2 隱層//92
    7.2.3 輸出層//92
    7.2.4 激活函數//92
    7.3 深入分析ANN//93
    7.3.1 梯度下降//95
    7.4 TensorFlow中的神經網絡//99
    7.5 RNN//101
    7.5.1 基於時間的反向傳播//103
    7.6 LSTM RNN//104
    7.6.1 利用LSTM RNN生成歌詞//105
    7.7 CNN//108
    7.7.1 卷積層//109
    7.7.2 池化層//111
    7.7.3 全連接層//112
    7.7.4 CNN架構//112
    7.8 利用CNN對時尚產品進行分類//113
    7.9 小結//117
    7.10 問題//117
    7.11 擴展閱讀//118
    第8章 基於DQN的Atari遊戲//119
    8.1 什麼是DQN//119
    8.2 DQN的架構//120
    8.2.1 卷積網絡//120
    8.2.2 經驗回放//121
    8.2.3 目標網絡//121
    8.2.4 獎勵裁剪//122
    8.2.5 算法理解//122
    8.3 構建一個智能體來玩Atari遊戲//122
    8.4 雙DQN//129
    8.5 優先經驗回放//130
    8.6 對抗網絡體繫結構//130
    8.7 小結//131
    8.8 問題//132
    8.9 擴展閱讀//132
    第9章 基於DRQN玩Doom遊戲//133
    9.1 DRQN//133
    9.1.1 DRQN架構//134
    9.2 訓練一個玩Doom遊戲的智能體//135
    9.2.1 基本的Doom遊戲//135
    9.2.2 基於DRQN的Doom遊戲//136
    9.3 DARQN//145
    9.3.1 DARQN架構//145
    9.4 小結//145
    9.5 問題//146
    9.6 擴展閱讀//146
    0章 A3C網絡//147
    10.1 A3C//147
    10.1.1 異步優勢行為者//147
    10.1.2 A3C架構//148
    10.1.3 A3C的工作原理//149
    10.2 基於A3C爬山//149
    10.2.1 TensorBoard中的可視化//155
    10.3 小結//158
    10.4 問題//158
    10.5 擴展閱讀//158
    1章 策略梯度和優化//159
    11.1 策略梯度//159
    11.1.1 基於策略梯度的月球著陸器//160
    11.2 DDPG//164
    11.2.1 倒立擺//165
    11.3 TRPO//170
    11.4 PPO//173
    11.5 小結//175
    11.6 問題//175
    11.7 擴展閱讀//175
    2章 Capstone項目—基於DQN的賽車遊戲//176
    12.1 環境封裝函數//176
    12.2 對抗網絡//179
    12.3 回放記憶//180
    12.4 訓練網絡//181
    12.5 賽車遊戲//186
    12.6 小結//189
    12.7 問題//189
    12.8 擴展閱讀//189
    3章 最新進展和未來發展//190
    13.1 I2A//190
    13.2 基於人類偏好的學習//193
    13.3 DQfd//194
    13.4 HER//195
    13.5 HRL//196
    13.5.1 MAXQ值函數分解//196
    13.6 逆向強化學習//198
    13.7 小結//199
    13.8 問題//199
    13.9 擴展閱讀//199
    附錄 知識點//200
    內容虛線

    內容簡介

    size="789x11"

    強化學習是一種重要的機器學習方法,在智能體及分析預測等領域有許多應用。本書共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關繫,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法;時間差分學習、預測、離線/在線策略控制等;多臂賭博機問題以及相關的各種探索策略方法;深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡;深度強化學習算法DQN,以及雙DQN和對抗網絡體繫結構等改進架構;DRQN以及DARQN;A3C網絡的基本工作原理及架構;策略梯度和優化問題;很後介紹了強化學習的新進展以及未來發展。

    作者簡介

    (印)蘇達桑·拉維尚迪蘭(Sudharsan Ravichandiran) 著 連曉峰 等 譯

    size="43x26"

    蘇達桑·拉維尚迪蘭(Sudharsan Ravichandiran),是一位數據科學家、研究員、人工智能愛好者以及YouTuber,獲得了Anna大學信息技術學生學位。他的研究領域包括深度學習和強化學習的實現,其中包括自然語言處理和計算機視覺。他曾是一名自由職業的網頁開發人員和設計師,所設計開發的網站屢獲殊榮,同時也熱衷於開源,擅長解答堆棧溢出問題。

    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部