[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • 【正版圖書】強化學習實戰:強化學習在阿裡的技術演進和業務創新
    該商品所屬分類:圖書 -> 遼寧音響出版社
    【市場價】
    795-1152
    【優惠價】
    497-720
    【作者】 笪慶曾安祥 
    【出版社】電子工業出版社 
    【ISBN】9787121338984
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    店鋪:遼寧音像出版社圖書專營店
    出版社:電子工業出版社
    ISBN:9787121338984

    商品編碼:10029238616358
    包裝:平裝
    出版時間:2018-10-01

    作者:笪慶曾安祥

        
        
    "

    基本信息

    書名:強化學習實戰:強化學習在阿裡的技術演進和業務創新

    定價

    作者:笪慶曾安祥

    出版社:電子工業出版社

    出版日期:2018-10-01

    ISBN:9787121338984

    字數:222000

    頁碼:232

    版次:

    裝幀:平裝

    開本:16開

    商品重量:

    編輯推薦


    繫統講解在互聯網級別的應用上使用強化學習的技術細節。
    彙集了一線算法工程師在強化學習應用方面的經驗和心得。

    內容提要


    本書彙集了一線算法工程師在強化學習應用方面的經驗和心得,覆蓋了搜索事業部、阿裡事業部、計算平臺事業部以及智能服務事業部等多條業務線,工業界首次繫統地披露了強化學習在互聯網級別的應用上使用的技術細節,其中更包含了的算法工程師對強化學習的深入理解、思考和創新。??本書主要面向算法工程師,強化學習方向的研究人員以及所有機器學習愛好者。作為算法工程師,你將了解強化學習在實際應用中的建模方法,常見的問題以及對應的解決思路,提高建模和解決業務問題的能力;作為強化學習方向的研究人員,你將了解到在遊戲之外更多實際的強化學習問題以及對應的解決方案,擴寬研究視野;作為機器學習愛好者,你將了解到的一線機器學習算法工程師是如何發現問題,定義問題和解決問題的,激發研究興趣以及提升專業素養。

    目錄


    章 強化學習基礎 1

    1.1 引言 2

    1.2 起源和發展 3

    1.3 問題建模 5

    1.4 常見強化學習算法 8

    1.4.1 基於值函數的方法 9

    1.4.2 基於直接策略搜索的方法 12

    1.5 總結 14

    第2 章 基於強化學習的實時搜索排序策略調控 15

    2.1 研究背景 16

    2.2 問題建模 17

    2.2.1 狀態定義 17

    2.2.2 獎賞函數設計 18

    2.3 算法設計 19

    2.3.1 策略函數 19

    2.3.2 策略梯度 20

    2.3.3 值函數的學習 21

    2.4 獎賞塑形 22

    2.5 實驗效果 25

    2.6 DDPG 與梯度融合 27

    2.7 總結與展望 28

    第3 章 延遲獎賞在搜索排序場景中的作用分析 30

    3.1 研究背景 31

    3.2 搜索交互建模 31

    3.3 數據統計分析 33

    3.4 搜索排序問題形式化 36

    3.4.1 搜索排序問題建模 36

    3.4.2 搜索會話馬爾可夫決策過程 38

    3.4.3 獎賞函數 39

    3.5 理論分析 40

    3.5.1 馬爾可夫性質 40

    3.5.2 率 41

    3.6 算法設計 44

    3.7 實驗與分析 48

    3.7.1 模擬實驗 48

    3.7.2 搜索排序應用 51

    第4 章 基於多智能體強化學習的多場景聯合優化 54

    4.1 研究背景 55

    4.2 問題建模 57

    4.2.1 相關背景簡介 57

    4.2.2 建模方法 58

    4.3 算法應用 65

    4.3.1 搜索與電商平臺 65

    4.3.2 多排序場景協同優化 66

    4.4 實驗與分析 69

    4.4.1 實驗設置 69

    4.4.2 對比基準 70

    4.4.3 實驗結果 70

    4.4.4 在線示例 73

    4.5 總結與展望 75

    第5 章 虛擬淘寶 76

    5.1 研究背景 77

    5.2 問題描述 79

    5.3 虛擬化淘寶 80

    5.3.1 用戶生成策略 81

    5.3.2 用戶模仿策略 83

    5.4 實驗與分析 85

    5.4.1 實驗設置 85

    5.4.2 虛擬淘寶與真實淘寶對比 85

    5.4.3 虛擬淘寶中的強化學習 87

    5.5 總結與展望 90

    第6 章 組合優化視角下基於強化學習的精準定向廣告OCPC 業務優化92

    6.1 研究背景 93

    6.2 問題建模 94

    6.2.1 獎賞設計 94

    6.2.2 動作定義 94

    6.2.3 狀態定義 95

    6.3 模型選擇 100

    6.4 探索學習 102

    6.5 業務實戰 103

    6.5.1 繫統設計 103

    6.5.2 獎賞設計 105

    6.5.3 實驗效果 106

    6.6 總結與展望 106

    第7 章 策略優化方法在搜索廣告排序和競價機制中的應用 108

    7.1 研究背景 109

    7.2 數學模型和優化方法 110

    7.3 排序公式設計 112

    7.4 繫統簡介 113

    7.4.1 離線仿真模塊 114

    7.4.2 離線訓練初始化 114

    7.5 在線策略優化 117

    7.6 實驗與分析 118

    7.7 總結與展望 120

    第8 章 TaskBot——阿裡小蜜的任務型問答技術 121

    8.1 研究背景 122

    8.2 模型設計 123

    8.2.1 意圖網絡 123

    8.2.2 信念跟蹤 124

    8.2.3 策略網絡 124

    8.3 業務應用 126

    8.4 總結與展望 127

    第9 章 DRL 導購——阿裡小蜜的多輪標簽推薦技術 128

    9.1 研究背景 129

    9.2 算法框架 130

    9.3 深度強化學習模型 133

    9.3.1 強化學習模塊 133

    9.3.2 模型融合 134

    9.4 業務應用 135

    9.5 總結與展望 136

    0 章 Robust DQN 在淘寶錦囊推薦繫統中的應用 137

    10.1 研究背景 138

    10.2 Robust DQN 算法 140

    10.2.1 分層采樣方法 140

    10.2.2 基於分層采樣的經驗池 141

    10.2.3 近似遺憾獎賞 142

    10.2.4 Robust DQN 算法 143

    10.3 Robust DQN 算法在淘寶錦囊上的應用 144

    10.3.1 繫統架構 144

    10.3.2 問題建模 145

    10.4 實驗與分析 147

    10.4.1 實驗設置 148

    10.4.2 實驗結果 148

    10.5 總結與展望 152

    1 章 基於上下文因子選擇的商業搜索引擎性能優化 153

    11.1 研究背景 154

    11.2 排序因子和排序函數 156

    11.3 相關工作 157

    11.4 排序中基於上下文的因子選擇 158

    11.5 RankCFS:一種強化學習方法 162

    11.5.1 CFS 問題的 MDP 建模 162

    11.5.2 狀態與獎賞的設計 163

    11.5.3 策略的學習 165

    11.6 實驗與分析 166

    11.6.1 離線對比 167

    11.6.2 在線運行環境的評價 170

    11.6.3 評價 171

    11.7 總結與展望 172

    2 章 基於深度強化學習求解一類新型三維裝箱問題 173

    12.1 研究背景 174

    12.2 問題建模 175

    12.3 深度強化學習方法 177

    12.3.1 網絡結構 178

    12.3.2 基於策略的強化學習方法 179

    12.3.3 基準值的更新 180

    12.3.4 采樣與集束搜索 180

    12.4 實驗與分析 181

    12.5 小結 182

    3 章 基於強化學習的分層流量調控 183

    13.1 研究背景 184

    13.2 基於動態動作區間的DDPG 算法 186

    13.3 實驗效果 189

    13.4 總結與展望 189

    4 章 風險商品流量調控 190

    14.1 研究背景 191

    14.2 基於強化學習的問題建模 192

    14.2.1 狀態空間的定義 192

    14.2.2 動作空間的定義 193

    14.2.3 獎賞函數的定義 193

    14.2.4 模型選擇 194

    14.2.5 獎賞函數歸一化 196

    14.3 流量調控繫統架構 196

    14.4 實驗效果 197

    14.5 總結與展望 197

    參考文獻 199

    作者介紹


    笪慶,男,2010年本科畢業於南京大學計算機科學與技術繫,同年免試保送至南京大學軟件新技術國家重點實驗室機器學習與數據挖掘研究所,從事機器學習,尤其是強化學習方向的工作和研究。2015年加入搜索事業部算法團隊,從事無線基礎排序方向的工作。

    序言





    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部