幫助中心 | 我的帳號 | 關於我們

深度強化學習原理與實踐

  • 作者:陳仲銘//何明
  • 出版社:人民郵電
  • ISBN:9787115505323
  • 出版日期:2019/05/01
  • 裝幀:平裝
  • 頁數:341
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書構建了一個完整的深度強化學習理論和實踐體系:從馬爾可夫決策過程開始,根據價值函數、策略函數求解貝爾曼方程,到利用深度學習模擬價值網路和策略網路。書中詳細介紹了深度強化學習相關演算法,如Rainbow、Ape-X演算法等,並闡述了相關演算法的具體實現方式和代表性應用(如AlphaGo)。此外,本書還深度剖析了強化學習各演算法之間的聯繫,有助於讀者舉一反三。
    本書分為四篇:初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習演算法框架的各方面內容,反映了深度強化學習領域過去的發展歷程和研究進展,有助於讀者發現該領域中新的研究問題和方向。
    本書適用於電腦視覺、電腦自然語言的相關從業人員,以及對人工智慧、機器學習和深度學習感興趣的人員,還可作為高等院校電腦等相關專業本科生及研究生的參考用書。

作者介紹
陳仲銘//何明

目錄
第一篇  初探強化學習
  第1章  強化學習緒論
    1.1  初探強化學習
      1.1.1  強化學習與機器學習
      1.1.2  強化學習與監督學習的區別
      1.1.3  歷史發展
    1.2  基礎理論
      1.2.1  組成元素
      1.2.2  環境模型
      1.2.3  探索與利用
      1.2.4  預測與控制
      1.2.5  強化學習的特點
    1.3  應用案例
    1.4  強化學習的思考
      1.4.1  強化學習待解決問題
      1.4.2  強化學習的突破點
    1.5  小結
  第2章  數學基礎及環境
    2.1  簡介
    2.2  馬爾可夫決策過程
      2.2.1  馬爾可夫性質
      2.2.2  馬爾可夫決策過程
    2.3  強化學習的數學基礎理論
      2.3.1  策略
      2.3.2  獎勵
      2.3.3  價值函數
    2.4  求解強化學習
      2.4.1  貝爾曼方程
      2.4.2  最優值函數
      2.4.3  最優策略
      2.4.4  求解最優策略
    2.5  示例:HelloGrid迷宮環境
      2.5.1  初識OpenAI Gym庫
      2.5.2  建立HelloGrid環境
  2.6  小結
第二篇  求解強化學習
  第3章  動態規劃法
    3.1  動態規劃
      3.1.1  動態規劃概述
      3.1.2  動態規劃與貝爾曼方程
    3.2  策略評估
      3.2.1  策略評估演算法
      3.2.2  策略評估演算法實現
    3.3  策略改進
    3.4  策略迭代
      3.4.1  策略迭代演算法
      3.4.2  策略迭代演算法實現
    3.5  值迭代
      3.5.1  值迭代演算法
  ……

  第4章  蒙特卡洛法
  第5章  時間差分法
第三篇  求解強化學習進階
  第6章  值函數近似法
  第7章  策略梯度法
  第8章  整合學習與規劃
第四篇  深度強化學習
  第9章  深度強化學習
  第10章  深度Q網路
  第11章  深度強化學習演算法框架
  第12章  從圍棋AlphaGo到AlphaGoZero
附錄部分

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032