幫助中心 | 我的帳號 | 關於我們

深度強化學習實踐(影印版)(英文版)

  • 作者:(俄羅斯)馬克西姆·拉潘
  • 出版社:東南大學
  • ISBN:9787564183219
  • 出版日期:2019/05/01
  • 裝幀:平裝
  • 頁數:523
人民幣:RMB 109 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習(RL)的最新發展結合深度學習(DL),在訓練代理以類似人的方式解決複雜問題方面取得了前所未有的進步。Google使用演算法在著名的Atari街機遊戲中獲勝將該領域推至高峰,研究人員也在源源不斷地產生新的想法。
    本書是關於最新DL工具及其局限性的全面指南。在應用於真實環境之前,你得評估包括交叉熵和策略梯度在內的多種方法。試試Atari的虛擬遊戲和像connect4這樣的家庭最愛。本書介紹了RL的基礎知識,為你提供了編寫智能學習代理所需的原理,以承擔一系列艱巨的實際任務。讓你了解如何在「網格世界」環境中實現Q-learning,教你的代理購買和交易股票,發現自然語言模型如何推動了聊天機器人的火爆。

作者介紹
(俄羅斯)馬克西姆·拉潘
    馬克西姆·拉潘,深度學習研究者,作為一名軟體開發人員和系統架構師,具有超過15年的專業經驗,涵蓋了從Linux內核驅動程序開發到可在數千台伺服器上工作的分散式應用項目的設計與性能優化。他在大數據、機器學習以及大型並行分散式HPC系統方面擁有豐富的工作經驗,並擅長使用簡單的文字和生動的示例來解釋複雜事物。他目前專註的領域是深度學習的實際應用,例如深度自然語言處理和深度強化學習。Maxim目前在以色列一家初創公司工作,擔任高級NLP開發人員。

目錄
Preface
Chapter 1: What is Reinforcement Learning?
  Learning - supervised, unsupervised, and reinforcement
  RL formalisms and relations
    Reward
    The agent
    The environment
    Actions
    Observations
  Markov decision processes
    Markov process
    Markov reward process
    Markov decision process
  Summary
Chapter 2: OpenAI Gym
  The anatomy of the agent
  Hardware and software requirements
  OpenAI Gym API
    Action space
    Observation space
    The environment
    Creation of the environment
    The CartPole session
  The random CartPole agent
  The extra Gym functionality - wrappers and monitors
    Wrappers
    Monitor
  Summary
Chapter 3: Deep Learning with PyTorch
  Tensors
    Creation of tensors
    Scalar tensors
    Tensor operations
    GPU tensors
  Gradients
    Tensors and gradients
  NN building blocks
  Custom layers
  Final glue - loss functions and optimizers
    Loss functions
    Optimizers
  Monitoring with TensorBoard
    TensorBoard 101
    Plotting stuff
  Example -GAN on Atari images
  Summary
Chapter 4: The Cross-Entropy Method
  Taxonomy of RL methods
  Practical cross-entropy
  Cross-entropy on CartPole

  Cross-entropy on FrozenLake
  Theoretical background of the cross-entropy method
  Summary
Chapter 5: Tabular Learning and the Bellman Equation
  Value, state, and optimality
  The Bellman equation of optimality
  Value of action
  The value iteration method
  Value iteration in practice
  Q-learning for FrozenLake
  Summary
Chapter 6: Deep Q-Networks
Chapter 7: DQN Extensions
Chapter 8: Stocks Trading Using RL
Chapter 9: Policy Gradients - An Alternative
Chapter 10: The Actor-Critic Method
Chapter 11: Asynchronous Advantaqe Actor-Critic
Chapter 12: Chatbots Training with RL
Chapter 13: Web Navigation
Chapter 14: Continuous Action Space
Chapter 15: Trust Regions - TRPO, PPO, and ACKTR
Chapter 16: Black-Box Optimization in RL
Chapter 17: Beyond Model-Free - Imagination
Chapter 18: AlphaGo Zero
Other Books You May Enjoy
Index

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032