幫助中心 | 我的帳號 | 關於我們

強化學習精要(核心演算法與TensorFlow實現)/博文視點AI系列

  • 作者:馮超
  • 出版社:電子工業
  • ISBN:9787121340000
  • 出版日期:2018/06/01
  • 裝幀:平裝
  • 頁數:371
人民幣:RMB 80 元      售價:
放入購物車
加入收藏夾

內容大鋼
    馮超著的《強化學習精要(核心演算法與TensorFlow實現)/博文視點AI系列》用通俗幽默的語言深入淺出地介紹了強化學習的基本演算法與代碼實現,為讀者構建了一個完整的強化學習知識體系,同時介紹了這些演算法的具體實現方式。從基本的馬爾可夫決策過程,到各種複雜的強化學習演算法,讀者都可以從本書中學習到。本書除了介紹這些演算法的原理,還深入分析了演算法之間的內在聯繫,可以幫助讀者舉一反三,掌握演算法精髓。書中介紹的代碼可以幫助讀者快速將演算法應用到實踐中。
    《強化學習精要:核心演算法與TensorFlow實現》內容翔實,語言簡潔易懂,既適合零基礎的人員人門學習,也適合相關科研人員研究參考。

作者介紹
馮超
    馮超,畢業於中國科學院大學,滴滴出行AI Labs時空數據組專家演算法工程師,曾任小猿搜題演算法負責人之一。自2016年起在知乎開設技術專欄《無痛的機器學習》,發表與深度學習和強化學習相關的文章,文章以輕鬆幽默的語言、細緻深入的分析為特點,得到了廣泛的關注。曾撰寫深度學習進階領域口碑技術書《深度學習輕鬆學:核心演算法與視覺實踐》。

目錄
第一部分  強化學習入門與基礎知識
  1 引言
    1.1 強化學習的概念
      1.1.1 巴浦洛夫的狗
      1.1.2 俄羅斯方塊
    1.2 站在被實驗者的角度看問題
    1.3 強化學習效果的評估
      1.3.1 不斷試錯
      1.3.2 看重長期回報
    1.4 強化學習與監督學習
      1.4.1 強化學習與監督學習的本質
      1.4.2 模仿學習
    1.5 強化學習的實驗環境
      1.5.1 Arcade Learning Environment
      1.5.2 Box2D
      1.5.3 MuJoCo
      1.5.4 Gym
    1.6 本書的主要內容
    1.7 參考資料
  2 數學與機器學習基礎
    2.1 線性代數基礎
    2.2 對稱矩陣的性質
      2.2.1 特徵值與特徵向量
      2.2.2 對稱矩陣的特徵值和特徵向量
      2.2.3 對稱矩陣的對角化
    2.3 概率論
      2.3.1 概率與分佈
      2.3.2 最大似然估計
    2.4 重要性採樣
    2.5 資訊理論基礎
    2.6 KL散度
    2.7 凸函數及其性質
    2.8 機器學習的基本概念
    2.9 機器學習的目標函數
    2.10 總結
  3 優化演算法
    3.1 梯度下降法
      3.1.1 什麼是梯度下降法
      3.1.2 優雅的步長
    3.2 動量演算法
    3.3 共軛梯度法
      3.3.1 精妙的約束
      3.3.2 共軛
      3.3.3 優化步長的確定
      3.3.4 Gram-Schmidt方法
      3.3.5 共軛梯度
    3.4 自然梯度法
      3.4.1 基本概念
      3.4.2 Fisher信息矩陣
      3.4.3 自然梯度法目標公式

    3.5 總結
  ……
第二部分  最優價值演算法
第三部分  基於策略梯度的演算法
第四部分  其他強化學習演算法
第五部分  反向強化學習

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032