幫助中心 | 我的帳號 | 關於我們

揭秘深度強化學習/人工智慧技術叢書

  • 作者:編者:彭偉
  • 出版社:中國水利水電
  • ISBN:9787517062387
  • 出版日期:2018/05/01
  • 裝幀:平裝
  • 頁數:360
人民幣:RMB 89.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    深度強化學習(Deep Reinforcement Learning,DRL)是深度學習演算法和強化學習演算法的巧妙結合,它是一種新興的通用人工智慧演算法技術,也是機器學習的前沿技術,DRL演算法潛力無限,AlphaGo是目前該演算法相當成功的使用案例。DRL演算法以馬爾科夫決策過程為基礎,是在深度學習強大的非線性函數的擬合能力下構成的一種增強演算法。深度強化學習演算法主要包括基於動態規劃(DP)的演算法以及基於策略優化的演算法,本書的目的就是要把這兩種主要的演算法(及設計技巧)講解清楚,使演算法研究人員能夠熟練地掌握。
    彭偉編著的《揭秘深度強化學習》共10章,首先以AlphaGo在圍棋大戰的偉大事跡開始,引起對人工智慧發展和現狀的介紹,進而介紹深度強化學習的基本知識。然後分別介紹了強化學習(重點介紹蒙特卡洛演算法和時序差分演算法)和深度學習的基礎知識、功能神經網路層、卷積神經網路(CNN)、循環神經網路(RNN),以及深度強化學習的理論基礎和當前主流的演算法框架。最後介紹了深度強化學習在不同領域的幾個應用實例。引例、基礎知識和實例相結合,方便讀者理解和學習。
    《揭秘深度強化學習》內容豐富,講解全面、語言描述通俗易懂,是深度強化學習演算法入門的優選。本書適合電腦專業本科相關學生、人工智慧領域的研究人員以及所有對機器學習和人工智慧演算法感興趣的人員。

作者介紹
編者:彭偉
    彭偉,AvatarWorks人工智慧實驗室研究員,電子科技大學EE學士,廈門大學電腦碩士,具有良好的軟硬體能力。目前主要從事人工智慧、機器學習演算法的研究。主要的項目經歷包括視覺目標跟蹤、行人檢測、目標檢測、3D動畫風格傳輸、虛擬機器人行為系統等,具有豐富的實戰經驗。

目錄
第1章 深度強化學習概覽
  1.1 什麼是深度強化學習?
    1.1.1 俯瞰強化學習
    1.1.2 來一杯深度學習
    1.1.3 Hello,深度強化學習
  1.2 深度強化學習的學習策略
  1.3 本書的內容概要
  參考文獻
第2章 強化學習基礎
  2.1 真相——經典的隱馬爾科夫模型(HMM)
    2.1.1 HMM引例
    2.1.2 模型理解與推導
    2.1.3 隱馬爾科夫應用舉例
  2.2 逢考必過—馬爾科夫決策過程(MDP)
    2.2.1 MDP生活化引例
    2.2.2 MDP模型
    2.2.3 MDP模型引例
    2.2.4 模型理解
    2.2.5 探索與利用
    2.2.6 值函數和動作值函數
    2.2.7 基於動態規劃的強化問題求解
  2.3 糟糕,考試不給題庫—無模型強化學習
    2.3.1 蒙特卡洛演算法
    2.3.2 時序差分演算法
    2.3.3 非同步強化學習演算法
  2.4 學霸來了——強化學習之模仿學習
    2.4.1 模仿學習(Imitation Learning)
    2.4.2 逆強化學習
  本章總結
  參考文獻
第3章 深度學習基礎
  3.1 深度學習簡史
    3.1.1 神經網路發展史
    3.1.2 深度學習的分類
    3.1.3 深度學習的應用
    3.1.4 深度學習存在的問題
  3.2 深度學習基礎概念
    3.2.1 深度學習總體感知
    3.2.2 神經網路的基本組成
    3.2.3 深度學習訓練
    3.2.4 梯度下降法
    3.2.5 反向傳播演算法(BP)
  3.3 數據預處理
    3.3.1 主成分分析(PCA)
    3.3.2 獨立成分分析(ICA)
    3.3.3 數據白化處理
  3.4 深度學習硬體基礎
    3.4.1 深度學習硬體基礎
    3.4.2 GPU簡介
    3.4.3 CUDA編程

  本章總結
  參考文獻
第4章 功能神經網路層
  4.1 激活函數單元
  4.2 池化層Pooling layer
  4.3 參數開關Dropout
  4.4 批量歸一化層(Batch normalization layer)
  4.5 全連接層
  4.6 卷積神經網路
  4.7 全卷積神經網路
  4.8 循環(遞歸)神經網路(RNN)
  4.9 深度學習的細節與技巧
    4.9.1 數據擴增
    4.9.2 參數初始化
    4.9.3 訓練當中的技巧
    4.9.4 正則化
    4.9.5 訓練結果圖像分析
    4.9.6 模型集成
  本章總結
  參考文獻
第5章 卷積神經網路(CNN)
  5.1 卷積神經網路 CNN 基礎
    5.1.1 卷積神經網路的歷史
    5.1.2 卷積神經網路的核心
  5.2 卷積神經網路 CNN 結構
    5.2.1 深度卷積神經網路CNN
    5.2.2 深度卷積神經網路CNN可視化
  5.3 經典卷積神經網路架構分析
    5.3.1 一切的開始——LeNet
    5.3.2 王者回歸——AlexNet
    5.3.3 起飛的時候——VGG
    5.3.4 致敬經典GoogLeNet
    5.3.5 沒有最深只有更深——ResNet
  5.4 對抗網路
    5.4.1 對抗網路(GAN)
    5.4.2 WGAN
  5.5 R-CNN
  5.6 CNN的應用實例
  本章總結
  參考文獻
第6章 循環神經網路(RNN)
  6.1 RNN概覽
  6.2 長期依賴(Long-Term Dependencies)問題
  6.3 LSTM 的變體
  本章總結
  參考文獻
第7章:如何寫自己的CNN—C語言實現深度學習
  7.1 如何寫自己的CMake文件
  7.2 如何寫自己神經網路
    7.2.1 激活函數

    7.2.2 池化函數
    7.2.3 全連接層
  7.3 卷積神經網路
    7.3.1 CNN網路的構建
    7.3.2 CNN前向傳播
    7.3.3 CNN的反向傳播
  7.4 文件解析
  本章總結
第8章 深度強化學習
  8.1 初識深度強化學習
    8.1.1 深度強化學習概覽
    8.1.2 記憶回放(Memory Replay)機制
    8.1.3 蒙特卡羅搜索樹
  8.2 深度強化學習(DRL)中的值函數演算法
    8.2.1 DRL中值函數的作用
    8.2.2 DRL中值函數理論推導
  8.3 深度強化學習中的策略梯度(Policy Gradient)
    8.3.1 策略梯度的作用和優勢
    8.3.2 策略梯度的理論推導
    8.3.3 REINFORCE演算法
    8.3.4 策略梯度的優化演算法
    8.3.5 策略子-評判演算法(Actor-Critic)
  8.4 深度強化學習網路結構
  參考文獻
第9章 深度強化學習演算法框架
  9.1 深度Q學習
  9.2 雙Q學習
  9.3 非同步深度強化學習
  9.4 非同步優越性策略子-評價演算法
  9.5 DDPG 演算法:
  9.6 值迭代網路
  本章總結
  參考文獻
第10章 深度強化學習應用實例
  10.1 Flappy Bird 應用
  10.2 Play Pong 應用
  10.3 深度地形-自適應應用(Deep Terrain-adaptive應用)
  10.4 AlphaGo 254
    10.4.1 獨立演算法的研究部分
    10.4.2 AlphaGo演算法
  本章總結
  參考文獻
附錄A 常用的深度學習框架
  標準1:與現有編程平台、技能整合的難易程度。
  標準2:和相關機器學習、數據處理生態整合的緊密程度。
  標準3:通過此平台做深度學習之外,還能做什麼?
  標準4:對數據量、硬體的要求和支持。
  標準5:深度學習平台的成熟程度。
  A1 Google的TensorFlow
    A1.1 TensorFlow簡介

    A1.2 TensorFlow基礎
  A2 輕量級的MXNet
    A2.1 MXNet介紹
    A2.2 MXNet基礎
  A3 來自UCLA的Caffe
    A3.1 Caffe簡介
    A3.2 Ca?基礎
  A4 悠久的Theano
    A4.1 Theano簡介
    A4.2 Theano基礎
  A5 30秒入門Keras
  參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032