幫助中心 | 我的帳號 | 關於我們

深度學習(語音識別技術實踐)

  • 作者:編者:柳若邊
  • 出版社:清華大學
  • ISBN:9787302516927
  • 出版日期:2019/04/01
  • 裝幀:平裝
  • 頁數:280
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    語音識別已經逐漸進入人們的日常生活。語音識別技術是涉及語言、電腦、數學等領域的交叉學科。柳若邊編著的《深度學習(語音識別技術實踐)》介紹了包括C#、Perl、Python、Java在內的多種編程語言實踐,開源語音識別工具包Kaldi的使用與代碼分析,深度學習的開發環境搭建,卷積神經網路,以及語音識別中常見的語言模型——N元模型和依存模型等,讓讀者快速了解語音識別基礎,掌握開發語音識別程序的演算法。
    本書從語音識別的基礎開始講起,並輔以翔實的案例,既適合需要具體實現語音識別的程序員使用,也適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀。

作者介紹
編者:柳若邊
    柳若邊,獵兔搜索團隊核心成員,曾供職于中國萬網、三星等多家業內知名公司,現任某教育培訓機構專業講師。獵兔搜索創立於2004年,專註于自然語言處理等人工智慧領域的技術開發與實現。在北京和上海等地均有獵兔培訓的學員,獵兔搜索出版的相關技術圖書讀者遍及全國各省(市、區)及海外華人圈。

目錄
第1章  語音識別技術
  1.1  總體結構
  1.2  Linux基礎
  1.3  安裝Micro編輯器
  1.4  安裝Kaldi
  1.5  yesno例子
    1.5.1  數據準備
    1.5.2  詞典準備
  1.6  構建一個簡單的ASR
  1.7  Voxforge例子
  1.8  數據準備
  1.9  加權有限狀態轉換
    1.9.1  FSA
    1.9.2  FST
    1.9.3  WFST
    1.9.4  Kaldi對OpenFst的改進
  1.10  語音識別語料庫
    1.10.1  TIMIT語料庫
    1.10.2  LibriSpeech語料庫
    1.10.3  中文語料庫
  1.11  Linux shell腳本基礎
    1.11.1  Bash
    1.11.2  AWK
第2章  C#開發語音識別
  2.1  準備開發環境
  2.2  計算卷積
  2.3  記錄語音
  2.4  讀入語音信號
  2.5  離散傅里葉變換
  2.6  移除靜音
第3章  Perl開發語音識別
  3.1  變數
    3.1.1  數字
    3.1.2  字元串
    3.1.3  數組
    3.1.4  散列表
  3.2  多維數組
  3.3  常量
  3.4  操作符
  3.5  控制流
  3.6  文件與目錄
  3.7  常式
  3.8  執行命令
  3.9  正則表達式
    3.9.1  基本類型
    3.9.2  正則表達式模式
  3.10  命令行參數
第4章  Python開發語音識別
  4.1  Windows操作系統下安裝Python
  4.2  Linux操作系統下安裝Python

  4.3  選擇版本
  4.4  開發環境
  4.5  註釋
  4.6  變數
    4.6.1  數值
    4.6.2  字元串
  4.7  數組
  4.8  列表
  4.9  元組
  4.10  字典
  4.11  控制流
    4.11.1  條件判斷
    4.11.2  循環
  4.12  模塊
  4.13  函數
  4.14  讀寫文件
  4.15  面向對象編程
  4.16  命令行參數
  4.17  資料庫
  4.18  日誌記錄
  4.19  異常處理
  4.20  測試
  4.21  語音活動檢測
  4.22  使用numpy
第5章  Java開發語音識別
  5.1  實現卷積
  5.2  KaldiJava
    5.2.1  使用Ant
    5.2.2  使用Maven
    5.2.3  使用Gradle
    5.2.4  概率分佈函數
  5.3  TensorFlow的Java介面
    5.3.1  在Windows操作系統下使用TensorFlow
    5.3.2  在Linux操作系統下使用TensorFlow
第6章  語音信號處理
  6.1  使用FFmpeg
  6.2  標注語音
  6.3  時間序列
  6.4  端點檢測
  6.5  動態時間規整
  6.6  傅里葉變換
    6.6.1  離散傅里葉變換
    6.6.2  快速傅里葉變換
  6.7  MFCC特徵
  6.8  說話者識別
  6.9  解碼
第7章  深度學習
  7.1  神經網路基礎
    7.1.1  實現多層感知器
    7.1.2  計算過程

  7.2  卷積神經網路
  7.3  搭建深度學習開發環境
    7.3.1  使用Cygwin模擬環境
    7.3.2  使用CMake
    7.3.3  使用Keras
    7.3.4  安裝TensorFlow
    7.3.5  安裝TensorFlow的Docker容器
    7.3.6  使用TensorFlow
    7.3.7  一維卷積
    7.3.8  二維卷積
    7.3.9  擴張卷積
    7.3.10  TensorFlow實現簡單的語音識別
  7.4  nnet3實現代碼
    7.4.1  數據類型
    7.4.2  基本數據結構
  7.5  編譯Kaldi
  7.6  端到端深度學習
  7.7  Dropout解決過度擬合問題
  7.8  矩陣運算
第8章  語言模型
  8.1  概率語言模型
    8.1.1  一元模型
    8.1.2  數據基礎
    8.1.3  改進一元模型
    8.1.4  二元詞典
    8.1.5  完全二叉樹數組
    8.1.6  三元詞典
    8.1.7  N元模型
    8.1.8  生成語言模型
    8.1.9  評估語言模型
    8.1.10  平滑演算法
  8.2  KenLM語言模型工具包
  8.3  ARPA文件格式
  8.4  依存語言模型

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032