幫助中心 | 我的帳號 | 關於我們

Spark機器學習(核心技術與實踐)/大數據技術叢書

  • 作者:(美)亞歷克斯·特列斯//馬克斯·帕普拉//邁克爾·馬洛赫拉瓦|譯者:邵賽賽//陽衛清//唐明潔
  • 出版社:機械工業
  • ISBN:9787111598466
  • 出版日期:2018/06/01
  • 裝幀:平裝
  • 頁數:229
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    作為一名具有機器學習和統計背景的開發人員,你是否感受到了當前緩慢的「小數據」機器學習工具的限制?那麼亞歷克斯·特列斯、馬克斯·帕普拉、邁克爾·馬洛赫拉瓦著的《Spark機器學習(核心技術與實踐)/大數據技術叢書》就是為你而寫!在本書中,你將會使用Spark創建可擴展的機器學習應用,為現代的數據驅動業務提供支持。
    本書從MLlib和H2O庫定義的機器學習原語開始,你將學到如何使用二分類檢測由CERN粒子對撞機產生的大量數據中的希格斯波色子,並使用多元分類的集成方法對日常身體活動進行分類。接下來,你將解決一個涉及航班延誤預測的典型回歸問題,並編寫複雜的Spark流水線。你將在doc2vec演算法和K-means聚類的幫助下分析Twitter數據。最後,你將會使用MLlib構建不同的模式挖掘模型,使用Spark和Spark SQL對DataFrame進行複雜的操作,並在Spark streaming環境中部署你的應用。

作者介紹
(美)亞歷克斯·特列斯//馬克斯·帕普拉//邁克爾·馬洛赫拉瓦|譯者:邵賽賽//陽衛清//唐明潔

目錄
譯者序
關於作者
前言
第1章  大規模機器學習和Spark入門
  1.1 數據科學
  1.2 數據科學家:21世紀最炫酷的職業
    1.2.1 數據科學家的一天
    1.2.2 大數據處理
    1.2.3 分散式環境下的機器學習演算法
    1.2.4 將數據拆分到多台機器
    1.2.5 從Hadoop MapReduce到Spark
    1.2.6 什麼是Databricks
    1.2.7 Spark包含的內容
  1.3 H2O.ai簡介
  1.4 H2O和Spark MLlib的區別
  1.5 數據整理
  1.6 數據科學:一個迭代過程
  1.7 小結
第2章  探索暗物質:希格斯玻色子
  2.1 Ⅰ型錯誤與Ⅱ型錯誤
    2.1.1 尋找希格斯玻色子
    2.1.2 LHC和數據的創建
    2.1.3 希格斯玻色子背後的理論
    2.1.4 測量希格斯玻色子
    2.1.5 數據集
  2.2 啟動Spark與載入數據
    2.2.1 標記點向量
    2.2.2 創建訓練和測試集合
    2.2.3 第一個模型:決策樹
    2.2.4 下一個模型:集合樹
    2.2.5 最後一個模型:H2O深度學習
    2.2.6 構建一個3層DNN
  2.3 小結
第3章  多元分類的集成方法
  3.1 數據
  3.2 模型目標
    3.2.1 挑戰
    3.2.2 機器學習工作流程
    3.2.3 使用隨機森林建模
  3.3 小結
第4章  使用NLP和Spark Streaming預測電影評論
  4.1 NLP簡介
  4.2 數據集
  4.3 特徵提取
    4.3.1 特徵提取方法:詞袋模型
    4.3.2 文本標記
  4.4 特徵化——特徵哈希
  4.5 我們來做一些模型訓練吧
    4.5.1 Spark決策樹模型
    4.5.2 Spark樸素貝葉斯模型

    4.5.3 Spark隨機森林模型
    4.5.4 Spark GBM模型
    4.5.5 超級學習器模型
  4.6 超級學習器
    4.6.1 集合所有的轉換
    4.6.2 使用超級學習器模型
  4.7 小結
第5章  word2vec預測和聚類
  5.1 詞向量的動機
  5.2 word2vec解釋
    5.2.1 什麼是單詞向量
    5.2.2 CBOW模型
    5.2.3 skip-gram模型
    5.2.4 玩轉辭彙向量
    5.2.5 餘弦相似性
  5.3 doc2vec解釋
    5.3.1 分散式內存模型
    5.3.2 分散式詞袋模型
  5.4 應用word2vec並用向量探索數據
  5.5 創建文檔向量
  5.6 監督學習任務
  5.7 小結
第6章  從點擊流數據中抽取模式
  6.1 頻繁模式挖掘
  6.2 使用Spark MLlib進行模式挖掘
    6.2.1 使用FP-growth進行頻繁模式挖掘
    6.2.2 關聯規則挖掘
    6.2.3 使用prefix span進行序列模式挖掘
    6.2.4 在MSNBC點擊流數據上進行模式挖掘
  6.3 部署模式挖掘應用
  6.4 小結
第7章  使用GraphX進行圖分析
  7.1 基本的圖理論
    7.1.1 圖
    7.1.2 有向和無向圖
    7.1.3 階和度
    7.1.4 有向無環圖
    7.1.5 連通分量
    7.1.6 樹
    7.1.7 多重圖
    7.1.8 屬性圖
  7.2 GraphX分散式圖計算引擎
    7.2.1 GraphX中圖的表示
    7.2.2 圖的特性和操作
    7.2.3 構建和載入圖
    7.2.4 使用Gephi可視化圖結構
    7.2.5 圖計算進階
    7.2.6 GraphFrame
  7.3 圖演算法及其應用
    7.3.1 聚類

    7.3.2 頂點重要性
  7.4 GraphX在上下文中
  7.5 小結
第8章  Lending Club借貸預測
  8.1 動機
    8.1.1 目標
    8.1.2 數據
    8.1.3 數據字典
  8.2 環境準備
  8.3 數據載入
  8.4 探索——數據分析
    8.4.1 基本清理
    8.4.2 預測目標
    8.4.3 使用模型評分
    8.4.4 模型部署
  8.5 小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032