幫助中心 | 我的帳號 | 關於我們

Spark Streaming實時流式大數據處理實戰

  • 作者:編者:肖力濤
  • 出版社:機械工業
  • ISBN:9787111624325
  • 出版日期:2019/05/01
  • 裝幀:平裝
  • 頁數:233
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以透徹的原理分析和充實的實例代碼詳解,全面闡述了Spark Streaming流式處理平台的相關知識,能夠讓讀者快速掌握如何搭建Spark平台,然後在此基礎上學習流式處理框架,並動手實踐進行Spark Streaming流式應用的開發,包括與主流平台框架的對接應用,以及項目實戰中的一些開發和調優策略等。
    本書共10章,分為3篇。第1篇為Spark基礎,主要闡述了Spark的基本原理、平台搭建及實例應用;第2篇為Spark Streaming詳解,闡述了Spark Streaming的基本原理,並重點介紹了SDark Streaming與Kafka、ZooKeeper、MySQL、HBase租Redis的配合使用、相關調優策略及實際應用;第3篇為Spark strearning案例實戰,主要介紹了實時詞頻統計處理、用戶行為統計和監控報警系統3個實戰案例,幫助讀者進行實戰演練,提升讀者的實際項目開發水平。另外,本書附錄還對Scala語言基礎做了簡要講解。
    本書內容理論結合實戰,特別適合大數據技術愛好者及相關從業人員閱讀,也可作為他們的常備工具書使用。另外,本書也適合作為大數據培訓機構及高校相關專業的教材使用。

作者介紹
編者:肖力濤
    肖力濤,浙江大學電腦碩士,前騰訊優圖實驗室及WeTest研究員,現拼多多資深演算法工程師。長期進行大數據處理、自然語言處理、深度學習、推薦演算法的研究與實踐,有豐富的項目經驗。善於歸納和總結,所撰寫的博客文章得到了大量讀者的好評。擅長數據分析與處理、演算法實踐落地、用戶行為數據挖掘、大規模數據處理等技術。運營《互聯網技術猿》公眾號。

目錄
前言
第1篇  Spark基礎
  第1章  初識Spark
    1.1  Spark由來
    1.2  流式處理與Spark Streaming
    1.2.1  流式處理框架
    1.2.2  Spark Streaming初識
    1.2.3  Structed Streaming簡述
    1.3  本章小結
  第2章  Spark運行與開發環境
    2.1  Spark的下載與安裝
    2.2  Spark運行模式
    2.2.1  本地模式
    2.2.2  本地集群模式
    2.2.3  Standalone模式
    2.2.4  Spark On Yarn模式
    2.2.5  Spark On Mesos模式
    2.3  搭建開發環境
    2.3.1  修改配置
    2.3.2  啟動集群
    2.3.3  IDE配置
    2.3.4  UI監控界面
    2.4  實例——Spark文件詞頻統計
    2.5  本章小結
  第3章  Spark編程模型
    3.1  RDD概述
    3.2  RDD存儲結構
    3.3  RDD操作
    3.3.1  Transformation操作
    3.3.2  Action操作
    3.4  RDD間的依賴方式
    3.4.1  窄依賴(Narrow Dependency)
    3.4.2  Shuffle依賴(寬依賴Wide Dependency)
    3.5  從RDD看集群調度
    3.6  RDD持久化(Cachinng/Persistence)
    3.7  共享變數
    3.7.1  累加器(Accumulator)
    3.7.2  廣播變數(Broadcast Variables)
    3.8  實例——Spark RDD操作
    3.9  本章小結
第2篇  Spark Streaming詳解
  第4章  Spark Streaming編程模型及原理
    4.1  DStream數據結構
    4.2  DStream操作
    4.2.1  DStream Transformation操作
    4.2.2  DStream輸出操作
    4.3  Spark Streaming初始化及輸入源
    4.3.1  初始化流式上下文(StreamingContext)
    4.3.2  輸入源及接收器(Receivers)
    4.4  持久化、Checkpointing和共享變數

    4.4.1  DStream持久化(Caching/Persistence)
    4.4.2  Checkpointing操作
    4.5  實例——Spark Streaming流式詞頻統計
    4.6  本章小結
  第5章  Spark Streaming與Kafka
    5.1  ZooKeeper簡介
    5.1.1  相關概念
    5.1.2  ZooKeeper部署
    5.2  Kafka簡介
    5.2.1  相關術語
    5.2.2  Kafka運行機制
    5.2.3  Kafka部署
    5.2.4  簡單樣例
    5.3  Spark Streaming接收Kafka數據
    5.3.1  基於Receiver的方式
    5.3.2  直接讀取的方式
    5.4  Spark Streaming向Kafka中寫入數據
    5.5  實例——Spark Streaming分析Kafka數據
    5.6  本章小結
  第6章  Spark Streaming與外部存儲介質
    6.1  將DStream輸出到文件中
    6.2  使用foreachRDD設計模式
    6.3  將DStream輸出到MySQL中
    6.3.1  MySQL概述
    6.3.2  MySQL通用連接類
    6.3.3  MySQL輸出操作
    6.4  將DStream輸出到HBase中
    6.4.1  HBase概述
    6.4.2  HBase通用連接類
    6.4.3  HBase輸出操作
    6.4.4  「填坑」記錄
    6.5  將DStream數據輸出到Redis中
    6.5.1  Redis安裝
    6.5.2  Redis概述
    6.5.3  Redis通用連接類
    6.5.4  輸出Redis操作
    6.6  實例——日誌分析
    6.7  本章小結
  第7章  Spark Streaming調優實踐
    7.1  數據序列化
    7.2  廣播大變數
    7.3  數據處理和接收時的並行度
    7.4  設置合理的批處理間隔
    7.5  內存優化
    7.5.1  內存管理
    7.5.2  優化策略
    7.5.3  垃圾回收(GC)優化
    7.5.4  Spark Streaming內存優化
      7.6  實例——項目實戰中的調優示例
    7.6.1  合理的批處理時間(batchDuration)

    7.6.2  合理的Kafka拉取量(maxRatePerPartition參數設置)
    7.6.3  緩存反覆使用的Dstream(RDD)
    7.6.4  其他一些優化策略
    7.6.5  結果
    7.7  本章小結
第3篇  Spark Streaming案例實戰
  第8章  實時詞頻統計處理系統實戰
    8.1  背景與設計
    8.2  代碼實現
    8.2.1  數據生成器
    8.2.2  分詞服務
    8.2.3  流式詞頻統計
    8.3  環境配置與運行
    8.3.1  相關服務啟動
    8.3.2  查看結果
    8.4  本章小結
  第9章  用戶行為統計實戰
    9.1  背景與設計
    9.1.1  不同狀態的保存方式
    9.1.2  State設計
    9.1.3  Redis存儲
    9.2  代碼實現
    9.2.1  數據生成器
    9.2.2  用戶行為統計
    9.3  環境配置與運行
    9.3.1  相關服務啟動
    9.3.2  查看結果
    9.4  本章小結
  第10章  監控報警系統實戰
    10.1  背景與設計
    10.2  代碼實現
    10.2.1  簡易爬蟲子項目
    10.2.2  流式處理子項目
    10.2.3  歸納統計子項目
    10.2.4  數據表情況
    10.3  環境配置與查看
    10.3.1  啟動各個模塊
    10.3.2  查看結果
    10.4  本章小結
附錄A  Scala語言基礎
  A.1  安裝及環境配置
    A.1.1  安裝Scala
    A.1.2  開發環境配置
  A.2  Scala語法獨特性
    A.2.1  換行符
    A.2.2  統一類型
    A.2.3  Scala變數
    A.2.4  條件和循環語句
    A.2.5  函數和方法
    A.2.6  特質、單例和樣例類

  A.3  Scala集合
    A.3.1  集合框架
    A.3.2  核心特質(Trait)
    A.3.3  常用的不可變集合類
    A.3.4  常用的可變集合類
    A.3.5  字元串
    A.3.6  數組
    A.3.7  迭代器(Iterators)
  A.4  其他常用特性
    A.4.1  模式匹配
    A.4.2  異常處理
    A.4.3  文件I/O

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032