幫助中心 | 我的帳號 | 關於我們

精通Python爬蟲框架Scrapy

  • 作者:(美)迪米特里奧斯·考奇斯-勞卡斯|譯者:李斌
  • 出版社:人民郵電
  • ISBN:9787115474209
  • 出版日期:2018/02/01
  • 裝幀:平裝
  • 頁數:239
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Scrapy是使用Python開發的一個快速、高層次的屏幕抓取和Web抓取框架,用於抓Web站點並從頁面中提取結構化的數據。迪米特里奧斯·考奇斯-勞卡斯著的《精通Python爬蟲框架Scrapy》以Scrapy1.0版本為基礎,講解了Scrapy的基礎知識,以及如何使用Python和三方API提取、整理數據,以滿足自己的需求。
    本書共11章,其內容涵蓋了Scrapy基礎知識,理解HTML和XPath,安裝Scrapy並爬取一個網站,使用爬蟲填充資料庫並輸出到移動應用中,爬蟲的強大功能,將爬虫部署到Scrapinghub雲伺服器,Scrapy的配置與管理,Scrapy編程,管道秘訣,理解Scrapy性能,使用Scrapyd與實時分析進行分散式爬取。本書附錄還提供了各種軟體的安裝與故障排除等內容。
    本書適合軟體開發人員、數據科學家,以及對自然語言處理和機器學習感興趣的人閱讀。

作者介紹
(美)迪米特里奧斯·考奇斯-勞卡斯|譯者:李斌

目錄
第1章  Scrapy簡介
  1.1  初識Scrapy
  1.2  喜歡Scrapy的更多理由
  1.3  關於本書:目標和用途
  1.4  掌握自動化數據爬取的重要性
    1.4.1  開發健壯且高質量的應用,並提供合理規劃
    1.4.2  快速開發高質量可行產品
    1.4.3  Google不會使用表單,爬取才能擴大規模
    1.4.4  發現並融入你的生態系統
  1.5  在充滿爬蟲的世界里做一個好公民
  1.6  Scrapy不是什麼
  1.7  本章小結
第2章  理解HTML和XPath
  2.1  HTML、DOM樹表示以及XPath
    2.1.1  URL
    2.1.2  HTML文檔
    2.1.3  樹表示法
    2.1.4  你會在屏幕上看到什麼
  2.2  使用XPath選擇HTML元素
    2.2.1  有用的XPath表達式
    2.2.2  使用Chrome獲取XPath表達式
    2.2.3  常見任務示例
    2.2.4  預見變化
  2.3  本章小結
第3章  爬蟲基礎
  3.1  安裝Scrapy
    3.1.1  MacOS
    3.1.2  Windows
    3.1.3  Linux
    3.1.4  新源碼安裝
    3.1.5  升級Scrapy
    3.1.6  Vagrant:本書中運行示例的官方方式
  3.2  UR2IM——基本抓取流程
    3.2.1  URL
    3.2.2  請求和響應
    3.2.3  Item
  3.3  一個Scrapy項目
    3.3.1  聲明item
    3.3.2  編寫爬蟲
    3.3.3  填充item
    3.3.4  保存文件
    3.3.5  清理——item裝載器與管理欄位
    3.3.6  創建contract
  3.4  抽取更多的URL
    3.4.1  使用爬蟲實現雙向爬取
    3.4.2  使用CrawlSpider實現雙向爬取
  3.5  本章小結
第4章  從Scrapy到移動應用
  4.1  選擇手機應用框架
  4.2  創建資料庫和集合

  4.3  使用Scrapy填充資料庫
  4.4  創建手機應用
    4.4.1  創建資料庫訪問服務
    4.4.2  創建用戶界面
    4.4.3  將數據映射到用戶界面
    4.4.4  資料庫欄位與用戶界面控制項間映射
    4.4.5  測試、分享及導出你的手機應用
  4.5  本章小結
第5章  迅速的爬蟲技巧
  5.1  需要登錄的爬蟲
  5.2  使用JSON API和AJAX頁面的爬蟲
  5.3  倍速的房產爬蟲
  5.4  基於Excel文件爬取的爬蟲
  5.5  本章小結
第6章  部署到Scrapinghub
  6.1  註冊、登錄及創建項目
  6.2  部署爬蟲與計劃運行
  6.3  訪問item
  6.4  計劃定時爬取
  6.5  本章小結
第7章  配置與管理
  7.1  使用Scrapy設置
  7.2  基本設置
    7.2.1  分析
    7.2.2  性能
    7.2.3  提前終止爬取
    7.2.4  HTTP緩存和離線運行
    7.2.5  爬取風格
    7.2.6  feed
    7.2.7  媒體下載
    7.2.8  Amazon Web服務
    7.2.9  使用代理和爬蟲
  7.3  進階設置
    7.3.1  項目相關設置
    7.3.2  Scrapy擴展設置
    7.3.3  下載調優
    7.3.4  自動限速擴展設置
    7.3.5  內存使用擴展設置
    7.3.6  日誌和調試
  7.4  本章小結
第8章  Scrapy編程
  8.1  Scrapy是一個Twisted應用
    8.1.1  延遲和延遲鏈
    8.1.2  理解Twisted和非阻塞I/O——一個Python故事
  8.2  Scrapy架構概述
  8.3  示例1:非常簡單的管道
  8.4  信號
  8.5  示例2:測量吞吐量和延時的擴展
  8.6  中間件延伸
  8.7  本章小結

第9章  管道秘訣
  9.1  使用REST API
    9.1.1  使用treq
    9.1.2  用於寫入Elasticsearch的管道
    9.1.3  使用Google Geocoding API實現地理編碼的管道
    9.1.4  在Elasticsearch中啟用地理編碼索引
  9.2  與標準Python客戶端建立資料庫介面
  9.3  使用Twisted專用客戶端建立服務介面
  9.4  為CPU密集型、阻塞或遺留功能建立介面
    9.4.1  處理CPU密集型或阻塞操作的管道
    9.4.2  使用二進位或腳本的管道
  9.5  本章小結
第10章  理解Scrapy性能
  10.1  Scrapy引擎——一種直觀方式
    10.1.1  級聯隊列系統
    10.1.2  定義瓶頸
    10.1.3  Scrapy性能模型
  10.2  使用telnet獲得組件利用率
  10.3  基準系統
  10.4  標準性能模型
  10.5  解決性能問題
    10.5.1  案例  #1:CPU飽和
    10.5.2  案例  #2:代碼阻塞
    10.5.3  案例  #3:下載器中的「垃圾」
    10.5.4  案例  #4:大量響應或超長響應造成的溢出
    10.5.5  案例  #5:有限/過度item併發造成的溢出
    10.5.6  案例  #6:下載器未充分利用
  10.6  故障排除流程
  10.7  本章小結
第11章  使用Scrapyd與實時分析進行分散式爬取
  11.1  房產的標題是如何影響價格的
  11.2  Scrapyd
  11.3  分散式系統概述
  11.4  爬蟲和中間件的變化
    11.4.1  索引頁分片爬取
    11.4.2  分批爬取URL
    11.4.3  從設置中獲取初始URL
    11.4.4  在Scrapyd伺服器中部署項目
  11.5  創建自定義監控命令
  11.6  使用Apache Spark流計算偏移量
  11.7  運行分散式爬取
  11.8  系統性能
  11.9  關鍵要點
  11.10  本章小結
附錄A  必備軟體的安裝與故障排除

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032