Table of Contents第 1 段:爬⾍原理与数据抓取爬⾍能做些什么 通⽤爬⾍和聚焦爬⾍ URL 的意义(了解)关于 HTTP 和HTTPS HTTP 代理⼯具Fidder HTTP 的请求与响应 urllib2:Python 的标准模块 案例:批量爬取⻚⾯数据 URLError 与HTTPError 附录:响应状态码详解第 2 段:⾮结构化数据与结构化数据提取数据提取之正则表达式 案例:使⽤正则表达式的爬⾍ 数据提取之 XPath 与lxml 库 案例:使⽤XPath 的爬⾍ 数据提取之 CSS 选择器 BeautifulSoup4 案例:使⽤bs4 的爬⾍ 数据提取之 JSON与 JsonPath第 3 段:爬⾍实践篇Requests: 让 HTTP 服务⼈类糗事百科案例 多线程糗事百科案例爬取站点⽹络⼩说国家⻝品药品监督管理总局案例课程⾛向第 4 段:Scrapy 框架 配置安装⼊⻔案例Scrapy ShellItem PipelineSpidersCrawlSpidersRequest/ResponseDownloader MiddlewaresSettings第 5 段:Scrapy 实战项⽬(案例⼀)⼿机 App 抓包爬⾍ (案例⼆)阳光热线问政平台爬⾍ (案例三)新浪⽹分类资讯爬⾍ (案例四)图⽚下载器爬⾍ (案例五)将数据保存在 MongoDB 中 附:通过Fiddler 进⾏⼿机抓包⽅法第 6 段:与动态 HTML 和验证码和的战争JavaScript Selenium 与PhantomJS 案例⼀:⽹站模拟登录 案例⼆:动态⻚⾯模拟点击 案例三:执⾏JavaScript 语句 机器视觉与 Tesseract 介绍处理⼀些格式规范的⽂字读取验证码与训练Tesseract 获取验证码提交答案第 7 段:scrapy-redis 源码分析参考:Connection 源码分析参考:Dupefilter 源码分析参考:Picklecompat 源码分析参考:Pipelines 源码分析参考:Queue 源码分析参考:Scheduler 源码分析参考:Spider第 8 段:scrapy-redis 实战源码⾃带项⽬说明 有缘⽹分布式爬⾍项⽬1 有缘⽹分布式爬⾍项⽬2第 9 段:scrapy-redis 实战 处理Redis⾥的数据 尝试改写新浪⽹分类资讯爬⾍1 尝试改写新浪⽹分类资讯爬⾍1第 10 段:scrapy-redis 实战 IT 桔⼦分布式项⽬1 IT 桔⼦分布式项⽬1
评论