Introduction
1. WebMagic概览
1.1 设计思想
1.2 总体架构
1.3 项目组成
2. 快速开始
2.1 使用Maven
2.2 不使用Maven
2.3 第一个爬虫项目
3. 下载和编译源码
3.1 下载源码
3.2 导入项目
3.3 编译和执行源码
4. 编写基本的爬虫
4.1 实现PageProcessor
4.2 使用Selectable抽取元素
4.3 使用Pipeline保存结果
4.4 爬虫的配置、启动和终止
4.5 Jsoup与Xsoup
4.6 爬虫的监控
4.7 配置代理(beta)
4.8 处理非HTTP GET请求(beta)
5. 使用注解编写爬虫
5.1 编写Model类
5.2 TargetUrl与HelpUrl
5.3 使用ExtractBy进行抽取
5.4 在类上使用ExtractBy
5.5 结果的类型转换
5.6 一个完整的流程
5.7 AfterExtractor
6. 组件的使用和定制
6.1 使用和定制Pipeline
6.2 使用和定制Scheduler
6.3 使用和定制Downloader
附录:实例分析
列表+详情的基本页面组合
抓取前端渲染的页面
本書使用 GitBook 釋出
附录:实例分析
附录:实例分析
即使你对WebMagic的框架已经很熟练了,也会对有些爬虫的编写有些迷茫。比如如何定期抓取并更新、如何抓取动态渲染的页面等。
这一节我会整理一些常见案例,希望对读者有帮助。
results matching "
"
No results matching "
"