§ 01
Simple
简单易用
链式 API,十几行代码就能构建一个可工作的爬虫。
链式 API,十几行代码就能构建一个可工作的爬虫。
四大组件彼此独立,任一层都可以替换、扩展与测试。
内置线程池;切换 Redis Scheduler 即可扩展为分布式抓取。
@TargetUrl、@ExtractBy 让 POJO 既是模型也是爬虫描述。
XPath、CSS、正则、JsonPath 可组合使用,适应复杂页面结构。
结果可以流向 Console、文件、MySQL、Redis 或自定义 Pipeline。
┌──────────┐ ┌────────────┐ ┌─────────────┐ ┌──────────┐
│ SEEDS │──────▶│ SCHEDULER │──────▶│ DOWNLOADER │──────▶│ PAGE │
│ urls[] │ │ queue / dup│ │ http / proxy │ │ html dom │
└──────────┘ └──────┬─────┘ └──────┬──────┘ └────┬─────┘
│ │ │
│ push new urls │ fetch response │ parse
▼ ▼ ▼
┌────────────┐ ┌─────────────┐ ┌────────────┐
│ PROCESSOR │◀──────│ selectors │─────▶│ result item │
│ user logic │ │ css/xpath │ │ fields │
└──────┬─────┘ └─────────────┘ └────┬───────┘
│ │
▼ ▼
┌────────────┐ ┌─────────────┐ ┌────────────┐
│ PIPELINE │──────▶│ file/mysql │─────▶│ done │
│ custom out │ │ redis/kafka │ │ persisted │
└────────────┘ └─────────────┘ └────────────┘