1. Огляд WebMagic
WebMagic це простий пошуковий робот (краулер, веб-сайдер) розроблений на Java
.
WebMagic складається з двох частин: ядро core і розширення extension. Webmagic-ядро являє собою простий і з доброю модульною реалізацію пошукач та у поставці webmagic-розширення додано деякі зручні функцій для розробки пошукача.
Архітектура WebMagic-core заснова та описана в розділі Scrapy. Це предоставляє простий, але гнучкий API. Ви можете написати шукач просто, якщо ви знайомі з Java.
Поставка Webmagic-extension - це деякі зручні функції, такі як написання пошукача тільки з POJO анотаціями. Є також деякі дефолтні реалізації компонентів.
Webmagic також містить деякі інші розширення і комплексний продукт "WebMagic-Avalon".