4.3 Збереження результатів
Ну добре, сканери пошукача написано, і тепер стає питання: Як зібрані результати зберігти у будь-яке сховище?
Компонент WebMagic для зберігання результатів називається інфопровод Pipeline
.
Наприклад, ми вирішили це виводити в консолі через вбудований інфопровод Pipeline
- питання вирішує ConsolePipeline
- компонент.
А якщо тепер я хочу, щоб зберегти результати пошукача у форматі JSON, як це зробити? Мені просто потрібно замінити Pipeline
- на JsonFilePipeline
.
public static void main(String[] args) {
Spider.create(new GithubRepoPageProcessor())
// From "https://github.com/code4craft" began to grasp
/// Починати роботу пошукачем зі сторінки "https://github.com/code4craft"
.addUrl("https://github.com/code4craft")
/// Зберегати результати пошукача у форматі JSON
.addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
// Open 5 threads of Crawl
/// Дозволити 5 потоків пошукача
.thread(5)
// Start Crawl
/// Запускаємо пошукач
.run();
}
У прикладі - ця загрузка буде збережена на диску D: у каталозі webmagic.
Змінюючи інфопровод, можна домогтися збереження результатів в файл, базу даних та інше. Детальніше будемо ознайомитись у Частині 6.1 Налаштування інфопроводу Pipeline.
Нарешті ми завершили базову підготовку пошукача, хоча ще є декілька функцій настройки.