4.3 Збереження результатів

Ну добре, сканери пошукача написано, і тепер стає питання: Як зібрані результати зберігти у будь-яке сховище?

Компонент WebMagic для зберігання результатів називається інфопровод Pipeline.

Наприклад, ми вирішили це виводити в консолі через вбудований інфопровод Pipeline - питання вирішує ConsolePipeline - компонент.

А якщо тепер я хочу, щоб зберегти результати пошукача у форматі JSON, як це зробити? Мені просто потрібно замінити Pipeline - на JsonFilePipeline.

public static void main(String[] args) {
    Spider.create(new GithubRepoPageProcessor())
            // From "https://github.com/code4craft" began to grasp
            /// Починати роботу пошукачем зі сторінки "https://github.com/code4craft"
            .addUrl("https://github.com/code4craft")
            /// Зберегати результати пошукача у форматі JSON
            .addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
            // Open 5 threads of Crawl
            /// Дозволити 5 потоків пошукача
            .thread(5)
            // Start Crawl
            /// Запускаємо пошукач
            .run();
}

У прикладі - ця загрузка буде збережена на диску D: у каталозі webmagic.

Змінюючи інфопровод, можна домогтися збереження результатів в файл, базу даних та інше. Детальніше будемо ознайомитись у Частині 6.1 Налаштування інфопроводу Pipeline.

Нарешті ми завершили базову підготовку пошукача, хоча ще є декілька функцій настройки.

results matching ""

    No results matching ""