Що таке краулінга і як управляти роботами

Як працює сканування (краулінга) сайту?
Як краулер бачить сайт
Як управляти скануванням сторінок
Заборона сканування сайту
Управління частотою сканування сайту
висновки

Видача відповідей на пошуковий запит на сторінці пошуку за частку секунди тільки верхівка айсберга. У «чорному ящику» пошукових систем - проскановані і занесені в спеціальну базу даних мільярди сторінок, які відбираються для подання з урахуванням безлічі факторів.

Сторінка з результатами пошуку формується в результаті трьох процесів:

сканування;
індексування;
надання результатів (складається з пошуку за індексом і ранжирування сторінок).

У цьому випуску «Абетки SEO» мова піде про скануванні або краулінга сторінок сайту.

Як працює сканування (краулінга) сайту?

Якщо коротко, краулінга (сканування, crawling) - процес виявлення і збору пошуковим роботом (краулер) нових і оновлені сторінки для додавання в індекс пошукових систем. Сканування - початковий етап, дані збираються тільки для подальшої внутрішньої обробки (побудови індексу) і не відображаються в результатах пошуку. Просканувати сторінка не завжди виявляється проіндексованою.

Пошуковий робот (він же crawler, краулер, павук, бот) - програма для збору контенту в інтернеті. Краулер складається з безлічі комп'ютерів, на якій знаходяться і вибирають сторінки набагато швидше, ніж користувач за допомогою свого веб-браузера. Фактично він може запитувати тисячі різних сторінок одночасно.

Що ще робить робот-краулер:

Постійно перевіряє і порівнює список URL-адрес для сканування з URL-адресами, які вже знаходяться в індексі Google.
Прибирає дублікати в черзі, щоб запобігти повторному скачування однієї і тієї ж сторінки.
Додає на переіндексацію змінені сторінки для надання оновлених результатів.

При скануванні павуки переглядають сторінки і виконують перехід за що містяться на них посиланнях так само, як і звичайні користувачі. При цьому різний контент досліджується ботами в різній послідовності. Це дозволяє одночасно обробляти величезні масиви даних.

Наприклад, в Google існують роботи для обробки різного типу контенту:

Googlebot - основний пошуковий робот;
Googlebot News - робот для сканування новин;
Googlebot Images - робот для сканування зображень;
Googlebot Video - робот для сканування відео.

У статті про robots.txt ми зібрали повний перелік роботів-павуків. Знайомтеся :)

До речі, саме з robots.txt і починається процес сканування сайту - краулер намагається виявити обмеження доступу до контенту і посилання на карту сайту (Sitemap). У карті сайту повинні знаходитися посилання на важливі сторінки сайту. У деяких випадках пошуковий робот може проігнорувати цей документ і сторінки потраплять в індекс, тому конфіденційну інформацію потрібно закривати паролем безпосередньо на сервері .

Переглядаючи сайти, бот знаходить на кожній сторінці посилання і додає їх в свою базу. Робот може виявити ваш сайт навіть без розміщення посилань на нього на сторонніх ресурсах. Для цього потрібно здійснити перехід по посиланню з вашого сервера на інший. Тема HTTP-запиту клієнта «referer» буде містити URL джерела запиту і, швидше за все, збережеться в журналі джерел посилань на цільовому сервері. Отже, стане доступним для робота.

Як краулер бачить сайт

Якщо хочете перевірити, як робот-краулер бачить сторінку сайту, вимкніть обробку JavaScript при включеному отладчике в браузері. Розглянемо на прикладі Google Chrome:

1. Натискаємо F12 - викликаємо вікно відладчика, переходимо в настройки.

2. Відключаємо JavaScript і перезавантажуємо сторінку.

Якщо в цілому на сторінці збереглася основна інформація, посилання на інші сторінки сайту і виглядає вона приблизно так само, як і з включеним JavaScript, проблем зі скануванням не повинно виникнути.

Другий спосіб - використовувати інструмент Google «Переглянути як Googlebot» в Search Console.

Якщо краулер бачить вашу сторінку так само, як і ви, проблем зі скануванням не виникне.

Третій метод - спеціальне програмне забезпечення. наприклад http://pr-cy.ru/simulator/ відображає програмний код, який робот бачить на сторінці, а Netpeak Spider показує більше 50 різних видів помилок, знайдених при скануванні, і розділяє їх за ступенем важливості.

Якщо сторінка не відображається так, як ви очікували, варто перевірити, чи доступна вона для сканування: чи не заблокована вона в robots.txt, в файлі .htaccess.

Проблеми зі скануванням можуть виникати, якщо сайт створений за допомогою технологій Javascript і Ajax , Так як пошукові системи поки насилу сканують подібний контент.

Як управляти скануванням сторінок

Запуск і оптимізація сканування сайту

Існує кілька методів запросити робота-павука до себе на сайт:

Дозволити сканування сайту, якщо він був запаролено на сервері, і передати інформацію про URL c допомогою HTTP-заголовка «referer» при переході на інший ресурс.
Розмістити посилання на ваш сайт на іншому ресурсі, наприклад, в соцмережах.
Зареєструватися в панелях вебмайстрів Google і Яндекс.
Повідомити про сайті пошуковій системі безпосередньо через кабінети вебмайстрів пошукових систем:

Використовувати внутрішню перелинковку сторінок для поліпшення навігації і сканування ресурсу, наприклад, хлібні крихти.
Створити карту сайту з потрібним списком сторінок і розмістити посилання на карту в robots.txt.

Заборона сканування сайту

Для обмеження сканування контенту слід захистити каталогів сервера паролем. Це простий і ефективний спосіб захисту конфіденційної інформації від ботів.
Ставити обмеження в robots.txt.
Використовувати метатег <meta name = "robots" />. За допомогою директиви "nofollow" варто заборонити перехід по посиланнях на інші сторінки.
Використовувати HTTP-заголовок X-Robots tag. Заборона на сканування з боку сервера здійснюється за допомогою HTTP заголовка X-Robots-tag: nofollow. Директиви, які застосовуються для robots.txt, підходять і для X-Robots tag.

Більше інформації про використанні http-заголовка в довідці для розробників .

Управління частотою сканування сайту

Googlebot використовує алгоритмічний процес для визначення, які сайти сканувати, як часто і скільки сторінок витягувати. Веб-майстер може надати допоміжну інформацію краулер за допомогою файлу sitemap, тобто за допомогою атрибутів:

<Lastmod> - дата внесення останніх змін;
<Changefreq> - ймовірна частота змін сторінки;
<Priority> - пріоритетність.

На жаль, значення цих атрибутів розглядаються роботами як підказка , А не як команда, тому в Google Search Console і існує інструмент для ручної відправки запиту на сканування.

висновки

Різний контент обробляється ботами в різній послідовності. Це дозволяє одночасно обробляти величезні масиви даних.
Для поліпшення процесу сканування потрібно створювати карти сайтів і робити внутрішню перелинковку - щоб бот зміг знайти всі важливі сторінки.
Закривати інформацію від індексування краще за допомогою метатега <meta name = "robots" content = "nofollow" /> або http-заголовка X-Robot tag, так як файл robots.txt містить лише рекомендації по скануванню, а не прямі команди до дії.

Читайте більше про інструменти для парсинга сайту , Необхідних SEO-фахівця в рутинній роботі.

Як працює сканування (краулінга) сайту?
Як працює сканування (краулінга) сайту?