Що таке краулінга і як управляти роботами
- Як працює сканування (краулінга) сайту?
- Як краулер бачить сайт
- Як управляти скануванням сторінок
- Заборона сканування сайту
- Управління частотою сканування сайту
- висновки
Видача відповідей на пошуковий запит на сторінці пошуку за частку секунди тільки верхівка айсберга. У «чорному ящику» пошукових систем - проскановані і занесені в спеціальну базу даних мільярди сторінок, які відбираються для подання з урахуванням безлічі факторів.
Сторінка з результатами пошуку формується в результаті трьох процесів:
- сканування;
- індексування;
- надання результатів (складається з пошуку за індексом і ранжирування сторінок).
У цьому випуску «Абетки SEO» мова піде про скануванні або краулінга сторінок сайту.
Як працює сканування (краулінга) сайту?
Якщо коротко, краулінга (сканування, crawling) - процес виявлення і збору пошуковим роботом (краулер) нових і оновлені сторінки для додавання в індекс пошукових систем. Сканування - початковий етап, дані збираються тільки для подальшої внутрішньої обробки (побудови індексу) і не відображаються в результатах пошуку. Просканувати сторінка не завжди виявляється проіндексованою.
Пошуковий робот (він же crawler, краулер, павук, бот) - програма для збору контенту в інтернеті. Краулер складається з безлічі комп'ютерів, на якій знаходяться і вибирають сторінки набагато швидше, ніж користувач за допомогою свого веб-браузера. Фактично він може запитувати тисячі різних сторінок одночасно.
Що ще робить робот-краулер:
- Постійно перевіряє і порівнює список URL-адрес для сканування з URL-адресами, які вже знаходяться в індексі Google.
- Прибирає дублікати в черзі, щоб запобігти повторному скачування однієї і тієї ж сторінки.
- Додає на переіндексацію змінені сторінки для надання оновлених результатів.
При скануванні павуки переглядають сторінки і виконують перехід за що містяться на них посиланнях так само, як і звичайні користувачі. При цьому різний контент досліджується ботами в різній послідовності. Це дозволяє одночасно обробляти величезні масиви даних.
Наприклад, в Google існують роботи для обробки різного типу контенту:
- Googlebot - основний пошуковий робот;
- Googlebot News - робот для сканування новин;
- Googlebot Images - робот для сканування зображень;
- Googlebot Video - робот для сканування відео.
У статті про robots.txt ми зібрали повний перелік роботів-павуків. Знайомтеся :)
До речі, саме з robots.txt і починається процес сканування сайту - краулер намагається виявити обмеження доступу до контенту і посилання на карту сайту (Sitemap). У карті сайту повинні знаходитися посилання на важливі сторінки сайту. У деяких випадках пошуковий робот може проігнорувати цей документ і сторінки потраплять в індекс, тому конфіденційну інформацію потрібно закривати паролем безпосередньо на сервері .
Переглядаючи сайти, бот знаходить на кожній сторінці посилання і додає їх в свою базу. Робот може виявити ваш сайт навіть без розміщення посилань на нього на сторонніх ресурсах. Для цього потрібно здійснити перехід по посиланню з вашого сервера на інший. Тема HTTP-запиту клієнта «referer» буде містити URL джерела запиту і, швидше за все, збережеться в журналі джерел посилань на цільовому сервері. Отже, стане доступним для робота.
Як краулер бачить сайт
Якщо хочете перевірити, як робот-краулер бачить сторінку сайту, вимкніть обробку JavaScript при включеному отладчике в браузері. Розглянемо на прикладі Google Chrome:
1. Натискаємо F12 - викликаємо вікно відладчика, переходимо в настройки.
2. Відключаємо JavaScript і перезавантажуємо сторінку.
Якщо в цілому на сторінці збереглася основна інформація, посилання на інші сторінки сайту і виглядає вона приблизно так само, як і з включеним JavaScript, проблем зі скануванням не повинно виникнути.
Другий спосіб - використовувати інструмент Google «Переглянути як Googlebot» в Search Console.
Якщо краулер бачить вашу сторінку так само, як і ви, проблем зі скануванням не виникне.
Третій метод - спеціальне програмне забезпечення. наприклад http://pr-cy.ru/simulator/ відображає програмний код, який робот бачить на сторінці, а Netpeak Spider показує більше 50 різних видів помилок, знайдених при скануванні, і розділяє їх за ступенем важливості.
Якщо сторінка не відображається так, як ви очікували, варто перевірити, чи доступна вона для сканування: чи не заблокована вона в robots.txt, в файлі .htaccess.
Проблеми зі скануванням можуть виникати, якщо сайт створений за допомогою технологій Javascript і Ajax , Так як пошукові системи поки насилу сканують подібний контент.
Як управляти скануванням сторінок
Запуск і оптимізація сканування сайту
Існує кілька методів запросити робота-павука до себе на сайт:
- Дозволити сканування сайту, якщо він був запаролено на сервері, і передати інформацію про URL c допомогою HTTP-заголовка «referer» при переході на інший ресурс.
- Розмістити посилання на ваш сайт на іншому ресурсі, наприклад, в соцмережах.
- Зареєструватися в панелях вебмайстрів Google і Яндекс.
- Повідомити про сайті пошуковій системі безпосередньо через кабінети вебмайстрів пошукових систем:
- Використовувати внутрішню перелинковку сторінок для поліпшення навігації і сканування ресурсу, наприклад, хлібні крихти.
- Створити карту сайту з потрібним списком сторінок і розмістити посилання на карту в robots.txt.
Заборона сканування сайту
- Для обмеження сканування контенту слід захистити каталогів сервера паролем. Це простий і ефективний спосіб захисту конфіденційної інформації від ботів.
- Ставити обмеження в robots.txt.
- Використовувати метатег <meta name = "robots" />. За допомогою директиви "nofollow" варто заборонити перехід по посиланнях на інші сторінки.
- Використовувати HTTP-заголовок X-Robots tag. Заборона на сканування з боку сервера здійснюється за допомогою HTTP заголовка X-Robots-tag: nofollow. Директиви, які застосовуються для robots.txt, підходять і для X-Robots tag.
Більше інформації про використанні http-заголовка в довідці для розробників .
Управління частотою сканування сайту
Googlebot використовує алгоритмічний процес для визначення, які сайти сканувати, як часто і скільки сторінок витягувати. Веб-майстер може надати допоміжну інформацію краулер за допомогою файлу sitemap, тобто за допомогою атрибутів:
- <Lastmod> - дата внесення останніх змін;
- <Changefreq> - ймовірна частота змін сторінки;
- <Priority> - пріоритетність.
На жаль, значення цих атрибутів розглядаються роботами як підказка , А не як команда, тому в Google Search Console і існує інструмент для ручної відправки запиту на сканування.
висновки
- Різний контент обробляється ботами в різній послідовності. Це дозволяє одночасно обробляти величезні масиви даних.
- Для поліпшення процесу сканування потрібно створювати карти сайтів і робити внутрішню перелинковку - щоб бот зміг знайти всі важливі сторінки.
- Закривати інформацію від індексування краще за допомогою метатега <meta name = "robots" content = "nofollow" /> або http-заголовка X-Robot tag, так як файл robots.txt містить лише рекомендації по скануванню, а не прямі команди до дії.
Читайте більше про інструменти для парсинга сайту , Необхідних SEO-фахівця в рутинній роботі.
Як працює сканування (краулінга) сайту?Як працює сканування (краулінга) сайту?