Все про robots.txt для новачків

Що таке robots.txt і навіщо він потрібен?
«User-agent:» - основна директива robots.txt
Команда «Disallow:" - заборона індексації в robots.txt
Команда «Allow:» - дозвіл індексації в robots.txt
Директиви «Host:» і «Sitemap:»
Файл robots.txt готовий - що далі?

Успішна індексація нового сайту залежить від багатьох складових. Один з них - файл robots.txt, з правильним заповненням якого повинен бути знаком будь-який початківець веб-майстер.

Що таке robots.txt і навіщо він потрібен?

Як свідчить сама назва, robots.txt це текстовий файл (документ у форматі .txt), що містить чіткі інструкції для індексації конкретного сайту. Інакше кажучи, даний файл вказує пошуковими системами, які сторінки веб-ресурсу необхідно проіндексувати, а які ні - заборонити до індексації.

Здавалося б, навіщо забороняти індексувати якесь вміст сайту? Мовляв, нехай пошуковий робот індексує всі без розбору, керуючись принципом: чим більше сторінок, тим краще! Так міркувати може лише дилетант від СЕО.

Так міркувати може лише дилетант від СЕО

Далеко не весь контент, з якого складається сайт, потрібен пошуковим роботам. Є системні файли, є дублікати сторінок, є рубрики ключових слів і багато чого ще є, що зовсім не обов'язково індексувати. В іншому випадку не виключена наступна ситуація.

Пошуковий робот, прийшовши до вас на сайт, першим боргом намагається відшукати горезвісний robots.txt. Якщо цей файл їм не виявлений або виявлений, але при цьому він складений неправильно (без необхідних заборон), «посланник» пошукової системи починає вивчати сайт на свій власний розсуд.

У процесі такого вивчення він індексує всі підряд і далеко не факт, що починає він з тих сторінок, які потрібно вводити в пошук в першу чергу (нові статті, огляди, фотозвіти і т.д.). Природно, що в такому разі індексація нового сайту може дещо затягнутися.

Щоб уникнути такої незавидною долі, веб-майстру необхідно вчасно подбати про створення правильного файлу robots.txt.

«User-agent:» - основна директива robots.txt

На практиці в robots.txt за допомогою спеціальних термінів прописуються директиви (команди), головною серед яких можна вважати директиву «User-agent:». Остання використовується для конкретизації пошукового робота, якому в подальшому будуть даватися ті чи інші вказівки. наприклад:

User-agent: Googlebot - все команди, які будуть після цієї базової директиви, стосуватиметься виключно пошукової системи Google (її індексуючему робота);
User-agent: Yandex - адресат в даному випадку вітчизняний пошуковик Яндекс.

У файлі robots.txt можна звернутися до всіх інших пошуковим системам разом узятим. Команда в цьому випадку буде виглядати так: User-agent: *. Під спеціальним символом «*» прийнято розуміти «будь-який текст». У нашому випадку - будь-які інші, крім Яндекса, пошуковики. Гугл, до речі, теж сприймає цю директиву на свій рахунок, якщо не звертатися особисто до нього.

Команда «Disallow:" - заборона індексації в robots.txt

Після основної директиви «User-agent:», зверненої до пошукових систем, можуть слідувати конкретні команди. У їх числі найпоширенішою можна вважати директиву «Disallow:». За допомогою цієї команди пошуковому роботу можна заборонити індексувати веб-ресурс цілком або якусь його частину. Все залежить від того, яке розширення буде у цієї директиви. Розглянемо приклади:

User-agent: Yandex Disallow: /

Такого роду запис у файлі robots.txt означає, що пошуковому роботу Яндекса взагалі не дозволено індексувати даний сайт, так як заборонний знак «/» коштує в гордій самоті і не супроводжується якимись уточненнями.

User-agent: Yandex Disallow: / wp-admin

Як видно, на цей раз уточнення є і стосуються вони системної папки wp-admin в CMS WordPress . Тобто індексує робот за допомогою даної команди (прописаному в ній шляху) відмовиться від індексації всієї цієї папки.

User-agent: Yandex Disallow: / wp-content / themes

Така вказівка роботу Яндекса передбачає його допуск у велику категорію «wp-content», в якій він може індексувати весь вміст, окрім «themes».

Досліджуємо «заборонені» можливості текстового документа robots.txt далі:

User-agent: Yandex Disallow: / index $

У даній команді, як випливає з прикладу, використовується ще один спеціальний знак «$». Його застосування підказує роботу, що не можна індексувати ті сторінки, в посиланнях яких є послідовність літер «index». При цьому індексувати окремий файл сайту з аналогічною назвою «index.php» роботу не заборонено. Таким чином, символ «$» застосовується в разі, коли необхідний виборчий підхід до заборони індексації.

Також в файлі robots.txt можна заборонити індексацію окремих сторінок ресурсу, в яких зустрічаються ті чи інші символи. Виглядати це може так:

User-agent: Yandex Disallow: * & *

Ця команда наказує пошуковому роботу Яндекс не індексувати всі ті сторінки веб-сайту, в URL-адресах яких зустрічається символ «&». Причому цей знак на засланні повинен стояти між будь-якими іншими символами. Однак може бути й інша ситуація:

User-agent: Yandex Disallow: * &

Тут заборона індексації стосується всіх тих сторінок, посилання яких закінчуються на «&».

Якщо із забороною індексації системних файлів сайту питань бути не повинно, то з приводу заборони індексувати окремі сторінки ресурсу такі можуть виникнути. Мовляв, навіщо це потрібно в принципі? Міркувань з цього приводу у досвідченого веб-майстри може бути багато, але головне з них - необхідність позбутися в пошуку від дублікатів сторінок. За допомогою команди «Disallow:» і групи спеціальних символів, розглянутих вище, боротися з «небажаними» сторінками можна досить просто.

Команда «Allow:» - дозвіл індексації в robots.txt

Антиподом попередньої директиви можна вважати команду «Allow:». За допомогою тих же самих уточнюючих елементів, але використовуючи дану команду в файлі robots.txt можна дозволити індексується роботу вносити потрібні вам елементи сайту в пошукову базу. На підтвердження - черговий приклад:

User-agent: Yandex Allow: / wp-admin

З якоїсь причини веб-майстер передумав і вніс відповідні коригування в robots.txt. Як наслідок, відтепер вміст папки wp-admin офіційно дозволено до індексації Яндексом.

Незважаючи на те, що команда «Allow:» існує, на практиці вона використовується не так вже й часто. За великим рахунком в ній немає потреби, оскільки вона застосовується автоматично. Власнику сайту досить скористатися директивою «Disallow:», заборонивши до індексації ту чи іншу його вміст. Після цього весь інший контент ресурсу, який не заборонений у файлі robots.txt, сприймається пошуковим роботом як такий, який індексувати можна і потрібно. Все як в юриспруденції: «Все, що не заборонено законом, - дозволено».

Директиви «Host:» і «Sitemap:»

Завершують огляд важливих директив в robots.txt команди «Host:» і «Sitemap:». Що стосується першої, то вона призначається виключно для Яндекса, вказуючи йому, яке дзеркало сайту (з www або без) вважати основним. На прикладі PR-CY.ru це може виглядати наступним чином:

User-agent: Yandex Host: pr-cy.ru

або ...

User-agent: Yandex Host: www.pr-cy.ru

Використання цієї команди також дозволяє уникати непотрібного дублювання вмісту сайту.

У свою чергу директива «Sitemap:» вказує індексуються роботу правильний шлях до так званої Карті сайту - файлів sitemap.xml і sitemap.xml.gz (у випадку з CMS WordPress). Гіпотетичний приклад може бути наступним:

User-agent: * Sitemap: http://pr-cy.ru/sitemap.xml Sitemap: http://pr-cy.ru/sitemap.xml.gz

Прописування даної команди у файлі robots.txt допоможе пошуковому роботу швидше проіндексувати Карту сайту. Це, в свою чергу, також прискорить процес потрапляння сторінок веб-ресурсу в пошукову видачу.

Файл robots.txt готовий - що далі?

Припустимо, що ви, як початківець веб-майстер, оволоділи всім масивом інформації, який ми навели вище. Що робити після? Створювати текстовий документ robots.txt з урахуванням особливостей вашого сайту. Для цього необхідно:

скористатися текстовим редактором (наприклад, Notepad) для складання потрібного вам robots.txt;
перевірити коректність створеного документа, наприклад, за допомогою даного сервісу Яндекса ;
за допомогою FTP-клієнта закачати готовий файл в кореневу папку свого сайту (в ситуації з WordPress мова зазвичай йде про системну папку Public_html).

Усе. Далі залишається тільки чекати, коли з'являться пошукові роботи, вивчать ваш robots.txt, а після - візьмуться за індексацію вашого сайту в прискореному режимі.

Так, мало не забули. Початківцю веб-майстру, поза всяким сумнівом, перш ніж експериментувати самому, захочеться спершу подивитися на готові приклади даного файлу у виконанні інших. Немає нічого простішого. Для цього в адресному рядку браузера досить ввести site.ru/robots.txt. Замість «site.ru» - назва цікавить вас ресурсу. Тільки і всього.

Вдалих експериментів і спасибі, що читали!

Txt і навіщо він потрібен?
Txt готовий - що далі?
Txt і навіщо він потрібен?
Здавалося б, навіщо забороняти індексувати якесь вміст сайту?
Мовляв, навіщо це потрібно в принципі?
Txt готовий - що далі?
Що робити після?