robots.txt у WordPress - CybMeta

WordPress robots.txt
Агульныя, але далікатныя рэкамендацыі
Зменіце robots.txt у WordPress

Файл robots.txt і яго інструкцыі - гэта рэалізацыя так званага пратаколу выключэння робата ( Пратакол выключэння робатаў ).

Доўгі час я бачыў, як файл robots.txt выкарыстоўваўся ў мэтах SEO пры перакананні, што блакаванне адсочвання пэўных файлаў і каталогаў можа палепшыць пазіцыянаванне пошукавай сістэмы, альбо нават тое, што robots.txt можа заблакаваць шкоднасных робатаў.

SEO выгады, некаторыя, але ў канкрэтных выпадках. І ад блакавання робатаў, robots.txt нічога не блакуе.

WordPress robots.txt

Як я напісаў некалькі дзён таму ў WPSE , можна сказаць, што лепшым robots.txt для WordPress у цэлым з'яўляецца менавіта robots.txt, створаны WordPress . Змест па змаўчанні - з WordPress 4.4 і зараз (4.9.8):

Карыстальнік-агент: * Забараніць: / wp-admin / Дазволіць: /wp-admin/admin-ajax.php

У большасці выпадкаў вы не павінны звяртаць увагу на гэты файл. Robots.txt па змаўчанні ўжо добра:

Агульныя, але далікатныя рэкамендацыі

1. Заблакаваць wp-кантэнт, wp-ўключае, CSS, JS, выявы і іншыя рэсурсы

Вопыт карыстальніка - гэта паказчык, які мае значную вагу ў SEO, і яго інтэрпрэтацыя патрабуе, каб сканеры змогуць атрымаць доступ да ўсіх рэсурсаў вэб-старонкі, а не толькі да HTML.

Каб даць вам уяўленне пра тое, наколькі важна тое, што я хачу сказаць, у Google Search Console ёсць панэль, прысвечаная выключна інфармаванню аб старонках, на якіх знаходзяцца заблакаваныя рэсурсы :

Каб даць вам уяўленне пра тое, наколькі важна тое, што я хачу сказаць, у Google Search Console ёсць панэль, прысвечаная выключна інфармаванню аб старонках, на якіх знаходзяцца заблакаваныя рэсурсы :

Рэгістрацыя заблакаваных рэсурсаў у Google Search Console

Паглядзіце на тэкст на малюнку на папярэднім малюнку, гаворыцца:

Апрацоўка без пэўных рэсурсаў можа паўплываць на індэксаванне вэб-старонак.

Аднак у Інтэрнэце ўсё яшчэ лёгка знайсці падручнікі, у якіх рэкамендуецца заблакаваць адсочванне пэўных відаў рэсурсаў для паляпшэння SEO.

Напрыклад, у WordPress часта рэкамендуецца заблакаваць каталогі wp-include і wp-content, але менавіта тыя каталогі ўтрымліваюць рэсурсы, якія выкарыстоўваюцца ў публічнай частцы Інтэрнэту.

Калі вы не ведаеце, што робіце, і не маеце дакладнай і абгрунтаванай мэты, гэтыя каталогі не павінны быць заблакаваныя .

2. Robots.txt не блакуе любога робата

Нягледзячы на сваю назву, пратакол выключэння робата нічога не блакуе . Калі вы можаце атрымаць доступ да заблакаванага рэсурсу ў robots.txt, любы робат можа зрабіць гэта.

Калі вы сапраўды хочаце заблакаваць доступ да рэсурсу, вам прыйдзецца працаваць з іншымі інструментамі.

robots.txt змяшчае прыкметы , некаторыя робаты ідуць за імі, іншыя робаты гэтага не робяць. Напрыклад, сканеры з Google, Bing і іншых пошукавых сістэм звяртаюць увагу на гэтыя кіруючыя прынцыпы і не адсочваюць і не паказваюць, што не дазваляе robots.txt .

Але майце на ўвазе, што robots.txt нічога не блакуе ў строгім сэнсе, гэта пытанне таго, што праграмнае забеспячэнне робата хоча ігнараваць ці не так проста. Блакаванне спамераў, небяспечных і шкоднасных робатаў з robots.txt для мяне не мае вялікага сэнсу. І ўсё ж, гэта таксама вельмі простая рэкамендацыя знайсці ў Інтэрнэце.

3. Блакаванне адсочвання не заўсёды лепшы варыянт SEO

Як ужо згадвалася, сканеры асноўных пошукавых сістэм паважаюць паказанні, прыведзеныя ў файле robots.txt. Калі мы кажам яму не сканаваць што-небудзь, ён не будзе яго адсочваць і, такім чынам, не індэксуе яго таксама.

Але большую частку часу, з пункту гледжання SEO, мы сапраўды хочам, каб вы адсочвалі, але не паказвалі . Падумай пра гэта крыху.

Давайце прыклад, які я бачу вельмі ясна з іншай з найбольш распаўсюджаных рэкамендацый па SEO, WordPress і robots.txt: блакаваць адсочванне каналаў, тэгаў, укладанняў і г.д. Аднак значна лепш дазволіць пошукавым сістэмах адсочваць гэтыя старонкі, чытаць гэтыя дакументы і перайсці па спасылках, якія яны могуць утрымліваць у іншых частках Інтэрнэту.

З robots.txt вы можаце прадухіляць сканаванне і індэксаванне. Каб дазволіць адсочваць, але не індэксаваць, што цікава, значна лепш выкарыстоўваць наступныя загалоўкі noindex , альбо з HTTP загалоўкі X-Robots-Tag або з мета-тэгамі :

add_action ('template_redirect', function () {if (is_feed ()) {header ("X-Robots-Tag: follow, noindex");}});

Выкарыстоўваючы гэтыя загалоўкі, боты могуць чытаць гэтыя дакументы, нават калі яны не праіндэксаваныя , і, калі яны чытаюць іх, яны могуць перайсці па спасылках, якія ўтрымліваюць, павялічваючы магчымасць адкрыць усё змесціва вашага сайта і адсочваць хуткасць зместу .

Гэты метад можа быць выкарыстаны для любога рэсурсу, які мы выкарыстоўваем у інтэрфейсе, але індэксаванне якога не вельмі своечасовае.

Напрыклад, ён выкарыстоўваецца ў URL-адрасах API WP REST і ў URL-адрасах API AJAX (wp-admin / admin-ajax.php). Абодва яны з'яўляюцца URL-адрасамі, якія выкарыстоўваюцца ў інтэрфейсе, і таму іх трэба дазволіць сканаваць, не павінны быць заблакаваныя ў robots.txt , хоць яе індэксаванне не своечасовае і паведамляецца ў пошукавых сістэмах праз загалоўкі ці тэгі HTTP. мэта

Канкрэтны выпадак URL-адраса admin-ajax.php - вельмі добры прыклад. Звярніце ўвагу, што гэта было спецыяльна дазволена ў robots.txt па змаўчанні ў WordPress у якасці выключэння з каталога wp-admin, але калі вы правяраеце і аналізуеце загалоўкі HTTP, вы знойдзеце загаловак X-Robots-Tag: noindex.

Каталог wp-admin быў заблакаваны ў robots.txt у поўным аб'ёме, пакуль у версіі 4.4 з WordPress, Joost de Valk (Yoast.com) прапанавала выключыць файл admin-ajax.php , бо ён часта выкарыстоўваўся ў інтэрфейсе шматлікімі плягінамі і блакіраваўся ў robots.txt, выклікаючы памылкі ў Google Search Console. Таму яго можна прасачыць, хоць і не праіндэксаваць.

Зменіце robots.txt у WordPress

Нягледзячы на ўсе вышэйпералічанае, усё яшчэ можа быць шмат сітуацый, у якіх цалкам абгрунтавана мадыфікацыя robots.txt WordPress , хоць гэта не строга па прычынах SEO, значна менш для бяспекі.

WordPress стварае файл robots.txt на лета , файл robots.txt сапраўды не існуе фізічна, і для змены robots.txt трэба зрабіць з PHP з фільтр robots_txt ,

Напрыклад, уявіце, што вы хочаце, каб заблакаваць сканаванне каталога cgi-bin, каталога канкрэтнага убудовы, і дадаць спасылку на карту сайта :

add_filter ('robots_txt', функцыя ($ output) {$ output. = "Disallow: / cgi-bin / \ n"; $ output. = "Disallow: / wp-content / plugins / plugin-what-I-want-block / \ N "; $ output. =" Sitemap: ". site_url ('sitemap.xml')." "\ n"; вярнуць $ выхад;});

Гэта прывядзе да наступнага robots.txt (змест па змаўчанні плюс той, які дададзены ў код):

Карыстальнік-агент: * Забараніць: / wp-admin / Дазволіць: /wp-admin/admin-ajax.php Забараніць: / cgi-bin / Disallow: / wp-content / убудовы / убудова-я-жадаю-блок / Карта сайта: https://example.com/sitemap.xml

Вы таксама можаце заблакаваць усю тэчку убудоў, але дапусціць файлы .css і .js, дадаўшы наступныя радкі:

Карыстальнік-агент: * Забараніць: / wp-content / plugins / plugin-to-block / Дазволіць: /wp-content/plugins/plugin-a-block/*.css Дазволіць: / wp-content / plugins / plugin-a -block / *. js

Гэтыя змены ў robots.txt таксама могуць быць зроблены шляхам стварэння файла robots.txt і загрузкі яго на сервер, а не праз фільтр robots_txt, але пры стварэнні файла вы будзеце заблакаваць выкарыстанне robots.txt WordPress і любога ўбудова, які выкарыстоўваць

Напрыклад, большасць убудоў, якія ствараюць карты памяці, дадаюць адзін або некалькі запісаў у robots.txt з дапамогай API WordPress. Калі файл robots.txt сапраўды існуе, яны не змаглі зрабіць гэта.

Таму памятайце, што ў WordPress вы не павінны ствараць файл robots.txt на серверы непасрэдна , вы павінны працаваць праз API WordPress.

robots.txt у WordPress - CybMeta

WordPress robots.txt

Агульныя, але далікатныя рэкамендацыі

Зменіце robots.txt у WordPress

Спіс літаратуры