Абарона аб'ектаў - блакаванне непажаданых ботаў - Ahrefs і іншыя MajesticSEO

  1. Першая нафту robots.txt
  2. Блок разумна - падаць доступ толькі да абраным ботам
  3. Блякаваньне ботаў сервераў Nginx

У Інтэрнэце вы можаце знайсці прыклады вельмі доўгіх .htaccess запісаў, якія ўтрымліваюць найбольш папулярныя і тыя іншыя шукальнік. Я асабіста лічу, што стварэнне такіх запісаў не мае сэнсу, таму што файл .htaccess становіцца менш чытэльным. І ў гэтым файле могуць быць рознымі, напрыклад, больш за доўгія запісу. паскарэнне старонкі ,

Першая нафту robots.txt

Robots.txt тып файла ніколі не блакуе ботаў. Прычына простая. Гэта не заўсёды выконваецца. Так што не марнуйце свой час на такую ​​гульню ў кошкі-мышкі.

Такім чынам, лепшы спосаб, таму што блякаваньне ўзроўню сервера - файл .htaccess.

Блок разумна - падаць доступ толькі да абраным ботам

Як я ўжо пісаў раней, гэта не мае ніякага сэнсу, каб стварыць доўгі спіс, проста таму, што бот пачне прадстаўляць іншую (напрыклад, розныя агента карыстальніка.), І мы павінны змяніць файл - шляхам дадання або рэдагавання адпаведнай радка. Не кажучы ўжо пра знаходжанне падыходных імёнаў.

На маім блогу, а таксама на іншых сайтах, хай усяго за тры Пошукавыя сістэмы: Google, Yahoo, Bing. Астатнія не маюць доступу да гэтай старонцы.

Так гэта выглядае ў файле .htaccess:

SetEnvIfNoCase User-Agent. * Google. * Search_robot SetEnvIfNoCase User-Agent. * Yahoo. * Search_robot SetEnvIfNoCase User-Agent. * BingBot. * Search_robot SetEnvIfNoCase User-Agent. * Mozilla. * Search_robot # браўзэр Order Deny, Allow Deny ад усіх Дазволіць ад акр = search_robot

Толькі некалькі радкоў :). Асабіста я лічу, што гэта вельмі элегантнае рашэнне.

Абнаўленне: Дзякуй Даміян, атрымліваецца, што вам яшчэ трэба дадаць адно правіла апрацоўваецца , каб браўзэр. На маім сэрвэры ён працуе правільна, але іншыя будуць адкідаць памылку 403.

Вядома, мы правяраем, ці працуе wszytsko правільна. Вы можаце зрабіць гэта з дапамогай завіток. Наступны код, каб праверыць, ці будзе бот Ahrefs мець доступ на наш сайт.

-A згарнуцца "AhrefsBot" http://seoninja.pl

Затым, у адказ на інфармацыю, якую мы атрымліваем у сувязі з адсутнасцю доступу да сайта - памылка 403.

Калі хто-то шукае, то боты Ahrefs і MajesticSEO наступным чынам:

Ahrefs (сумяшчальны; AhrefsBot / 2.0; + HTTP: //ahrefs.com/robot/) MajesticSEO (сумяшчальны; MJ12bot / v1.4.0; http://www.majestic12.co.uk/bot.php?+)

Блякаваньне ботаў сервераў Nginx

абнаўленне: каментары з'явілася версія для Nginx. Я не правяраў гэта. Ніжэй прыгожа адфарматаваны код.

HTTP карта {$ HTTP_USER_AGENT bad_bot $ 1 {па змаўчанні; Google ~ * ^ 0; ~ * ^ Yahoo 0; ~ * ^ BingBot 0; ~ * ^ Mozilla 0; ~ * ^ Googlebot 0; }}

Затым дадаць да сервера блока - канкрэтныя сайты:

Сервер {калі ($ bad_bot) {вярнуцца 444; }}

Дзякуючы Пятру для версіі для Nginx.

Php?