Абарона аб'ектаў - блакаванне непажаданых ботаў - Ahrefs і іншыя MajesticSEO
- Першая нафту robots.txt
- Блок разумна - падаць доступ толькі да абраным ботам
- Блякаваньне ботаў сервераў Nginx
У Інтэрнэце вы можаце знайсці прыклады вельмі доўгіх .htaccess запісаў, якія ўтрымліваюць найбольш папулярныя і тыя іншыя шукальнік. Я асабіста лічу, што стварэнне такіх запісаў не мае сэнсу, таму што файл .htaccess становіцца менш чытэльным. І ў гэтым файле могуць быць рознымі, напрыклад, больш за доўгія запісу. паскарэнне старонкі ,
Першая нафту robots.txt
Robots.txt тып файла ніколі не блакуе ботаў. Прычына простая. Гэта не заўсёды выконваецца. Так што не марнуйце свой час на такую гульню ў кошкі-мышкі.
Такім чынам, лепшы спосаб, таму што блякаваньне ўзроўню сервера - файл .htaccess.
Блок разумна - падаць доступ толькі да абраным ботам
Як я ўжо пісаў раней, гэта не мае ніякага сэнсу, каб стварыць доўгі спіс, проста таму, што бот пачне прадстаўляць іншую (напрыклад, розныя агента карыстальніка.), І мы павінны змяніць файл - шляхам дадання або рэдагавання адпаведнай радка. Не кажучы ўжо пра знаходжанне падыходных імёнаў.
На маім блогу, а таксама на іншых сайтах, хай усяго за тры Пошукавыя сістэмы: Google, Yahoo, Bing. Астатнія не маюць доступу да гэтай старонцы.
Так гэта выглядае ў файле .htaccess:
SetEnvIfNoCase User-Agent. * Google. * Search_robot SetEnvIfNoCase User-Agent. * Yahoo. * Search_robot SetEnvIfNoCase User-Agent. * BingBot. * Search_robot SetEnvIfNoCase User-Agent. * Mozilla. * Search_robot # браўзэр Order Deny, Allow Deny ад усіх Дазволіць ад акр = search_robot
Толькі некалькі радкоў :). Асабіста я лічу, што гэта вельмі элегантнае рашэнне.
Абнаўленне: Дзякуй Даміян, атрымліваецца, што вам яшчэ трэба дадаць адно правіла апрацоўваецца , каб браўзэр. На маім сэрвэры ён працуе правільна, але іншыя будуць адкідаць памылку 403.
Вядома, мы правяраем, ці працуе wszytsko правільна. Вы можаце зрабіць гэта з дапамогай завіток. Наступны код, каб праверыць, ці будзе бот Ahrefs мець доступ на наш сайт.
-A згарнуцца "AhrefsBot" http://seoninja.pl
Затым, у адказ на інфармацыю, якую мы атрымліваем у сувязі з адсутнасцю доступу да сайта - памылка 403.
Калі хто-то шукае, то боты Ahrefs і MajesticSEO наступным чынам:
Ahrefs (сумяшчальны; AhrefsBot / 2.0; + HTTP: //ahrefs.com/robot/) MajesticSEO (сумяшчальны; MJ12bot / v1.4.0; http://www.majestic12.co.uk/bot.php?+)
Блякаваньне ботаў сервераў Nginx
абнаўленне: каментары з'явілася версія для Nginx. Я не правяраў гэта. Ніжэй прыгожа адфарматаваны код.
HTTP карта {$ HTTP_USER_AGENT bad_bot $ 1 {па змаўчанні; Google ~ * ^ 0; ~ * ^ Yahoo 0; ~ * ^ BingBot 0; ~ * ^ Mozilla 0; ~ * ^ Googlebot 0; }}
Затым дадаць да сервера блока - канкрэтныя сайты:
Сервер {калі ($ bad_bot) {вярнуцца 444; }}
Дзякуючы Пятру для версіі для Nginx.
Php?