Как проверить и получить проиндексированные URL-адреса и многое другое?

Итак, как работает индексирование?
Основные методы проверки индексации
Основная техника: поиск URL в Google, как мы делаем с помощью запроса
Сайт оператора команды: [URL]
Информационный оператор: [URL]
Оператор кэширования: [URL]
И тогда есть поисковая консоль ...
И поэтому вопрос уже не в том, проиндексирована ли страница, а в том, насколько она проиндексирована,...
Инструменты
индекс индекса против изучения логов
Перед вами открывается новая область исследования: смешивание корреляций, перекрестных проверок, сравнений...
Небольшой (ресурсосберегающий) метод для проведения корреляционных исследований
И чтобы получить все URL-адреса в индексе, как мы это делаем?

Из-за необходимости и любопытства я недавно попытался улучшить свой метод, чтобы исследовать пропасти Google, чтобы проверить индексацию сайта, URL-адрес для каждого URL-адреса и в полностью автоматическом режиме, само собой разумеется. И почему бы не вернуть все, что у него есть в желудке. Без пердежа, уровня информации и методологии на французском языке, это маленькая пустыня Гоби! Из консоли поиска с его голодными данными и записками, сделанными с помощью команды site , это walou! Эта статья, в которой сочетаются как новости, так и инструкции, включает в себя понимание того, как индексирование работает в Google, с одной стороны, и хорошее основание в SEO.

Те, кто до сих пор считал (я вхожу в это), что для выполнения высокоуровневых SEO-аудитов требуется 3D-представление (пересечение веб-сканирования + GA + логи), наверняка перейдут на 4D. прекрасная индексация. И самое главное, это способ приблизиться к тому, как Google оценивает наши страницы, что по-прежнему является одной из конечных целей SEO-провайдера.

Итак, как работает индексирование?

Как мы все знаем, робот Google должен без ограничений проходить по нашим страницам для их индексации. Поэтому мы делаем следующий ярлык: если URL сканируется роботом Google (см. Мою статью на анализ журнала ) это то, что оно проиндексировано. Но на самом деле не совсем! Решение о том, чтобы поместить URL в индекс и сделать его доступным для обнаружения, будет принято в процессе после сканирования. С другой стороны, URL, который никогда не сканировался роботом Google, теоретически очень маловероятно, чтобы он появлялся в поисковой выдаче.

Тогда есть понятия первичного и вторичного индекса . Это, вы увидите это потом, это что-то очень важное! Быстрое напоминание о разнице между ними: первичный индекс - это тот, который представляет страницы в результатах поиска, другими словами, тот, который запрашивается в 99,9% случаев. Вторичный индекс содержит страницы, которые Google считает неинтересными и особенно дублированными. По сути, вторичный индекс - это мусор Google , и когда ваши URL-адреса включены, многие считают его неиндексированным, даже если это не совсем так.

По сути, вторичный индекс - это мусор Google , и когда ваши URL-адреса включены, многие считают его неиндексированным, даже если это не совсем так

И еще есть известный кеш, который позволяет просматривать страницу, когда она не отвечает, например. Можно с уверенностью сказать, что кэшированная страница Google (см. Оператор команды кэширования: [URL]) проиндексирована. Но обратное не обязательно верно! Как и в случае вторичного индекса, Google не всегда считает полезным хранить страницы, кэшированные примерно по одним и тем же критериям. Таким образом, страница, недоступная в кеше, не означает, что ее нет в индексе.

Основные методы проверки индексации

Давайте сначала отложим аспект автоматизации. Приведенные ниже методы используются для ручной проверки индексации URL-адресов, и я немного подробнее расскажу об инструментах, которые автоматизируют все это, поскольку необходимо понять, на чем они основаны.

Основная техника: поиск URL в Google, как мы делаем с помощью запроса

Небольшое примечание: вам действительно нужно зайти на Google.fr и не использовать омнибокс стартовой страницы вашего браузера, который всегда передает все, что вы вводите в поле URL. Поэтому, если URL найден, он индексируется. Логика.

Сайт оператора команды: [URL]

Это очень распространенный метод перечисления проиндексированных страниц. Используя букмарклет или любой скребок, мы получаем список URL-адресов ... Увы, он совсем не надежен, потому что Google делает все, чтобы зашифровать и заблокировать восстановление. Методы пакетной проверки лучше, чем соскоб, я собираюсь приехать сюда ...

Достоинства оператора заказа сайтов: я его не очень вижу. Может быть один, если сайт: domaine.com отображает рейтинг, который будет иметь некоторую корреляцию со значением страницы (PageRank) по данным Google, но, очевидно, опять же, Google размыл волны. Тем не менее, если вы хотите быстро узнать, что Google имеет в желудке (просто количество результатов) в определенной области, это все еще интересно.

Неудобный оператор команды сайта: он отображает только URL-адреса первичного индекса (для принудительной установки параметра & filter = 0 в URL-адресе). Кроме того, Google добровольно ограничит результаты несколькими сотнями URL, даже если объем составляет тысячи URL. Таким образом, это решение совершенно потрясающее и неточное, если не исследовать мини-сайт с дюжиной URL-адресов.

Информационный оператор: [URL]

Это оператор команды «Одобрен Google», чтобы проверить, проиндексирована ли страница.
Большинство инструментов, которые предлагают функцию для проверки индексации массовых URL-адресов, таких как Scrapebox, используют команду info: [URL]. Обратите внимание, что эта команда возвращает канонический URL, если имплантирован канонический rel.

Преимущество информации об операторе заказа: насколько мне известно, это наиболее важный оператор, который проверяет, знает ли Google страницу или нет, если она не знает, к какому типу индекса она относится. Это уже хорошая информация.

Неудобная информация о команде оператора: она не делает различий между вторичным и первичным индексом! И если вы думаете, что нет проблем с индексацией под предлогом, что информация о команде находит URL, возможно, вы ошибаетесь ;-) Fatality, все инструменты для проверки индексации страницы таким образом и которые просто дают вам ответ да / нет, в лучшем случае неясны, в худшем случае вводят в заблуждение.

Оператор кэширования: [URL]

Это техника, которую я использовал в течение долгого времени, под тем предлогом, что кэшированная страница была обязательно признаком индексации ... Но она не идеальна, отнюдь нет!

Преимущество оператора команды cache: есть дата последнего кэширования. С другой стороны, в отличие от большинства моих коллег, я не буду говорить, что эта дата соответствует последнему прохождению робота Google, даже если мы можем предположить это.
Но есть еще одно преимущество (устраненное в недостатках): этот оператор становится индикатором признательности Google на наших страницах. Я буду развиваться дальше ...

Недостатки оператора управления кэшем: их несколько. Во-первых, на странице нет директивы noarchive (что не мешает индексации). Кроме того, произвольно Google не обязательно хранит кэшированную страницу, пока она «проиндексирована». Если он считает, что страница не имеет никакого смысла в кэшировании (представление о тонком содержимом, дублировании и т. Д.), То он зарезал ее. Фактически, вероятность того, что страница будет кэширована И во вторичном индексе, мала. С другой стороны, вполне возможно, что страница находится в первичном индексе (таким образом, можно найти), но не доступна в кеше.

И тогда есть поисковая консоль ...

Мы должны поговорить об этом, потому что Google предлагает нам информацию об индексации наших сайтов. Давайте скажем, что это имеет смысл дать глобальное видение. В «Индексе Google> статус индексации» мы имеем изменение объема проиндексированных страниц, но не зная, в каком именно индексе.

Существует также инструмент отправки файлов Sitemap в формате XML («Exploration> Sitemaps»), который дает нам объем отправленных и проиндексированных URL-адресов. Это очень популярный метод проверки индексации сайта, за исключением того, что опять-таки нет детализации URL для каждого URL, и априори принимается во внимание только первичный индекс.

Это очень популярный метод проверки индексации сайта, за исключением того, что опять-таки нет детализации URL для каждого URL, и априори принимается во внимание только первичный индекс

Именно методика карты сайта заставила меня разобраться с предметом индексации: клиент был удивлен, что некоторые из его страниц не проиндексировали себя, даже со временем и неожиданно повторно представив. И немного покопавшись с операторами команд кэша и информацией, я быстро понял, что пакет URL-адресов был вторичным индексом, с проблемами дублирующегося контента.

И поэтому вопрос уже не в том, проиндексирована ли страница, а в том, насколько она проиндексирована, посмотрите, почему она плохо проиндексирована!

Оттуда все связано ...

Если технически возможно количественно определить И идентифицировать объем URL в первичном и вторичном индексе, и даже с кэшированными и некэшированными URL, все в сочетании с анализом журналов, мы подходим к ближе к тому, как Google оценивает наши страницы ... в то время как последний пытается дать нам очень частичное признание в своей поисковой консоли. Это дает вам немного засыпать, но не слишком много, чтобы не дать вам слишком много шаров, чтобы сделать лук для SEO ... Давай, доставь мне удовольствие, давай немного поищем эту консоль!

Прекрасное и детальное изучение индексации становится отличным индикатором скудного контента и, кстати, оружием против Google Panda .

Инструменты

Большинство инструментов, используемых для проверки индексации, делают это в основном с помощью команды оператора. Это лучше, чем ничего, но неточно. Большинство инструментов ... кроме одного (насколько мне известно): URLProfiler ,

Тем не менее, вы можете достичь того же результата с другими инструментами, включая скребки, такие как RDDZ Scraper или Scrapebox, но поскольку методология не интегрирована изначально, вы будете бороться и потреблять больше прокси.

Как работает URLProfiler для проверки индексации?

В основном, процедура в несколько проходов выглядит следующим образом:

Ищите URL в Google так же, как мы выполняем классический поиск в Google.fr. Если есть результат, URL индексируется в первичном индексе и, следовательно, доступен для поиска. Нет необходимости делать какие-либо другие тесты, кроме проверки, что страница кэшируется и получить дату.
Информационный оператор: используется для всех URL, которые не дали результата на предыдущем шаге. Отсюда мы вычитаем, индексируется ли URL-адрес или нет, можно ли его найти или нет, короче говоря, находится ли он в первичном или вторичном индексе.
Оператор кэширования: проверьте и получите кэшированную дату, если она доступна.

Затем Bouzin выполняет экспорт в Excel со всей этой информацией. Процедура очень интересная, поскольку первый шаг мало чувствителен к массовым запросам в Google, экономит прокси и ускоряет время обработки. Я советую вам прочитать учебник английского языка что объясняет все это более подробно.

Абсолютно нужно иметь хорошие прокси! Как только необходимо исследовать Google с помощью командных операторов, мы должны очень быстро получить Captcha и сжечь его IP. Вы неизбежно положите руку в карман, чтобы купить дюжину анонимных прокси, частных и неизвестных Google. Я могу рекомендовать myprivateproxy.net или anonymous-proxies.net для хорошего возвращения. После необходимо оценить соотношение количества прокси / тома URL. С 11 прокси я могу проверить 2000 URL, но с шагом 200 и 15 / 20мн пауза между каждой операцией. Если в конце я получаю сообщение «Сбой соединения», я проверяю все эти URL позже.

Здесь у вас есть карты (включая CB) для проверки индексации ваших URL. Чем больше ваш проект, тем больше времени и денег (прокси) потребуется для любой проверки.

Чтобы ограничить ненужные затраты, есть небольшая хитрость: выполните сканирование своего сайта с помощью Screaming Frog или любого другого сканера, чтобы восстановить данные из Google Analytics через API для сбора сегмента записей (сеансов GA) органика »на пляже несколько месяцев. С того момента, как URL получает органические записи, он обнаруживается и индексируется в первичном индексе. Если вам не нужна дата кэширования, вам не нужно отправлять их в URLProfiler для проверки индексации. Вы сэкономите много мрамора.

индекс индекса против изучения логов

Для выездных аудитов и, в частности, для целевого "Пагина нон грата" это может быть источником панды или других подобных вещей, два индикатора предлагают отличную взаимодополняемость, что я люблю называть «видение 4D» . Но глубокое изучение индексации имеет то преимущество, что вы можете практиковаться на любом сайте! Если вы не очень странный человек, вы не будете просить своих конкурентов предоставить вам свои файлы журналов;) С другой стороны, вы можете очень хорошо оценить соотношение проиндексированных / неиндексированных / первичных / вторичных страниц и т. Д.

Перед вами открывается новая область исследования: смешивание корреляций, перекрестных проверок, сравнений ...

Мне все больше нравится делать корреляции с конкурирующими сайтами. Более того, я думаю, что Google делает то же самое, чтобы судить о сайте: он делает это не только по абсолютным критериям, но и по отношению к аналогичным сайтам. Например, критическая частота дублирования внешнего контента может варьироваться от одной ниши к другой. Кроме того, интересно оценить индексацию своего сайта по сравнению с конкурентами. Это очень информативно, и особенно позволяет хорошо настроить свою цель, чтобы преследовать панду;)

Небольшой (ресурсосберегающий) метод для проведения корреляционных исследований

Идея состоит в том, чтобы найти сайты, которые лучше всего подходят для вашей темы. Я предпочитаю это основному запросу, потому что не обязательно один. Для этого я использую очень хороший Yooda Insight :

Затем я возвращаю первые наиболее заметные сайты ... Скажем 4 или 5.

Затем я запускаю сканирование с помощью Screaming Frog SEO Spider на каждом из сайтов. Если я столкнусь с большими проектами, то остановлю процесс на 10000 URL. Этого достаточно, чтобы получить представление о состоянии индексации. На внутренней вкладке (фильтр HTML) я сортирую столбец «Количество слов» в порядке возрастания, чтобы сохранить (скопировать / вставить или экспортировать) 200 URL-адресов с наименьшим содержанием. Но будьте осторожны, вы должны:

Будьте внимательны к robots.txt (см. Настройки SF)
Следуйте директивам noindex и используйте только индексируемые URL
Только URL в коде состояния 200
... все, что может попасть в индекс Google.

Ты следишь за мной до сих пор? Есть общая цель, где я экономлю ресурсы, сосредотачиваясь на «тонком контенте». Каждый сайт должен соответствовать одному и тому же протоколу, включая ваш. Вы можете сделать свои собственные правила, здесь нет ничего строгого.

Наконец, вам нужно только оценить индексацию каждого сайта с помощью URL Profiler, а затем сравнить статистику каждого сайта.

Понятие «тонкий контент» неразрывно связано с объемом слов на страницу / текст. Это не столько количество, сколько качество. Для Google акцент делается на отсутствие добавленной стоимости, способ монетизации, сгенерированный автоматический контент и т. Д. Таким образом, мой протокол, рассмотренный выше, остается совершенным.

На сегодняшний день и после нескольких исследований, проведенных на некоторых сайтах с использованием постного контента, на самом деле нет никакой корреляции между индексированными / неиндексированными страницами рейтинга и соотношения. Я часто вижу сайты в топ-5 с большим количеством страниц, почти пустых по содержанию и не проиндексированных ... Репутация бренда быстро берет на себя некоторые технические аспекты.

С другой стороны, существует намного более сильная корреляция, если смотреть на соотношение кэшированных / кэшированных страниц только на проиндексированных URL. У меня нет средств для проведения исследований в Searchmetrics, поэтому я приглашаю вас пройти тесты на вашей стороне, но я все больше думаю, что оценка соотношения «кэшированные страницы / не кэшированные» на Индексированный пул URL - лучший радар тонкого контента. В сочетании с изучением бревен он становится хирургическим :)

И чтобы получить все URL-адреса в индексе, как мы это делаем?

Тема уже обсуждалась на Оливье Андрие , Очевидно, что нет возможности сделать это исчерпывающе, и это требует некоторых технических вращений ... Если, как и я, вы любите готовить DATA, то это не должно быть препятствием. Насколько мне известно, лучшее решение заключается в восстановлении журналов, если это возможно через 3 или 4 месяца. Если страница получает хиты от Googlebot, это известно Google. Вы следовали тому, что было сказано раньше? «Известный» не обязательно означает индексированный! Затем мы можем скрестить с данными сканирования, все мимо URL Profiler, короткие часы игры :)

Последнее слово в Google Panda: я говорю об этом, я говорю об этом, но, по-моему, его больше не существует. Диагностировать его становится очень трудно, он более или менее интегрирован с алгоритмом, более или менее в режиме реального времени, но также и на сайт может очень негативно повлиять постное содержание, независимо от панды! Не говоря уже о медленном разрушении позиций, которые предотвращают любое перекрытие с любыми известными обновлениями алгоритма. Поэтому я не пытаюсь узнать, затронут ли сайт этим фильтром. Я анализирую ценность контента и его аппетит. Точка.

Хочу поблагодарить Бруно Гайо ( @ChablaisWeb ) который позволил мне обнаружить эту улучшенную функцию URL Profiler, спасибо также Янну ( @omnireso ) который любезно поделился одним из своих ведущих проектов в области панды, чтобы прокормить мои исследования и разработки, и, конечно же, благодаря URL Profiler, и эта статья в частности что открыло мне глаза.

Итак, как работает индексирование?
Итак, как работает индексирование?
Как работает URLProfiler для проверки индексации?
Ты следишь за мной до сих пор?
Вы следовали тому, что было сказано раньше?