Все о статусе «Страница просканирована, но пока не проиндексирована» в Google
В справочной документации Google определяет этот статус так:
«Страница просканирована, но пока не проиндексирована. В дальнейшем она может быть проиндексирована, а может и остаться в текущем состоянии; вновь отправлять этот URL на сканирование не нужно».
Обычно это объяснение не сильно помогает, особенно если это касается важной для бизнеса страницы. Google не проясняет, что именно случилось, и что может сделать владелец сайта. Он лишь говорит, что Googlebot просканировал страницу, но по какой-то причине решил ее не индексировать.
Согласно нашим данным, статус «Страница просканирована, но пока не проиндексирована» – это самая частая ошибка в отчете об индексировании. Это значит, что вы или уже сталкивались с ней, или столкнетесь в будущем.
Очень важно решить эту проблему максимально быстро: если страница не проиндексирована, она не будет появляться в результатах поиска и не получит органического трафика из Google.
В этой статье мы рассмотрим возможные причины возникновения этой ошибки и разберемся, как их устранить.
Где найти этот статус
Этот статус можно увидеть в отчете об индексировании и в инструменте проверки URL в Search Console.
Отчет об индексировании
URL со статусом «Страница просканирована, но пока не проиндексирована» относится к категории исключенных, и Google не считает отсутствие этой страницы в индексе ошибкой.
В Справке этот статус определяется так:
«Исключено. Страница не проиндексирована, скорее всего потому, что таково было ваше решение. В частности, это может быть связано с тем, что страница исключена вами при помощи директивы noindex или является копией уже проиндексированной канонической страницы».
Прим. ред.: интересно, что в англоязычной версии Справки упор делается на решение Google, а не владельца сайта: «These pages are typically not indexed, and we think that is appropriate. These pages are either duplicate of indexed pages, or blocked from indexing by some mechanism on your site, or otherwise not indexed for a reason that we think is not an error». При переводе этот смысл потерялся, но именно на него ориентируется автор статьи.
После клика по статусу «Страница просканирована, но пока не проиндексирована» отображается список всех таких URL. В первую очередь нужно будет заняться теми страницами, которые являются наиболее ценными для сайта.
Отчет также можно выгрузить. Однако экспортировать можно лишь до 1000 URL. Если затронуто больше страниц, то можно увеличить количество экспортируемых URL, отфильтровав их по Sitemap. Например, если у сайта два файла Sitemap, в каждом из которых по 1000 URL, то их можно будет скачать по отдельности.
Инструмент проверки URL
Найти страницы со статусом «Страница просканирована, но пока не проиндексирована» также можно с помощью инструмента проверки URL в Search Console.
Верхний раздел отчета показывает, может ли страница быть найдена в Google. Если в отчете об индексировании проверяемый URL отнесен к категории «Исключено» , то инструмент сообщит, что страница отсутствует в индексе, но это не связано с ошибкой.
Ошибка в отчетности: страница на самом деле может быть проиндексирована
Заметив статус «Страница просканирована, но пока не проиндексирована», первое, что нужно сделать – проверить, действительно ли страницы нет в индексе. Нередко можно увидеть, что страница помечена как просканированная, тогда как инструмент проверки URL показывает, что на самом деле она проиндексирована.
Инструмент проверки URL также позволяет получить более детальную информацию о конкретной странице, включая:
- Ошибки индексации;
- Ошибки структурированных данных;
- Оптимизация для мобильных и т.д.
Также можно просмотреть загруженные ресурсы (например, JavaScript), запросить индексацию и увидеть обработанную версию страницы.
Важно помнить, что данные о статусе индексации страницы в отчете об индексировании и инструменте проверки URL могут не совпадать. Согласно Google, это связано с тем, что в отчете об индексировании данные обновляются немного по-другому и медленнее, чем в инструменте проверки URL. Однако это не всегда задержка. Иногда это баг в работе отчетности.
В сентябре мы заметили, что некоторые из наших проиндексированных статей получили статус «Страница просканирована, но не проиндексирована» в Search Console. Это определенно не было задержкой, поскольку также были затронуты и более старые статьи.
Вскоре после этого на проблему обратили внимание и другие специалисты, в том числе Лили Рэй (Lily Ray):
Others have already tweeted about this, but I’m seeing many examples of URLs in GSC’s «Crawled, Not Indexed» report (with recent crawl dates) that are, in fact, indexed URLs.
Inspecting individual URLs often results in the below message.
Что делать в такой ситуации и какому отчету доверять
Как правило, инструмент проверки URL показывает более актуальные данные, чем отчет об индексировании. Поэтому, выбирая между этими двумя отчетами, ориентируйтесь на данные инструмента проверки URL.
Причины возникновения такой ошибки и как ее устранить
Теперь давайте перейдем к сути проблемы: почему появляется этот статус, и что можно сделать, чтобы страницы были проиндексированы.
Google не дает четкого ответа, почему страница получила такой статус, но есть несколько возможных причин, по которым он может появиться. В их числе:
- Задержка индексации
- Страница не соответствует стандартам качества
- Страница была деиндексирована
- Проблема с архитектурой сайта
- Проблемы с дублированным контентом
Задержка индексации
Для индексации нужно время. Интернет бесконечно велик, и Google должен определить, какие страницы будут проиндексированы в первую очередь.
В своей статье Ultimate Guide to Indexing SEO мы показали, сколько времени обычно требуется страницам на популярных сайтах для индексации. Вот некоторые результаты из нашего исследования:
- Google индексирует только 56% индексируемых URL через 1 день после публикации.
- Через 2 недели индексируется 87% URL-адресов.
Если вы только что опубликовали страницу, вполне нормально, если она пока не проиндексирована. Нужно немного подождать, и она появится в индексе.
Решение
Вы не можете повлиять на сканирование и индексирование страницы в краткосрочной перспективе, но есть несколько вещей, которые помогут сайту в более долгосрочном периоде:
- Создайте стратегию индексирования, чтобы помочь Google приоритизировать нужные страницы на сайте. Для этого следует решить, какие страницы должны индексироваться, и выбрать лучшие методы сообщить об этом Google.
- Убедитесь, что на те страницы, которые для вас важны, есть внутренние ссылки. Это поможет Google найти эти страницы и лучше понять их контекст.
- Создайте хорошо оптимизированную карту сайта. Перечислите в ней самые ценные URL. Google будет использовать этот файл в качестве дорожной карты и сможет быстрее находить страницы.
Страница не соответствует стандартам качества
Google не может индексировать все страницы в интернете. Хранилище ограничено и поэтому необходимо фильтровать низкокачественный контент.
Цель Google – предоставлять пользователям страницы высокого качества, которые лучше всего отвечают их намерению. Это значит, что если страница более низкого качества, то Google может ее проигнорировать, чтобы оставить место для более качественного контента. И мы ожидаем, что в будущем стандарты качества будут лишь ужесточаться.
Решение
Как владелец сайта, вы должны убедиться, что каждая страница содержит контент высокого качества. Проверьте, может ли страница удовлетворить намерение пользователя, и добавьте качественный контент при необходимости.
В справочном руководстве по ключевым обновлениям Google предлагает список вопросов, которые помогают определить ценность контента. Вот некоторые из них:
- Размещены ли на сайте оригинальные материалы (факты, репортажи, исследования, аналитика)?
- Содержит ли ваш сайт глубокую аналитику или интересные и неочевидные факты?
- Если взят контент из других источников, то переработан ли он в достаточной мере, чтобы представлять существенную ценность в таком виде?
- Готовы ли вы поделиться такой страницей с друзьями, добавить ее в закладки или порекомендовать другим пользователям?
Кроме того, вы можете воспользоваться советами по качественному контенту из Руководства для асессоров Google. Хотя этот документ ориентирован прежде всего на асессоров, чтобы они могли оценивать качество сайтов, вебмастера могут использовать его для улучшения собственных ресурсов.
Генерируемый пользователями контент тоже может быть проблемой с точки зрения качества. Например, у вас есть форум, и кто-то задает вопрос. Если на момент сканирования ответов в теме не было, то Google может квалифицировать эту страницу как низкокачественный контент – несмотря на то, что такие ответы могут появиться в будущем.
Как защититься от такой ситуации?
Сервис вопросов и ответов Quora разработал отличную стратегию на этот случай: любой неотвеченный вопрос имеет префикс /unanswered/ в URL. Например:
Файл robots.txt блокирует все страницы с префиксом /unanswered/. В итоге Googlebot не может их сканировать. Как только в теме появляется ответ, URL меняется и становится доступным для сканирования.
Таким образом Quora блокирует доступ к потенциально низкокачественному контенту, генерируемому пользователями.
Google удалил страницу из индекса
URL может получить статус «Страница просканирована, но не проиндексирована», если страница была проиндексирована, но со временем Google решил удалить ее из индекса.
Почему страницы могут выпадать из индекса? Google может заменять их на более качественный контент.
Index selection, while it’s largely about (RAM/flash/disk) space, it’s tightly tied to quality of content. If we have tons of free space available, we’re more likely to index crappier content. If we don’t, we might deindex stuff to make space for higher quality docs. pic.twitter.com/jRMkEqdft0
— Gary 鯨理/경리 Illyes (@methode) 15 мая 2020 г.
Также важно следить за обновлениями поисковых алгоритмов. Деиндексация может стать результатом одного из таких апдейтов.
Выпадение страниц из индекса также может быть связано со сбоем на стороне Google. Такие ситуации тоже возможны. Например, Google как-то удалил из индекса сайт Search Engine Land потому что ошибочно решил, что он был взломан.
Решение
Решение для деиндексированных страниц тесно связано с их качеством. Следите за тем, чтобы страница предоставляла качественный и актуальный контент. Не думайте, что если страница проиндексирована, то больше ничего с ней делать не нужно. Продолжайте отслеживать и внедряйте изменения и улучшения при необходимости.
«Если после определенного ключевого обновления эффективность страниц снизилась, это не значит, что с ними что-то не так. Они не нарушают наши рекомендации для вебмастеров, и к ним не применялись никакие меры – ни вручную, ни автоматически. Ключевые обновления не нацелены на конкретные страницы и сайты. Они предназначены для того, чтобы наши системы могли в целом лучше оценивать контент», — объяснили в Google.
Прим. ред. В англоязычной версии документа, опять же, смысл немного другой: «Убедитесь, что предлагаете максимально качественный контент. Это то, что наши алгоритмы стремятся вознаграждать».
После устранения проблем отправьте запрос на повторную индексацию этих URL, чтобы Google быстрее увидел изменения.
Проблемы с архитектурой сайта
Когда сотрудника Google Джона Мюллера спросили о возможных причинах, по которым страница может иметь статус «просканирована, но пока не проиндексирована», он упомянул еще одну возможную причину – плохую структуру сайта.
You can’t force pages to be indexed — it’s normal that we don’t index all pages on all websites. It’s not an issue with «that page», it’s more site-wide. Creating a good site structure and making sure the site is of the highest quality possible is essentially the direction.
— John (@JohnMu) 28 июня 2021 г.
Например, на сайте есть страница хорошего качества, но Google может найти ее только через файл Sitemap. Googlebot может посетить эту страницу и просканировать ее, но поскольку внутренних ссылок нет, он может решить, что эта страница менее ценная, чем другие. На сайте нет никакой семантической или структурной информации, которая помогла бы ему должным образом оценить страницу. И это может быть одной из причин, по которой Google решил сосредоточиться на других страницах, а эту оставить без индексации после сканирования.
Решение
Хорошая архитектура сайта является ключом к тому, чтобы максимально увеличить шансы на индексацию. Продуманная структура позволяет роботам поисковых систем обнаруживать контент и лучше понимать взаимосвязь между страницами.
Вот почему так важно обеспечить хорошую архитектуру сайта и внутренние ссылки на ту страницу, которую нужно проиндексировать.
Дублированный контент
В октябре 2021 года SEO-консультант Адам Гент (Adam Gent) поделился интересным кейсом. Его страница получала статус «Просканирована, но пока не проиндексирована», поскольку Google посчитал ее дубликатом.
Google хочет предоставлять уникальный и ценный контент своим пользователям. Поэтому, когда при сканировании он видит, что некоторые страницы идентичны или практически идентичны, то может индексировать лишь одну из них.
Обычно страницы, не попавшие в индекс по этой причине, в отчете об индексировании получают статус «Страница является копией», однако не всегда. Иногда Google присваивает им статус «Страница просканирована, но пока не проиндексирована».
Почему Google может выбирать этот статус, до конца не понятно. Одно из возможных объяснений состоит в том, что этот статус может измениться в будущем, когда Google увидит, что есть более подходящий URL.
Также причина может быть в ошибке: Google может попросту ошибиться при назначении статуса. Такая ситуация более сложная, поскольку статус «Страница просканирована, но пока не проиндексирована» не дает столько информации, как специальный статус для дублированного контента.
Как проверить, показывается ли дубликат в результатах поиска:
- Перейдите на страницу, которая не проиндексирована, и скопируйте небольшой фрагмент текста.
- Возьмите его в кавычки и выполните поиск по этому запросу в Google.
- Проанализируйте результаты. Если в выдаче присутствует другой URL с этим текстом, значит ваша страница не индексируется, потому что Google выбрал другой URL.
Решение
Прежде всего, убедитесь, что создаете оригинальные страницы. Если необходимо, добавьте уникальный контент.
К сожалению, избежать появления дублированного контента не всегда возможно (н апример, если есть мобильная и десктопная версия сайта). У нас не так много контроля над тем, что появляется в результатах поиска, но мы можем дать Google некие подсказки о том, какая версия является оригиналом.
Если вы видите, что Google индексирует много дублированного контента, то проверьте следующие элементы:
- Канонические теги. Эти HTML-теги сообщают поисковым системам, какие версии страниц являются оригиналами.
- Внутренние ссылки. Убедитесь, что внутренние ссылки указывают на оригинальный контент. Google может использовать это как индикатор важности страницы.
- Файлы Sitemap. Убедитесь, что в них содержится только каноническая версия страницы.
Помните, что это только подсказки, и Google не обязан им следовать. В случае, описанном Адамом Гентом, Google выбрал для индексации RSS-фид, хотя многие сигналы указывали на другой URL. Адам решил проблему, настроив ошибку 404, чтобы оставалась только оригинальная версия. Он также настроил HTTP-заголовок X-Robots-Tag на всех URL фидов таким образом, чтобы запретить их индексацию.
«Страница просканирована, но пока не проиндексирована» vs «Обнаружена, не проиндексирована»
Статус «Страница просканирована, но пока не проиндексирована» часто путают с другой проблемой индексации в отчете об индексировании: «Обнаружена, не проиндексирована».
Оба статуса показывают, что страница не проиндексирована. Однако в первом случае Google уже посетил страницу, а во втором – поисковик знает об URL, но пока его не просканировал.
Если вы видите статус «Обнаружена, не проиндексирована», попробуйте выяснить, почему Google не смог или не захотел просканировать эту страницу. Например, этот статус может указывать на проблемы с качеством сайта в целом, бюджетом сканирования или перегрузкой сервера.
Подводим итоги
Статус «Страница просканирована, но пока не проиндексирована» часто связывают с качеством страницы, но в действительности он может указывать на множество других проблем, таких как плохая архитектура сайта или дублированный контент.
Как пользоваться Отчётом об индексировании в Google Search Console
Подробный SEO-гайд по Отчёту об индексировании Google Search Console. Разберёмся, как проверить индексацию сайта с его помощью, как «читать» статусы URL, какие ошибки можно обнаружить и как их исправить.
В Отчёте вы можете получить данные о сканировании и индексации всех URL-адресов, которые Google смог обнаружить на вашем сайте. Он поможет отследить, добавлен ли сайт в индекс, и проинформирует о технических проблемах со сканированием и индексацией.
Но перед тем, как говорить об Отчёте, вспомним все этапы индексации страницы в Google.
Как проходит индексация в Google
Чтобы страница ранжировалась в поиске и показывалась пользователям, она должна быть обнаружена, просканирована и проиндексирована.
Обнаружение
Перед тем, как просканировать страницу, Google должен её обнаружить. Он может сделать это несколькими способами.
Наиболее распространённые — с помощью внутренних или внешних ссылок или через карту сайта (файл Sitemap.xml).
Сканирование
Суть сканирования состоит и том, что поисковые системы изучают страницу и анализируют её содержимое.
Главный аспект в этом вопросе — краулинговый бюджет, который представляет собой лимит времени и ресурсов, который поисковая система готова «потратить» на сканирование вашего сайта.
Индексация
В процессе индексации Google оценивает качество страницы и добавляет её в индекс — базу данных, где собраны все страницы, о которых «знает» Google.
В этот этап включается и рендеринг, который помогает Google видеть макет и содержимое страницы. Собранная информация даёт поисковой системе понимание, как показывать страницу в результатах поиска.
Даже если Google нашёл и просканировал страницу, это не означает, что она обязательно будет проиндексирована.
Но главное, что вы должны понять и запомнить: нет необходимости в том, чтобы абсолютно все страницы вашего сайты были проиндексированы. Вместо этого убедитесь, что в индекс включены все важные и полезные для пользователей страницы с качественным контентом.
Некоторые страницы могут содержать контент низкого качества или быть дублями. Если поисковые системы их увидят, это может негативно отразится на всём сайте.
Поэтому важно в процессе создания стратегии индексации решить, какие страницы должны и не должны быть проиндексированы.
Ранжирование
Только проиндексированные страницы могут появиться в результатах поиска и ранжироваться.
Google определяет, как ранжировать страницу, основываясь на множестве факторов, таких как количество и качество ссылок, скорость страницы, удобство мобильной версии, релевантность контента и др.
Теперь перейдём к Отчёту.
Как пользоваться Отчётом об индексировании в Google Search Console
Чтобы просмотреть Отчёт, авторизуйтесь в своём аккаунте Google Search Console. Затем в меню слева выберите «Покрытие» в секции «Индекс»:
Как найти Отчёт об индексировании в Google Search Console
Перед вами Отчёт. Отметив галочками любой из статусов или все сразу, вы сможете выбрать то, что хотите визуализировать на графике:
Статусы URL на странице Отчёта
Вы увидите четыре статуса URL-адресов:
- Ошибка — критическая проблема сканирования или индексации.
- Без ошибок, есть предупреждения — URL-адреса проиндексированы, но содержат некоторые некритичные ошибки.
- Страница без ошибок — страницы проиндексированы корректно.
- Исключено — страницы, которые не были проиндексированы из-за проблем (это самый важный раздел, на котором нужно сфокусироваться).
Фильтры «Все обработанные страницы» vs «Все отправленные страницы»
В верхнем углу вы можете отфильтровать, какие страницы хотите видеть:
Фильтр отображаемых страниц
«Все обработанные страницы» показываются по умолчанию. В этот фильтр включены все URL-адреса, которые Google смог обнаружить любым способом.
Фильтр «Все отправленные страницы» включает только URL-адреса, добавленные с помощью файла Sitemap.
В чём разница?
Первый обычно включает в себя больше URL-адресов и многие из них попадают в секцию «Исключено». Это происходит потому, что карта сайта включает только индексируемые URL, в то время как сайты обычно содержат множество страниц, которые не должны быть проиндексированы.
Как пример — URL с параметрами на сайтах eCommerce. Googlebot может найти их разными способами, но не в карте сайта.
Так что когда открываете Отчёт, убедитесь, что смотрите нужные данные.
Проверка статусов URL
Чтобы увидеть подробную информацию о проблемах, обнаруженных для каждого статуса, посмотрите «Сведения» под графиком:
Раздел «Сведения»
Тут показан статус, тип проблемы и количество затронутых страниц. Обратите внимание на столбец «Проверка» — после исправления ошибки, вы можете попросить Google проверить URL повторно.
Например, если кликнуть на первую строку со статусом «Предупреждение», то вверху появится кнопка «Проверить исправление»:
Проверка исправлений
Вы также можете увидеть динамику каждого статуса: увеличилось, уменьшилось или осталось на том же уровне количество URL-адресов в этом статусе.
Если в «Сведениях» кликнуть на любой статус, вы увидите количество адресов, связанных с ним. Кроме того, вы сможете посмотреть, когда каждая страница была просканирована (но помните, что эта информация может быть неактуальна из-за задержек в обновлении отчётов).
Подробная информация о сканировании в Сведениях
Что учесть при использовании отчёта
- Всегда проверяйте, смотрите ли вы отчёт по всем обработанным или по всем отправленным страницам. Разница может быть очень существенной.
- Отчёт может показывать изменения с задержкой. После публикации контента подождите несколько дней, пока страницы просканируются и проиндексируются.
- Google пришлёт уведомления на электронную почту, если увидит какие-то критичные проблемы с сайтом.
- Стремитесь к индексации канонической версии страницы, которую вы хотите показывать пользователям и поисковым ботам.
- В процессе развития сайта, на нём будет появляться больше контента, так что ожидайте увеличения количества проиндексированных страниц в Отчёте.
Как часто смотреть Отчёт
Обычно достаточно делать это раз в месяц.
Но если вы внесли значимые изменения на сайте, например, изменили макет страницы, структуру URL или сделали перенос сайта, мониторьте Отчёт чаще, чтобы вовремя поймать негативное влияние изменений.
Рекомендую делать это хотя бы раз в неделю и обращать особое внимание на статус «Исключено».
Дополнительно: инструмент проверки URL
В Search Console есть ещё один инструмент, который даст ценную информацию о сканировании и индексации страниц вашего сайта — Инструмент проверки URL.
Он находится в самом верху страницы в GSC:
Инструмент проверки URL
Просто вставьте URL, который вы хотите проверить, в эту строку и увидите данные по нему. Например:
Результат проверки URL
Инструментом можно пользоваться для того, чтобы:
- проверить статус индексирования URL, и обнаружить возможные проблемы;
- узнать, индексируется ли URL;
- просмотреть проиндексированную версию URL;
- запросить индексацию, например, если страница изменилась;
- посмотреть загруженные ресурсы, например, такие как JavaScript;
- посмотреть, какие улучшения доступны для URL, например, реализация структурированных данных или удобство для мобильных.
Если в Отчёте об индексировании обнаружены какие-то проблемы со страницами, используйте Инструмент, чтобы тщательнее проверить их и понять, что именно нужно исправить.
Статус «Ошибка»
Под этим статусом собраны URL, которые не были проиндексированы из-за ошибок.
Ошибка сервера (5xx)
Эта проблема говорит об ошибке сервера со статусом 5xx, например, 502 Bad Gateway или 503 Service Unavailable.
Советую регулярно проверять этот раздел и следить, нет ли у Googlebot проблем с индексацией страниц из-за ошибки сервера.
Что делать. Нужно связаться с вашим хостинг-провайдером, чтобы исправить эту проблему или проверить, не вызваны ли эти ошибки недавними обновлениями и изменениями на сайте.
Ошибка переадресации
Редиректы перенаправляют поисковых ботов и пользователей со старого URL на новый. Обычно они применяются, если старый адрес изменился или страницы больше не существует.
Ошибки переадресации могут указывать на такие проблемы:
- цепочка редиректов слишком длинная;
- обнаружен циклический редирект — страницы переадресуют друг на друга;
- редирект настроен на страницу, URL которой превышает максимальную длину;
- в цепочке редиректов найден пустой или ошибочный URL.
Что делать. Проверьте и исправьте редиректы каждой затронутой страницы.
Доступ к отправленному URL заблокирован в файле robots.txt
Эти страницы есть в файле Sitemap, но заблокированы в файле robots.txt.
Что делать. Если вы видите такую ошибку, перейдите в файл robots.txt и проверьте настройку директив. Убедитесь, что страницы не закрыты через noindex.
Страница, связанная с отправленным URL, содержит тег noindex
По аналогии с предыдущей ошибкой, эта страница была отправлена на индексацию, но она содержит директиву noindex в метатеге или в заголовке ответа HTTP.
Что делать. Если страница должна быть проиндексирована, уберите noindex.
Отправленный URL возвращает ложную ошибку 404
Ложная ошибка 404 означает, что страница возвращает статус 200 OK, но её содержимое может указывать на ошибку. Например, страница пустая или содержит слишком мало контента.
Что делать. Проверьте страницы с ошибками и посмотрите, есть ли возможность изменить контент или настроить редирект.
Отправленный URL возвращает ошибку 401 (неавторизованный запрос)
Ошибка 401 Unauthorized означает, что запрос не может быть обработан, потому что необходимо залогиниться под правильными user ID и паролем.
Что делать. Googlebot не может индексировать страницы, скрытые за логинами. Или уберите необходимость авторизации или подтвердите авторизацию Googlebot, чтобы он мог получить доступ к странице.
Отправленный URL не найден (ошибка 404)
Ошибка 404 говорит о том, что запрашиваемая страница не найдена, потому что была изменена или удалена. Такие страницы есть на каждом сайте и наличие их в малом количестве обычно ни на что не влияет. Но если пользователи будут находить такие страницы, это может отразиться негативно.
Что делать. Если вы увидели эту проблему в отчёте, перейдите на затронутые страницы и проверьте, можете ли вы исправить ошибку. Например, настроить 301-й редирект на рабочую страницу.
При отправке URL произошла ошибка 403
Код состояния 403 Forbidden означает, что сервер понимает запрос, но отказывается авторизовывать его.
Что делать. Можно либо предоставить доступ анонимным пользователям, чтобы робот Googlebot мог получить доступ к URL, либо, если это невозможно, удалить URL из карты сайта.
URL заблокирован из-за ошибки 4xx (ошибка клиента)
Страница может быть непроиндексирована из-за других ошибок 4xx, которые не описаны выше.
Что делать. Чтобы понять, о какой именно ошибке речь, используйте Инструмент проверки URL. Если устранить ошибку невозможно, уберите URL из карты сайта.
Статус «Без ошибок, есть предупреждения»
URL без ошибок, но с предупреждениями, были проиндексированы, но могут требовать вашего внимания. Тут обычно случается две проблемы.
Проиндексировано, несмотря на блокировку в файле robots.txt
Обычно эти страницы не должны быть проиндексированы, но скорее всего Google нашёл ссылки, указывающие на них, и посчитал их важными.
Что делать. Проверьте эти страницы. Если они всё же должны быть проиндексированы, то обновите файл robots.txt, чтобы Google получил к ним доступ. Если не должны — поищите ссылки, которые на них указывают. Если вы хотите, чтобы URL были просканированы, но не проиндексированы, добавьте директиву noindex.
Страница проиндексирована без контента
URL проиндексированы, но Google не смог прочитать их контент. Это может быть из-за таких проблем:
- Клоакинг — маскировка контента, когда Googlebot и пользователи видят разный контент.
- Страница пустая.
- Google не может отобразить страницу.
- Страница в формате, который Google не может проиндексировать.
Зайдите на эти страницы сами и проверьте, виден ли на них контент. Также проверьте их через Инструмент проверки URL и посмотрите, как их видит Googlebot. После того, как устраните ошибки, или если не обнаружите каких-либо проблем, вы можете запросить у Google повторное индексирование.
Статус «Страница без ошибок»
Здесь показываются страницы, которые корректно проиндексированы. Но на эту часть Отчёта всё равно нужно обращать внимание, чтобы сюда не попали страницы, которые не должны были оказаться в индексе. Тут тоже есть два статуса.
Страница была отправлена в Google и проиндексирована
Это значит, что страницы отправлена через Sitemap и Google её проиндексировал.
Страница проиндексирована, но её нет в файле Sitemap
Это значит, что страница проиндексирована даже несмотря на то, что её нет в Sitemap. Посмотрите, как Google нашёл эту страницу, через Инструмент проверки URL.
Чаще всего страницы в этом статусе — это страницы пагинации, что нормально, учитывая, что их и не должно быть в Sitemap. Посмотрите список этих URL, вдруг какие-то из них стоит добавить в карту сайта.
Статус «Исключено»
В этом статусе находятся страницы, которые не были проиндексированы. В большинстве случаев это вызвано теми же проблемами, которые мы обсуждали выше. Единственное различие в том, что Google не считает, что исключение этих страниц вызвано какой-либо ошибкой.
Вы можете обнаружить, что многие URL здесь исключены по разумным причинам. Но регулярный просмотр Отчёта поможет убедиться, что не исключены важные страницы.
Индексирование страницы запрещено тегом noindex
Что делать. Тут то же самое — если страница и не должна быть проиндексирована, то всё в порядке. Если должна — удалите noindex.
Индексирование страницы запрещено с помощью инструмента удаления страниц
У Google есть Инструмент удаления страниц. Как правило с его помощью Google удаляет страницы из индекса не навсегда. Через 90 дней они снова могут быть проиндексированы.
Что делать. Если вы хотите заблокировать страницу насовсем, вы можете удалить её, настроит редирект, внедрить авторизацию или закрыть от индексации с помощью тега noindex.
Заблокировано в файле robots.txt
У Google есть Инструмент проверки файла robots.txt, где вы можете в этом убедиться.
Что делать. Если эти страницы и не должны быть в индексе, то всё в порядке. Если должны — обновите файл robots.txt.
Страница не проиндексирована вследствие ошибки 401 (неавторизованный запрос)
Обычно это происходит на страницах, защищённых паролем.
Что делать. Если они и не должны быть проиндексированы, то ничего делать не нужно. Если вы не хотите, чтобы Google обнаруживал эти страницы, уберите существующие внутренние и внешние ссылки на них.
Страница просканирована, но пока не проиндексирована
Это значит, что страница «ждёт» решения. Для этого может быть несколько причин. Например, с URL нет проблем и вскоре он будет проиндексирован.
Но чаще всего Google не будет торопиться с индексацией, если контент недостаточно качественный или выглядит похожим на остальные страницы сайта.
В этом случае он поставит её в очередь с низким приоритетом и сфокусируется на индексации более важных страниц. Google говорит, что отправлять такие страницы на переиндексацию не нужно.
Что делать. Для начала убедитесь, что это не ошибка. Проверьте, действительно ли URL не проиндексирован, в Инструменте проверки URL или через инструмент «Индексация» в Анализе сайта в Топвизоре. Они показывают более свежие данные, чем Отчёт.
Обнаружена, не проиндексирована
Это значит, что Google увидел страницу, например, в карте сайта, но ещё не просканировал её. В скором времени страница может быть просканирована.
Иногда эта проблема возникает из-за проблем с краулинговым бюджетом. Google может посчитать сайт некачественным, потому что ему не хватает производительности или на нём слишком мало контента.
Возможно, Google не нашёл каких-либо ссылок на эту страницу или нашёл страницы с большим ссылочным весом и посчитал их более приоритетными для сканирования.
Если на сайте есть более качественные и важные страницы, Google может игнорировать менее важные страницы месяцами или даже никогда их не просканировать.
Вариант страницы с тегом canonical
Эти URL — дубли канонической страницы, отмеченные правильным тегом, который указывает на основную страницу.
Что делать. Ничего, вы всё сделали правильно.
Страница является копией, канонический вариант не выбран пользователем
Это значит, что Google не считает эти страницы каноническими. Посмотрите через Инструмент проверки URL какую страницу он считает канонической.
Что делать. Выберите страницу, которая по вашему мнению является канонической, и разметьте дубли с помощью rel=”canonical”.
Страница является копией, канонические версии страницы, выбранные Google и пользователем, не совпадают
Вы выбрали каноническую страницу, но Google решил по-другому. Возможно, страница, которую вы выбрали, не имеет столько внутреннего ссылочного веса, как неканоническая.
Что делать. В этом случае может помочь объединение URL повторяющихся страниц.
Не найдено (404)
URL нет в Sitemap, но Google всё равно его обнаружил. Возможно, это произошло с помощью ссылки на другом сайте или ранее страница существовала и была удалена.
Что делать. Если вы и не хотели, чтобы Google индексировал страницу, то ничего делать не нужно. Другой вариант — поставить 301-й редирект на работающую страницу.
Страница с переадресацией
Эта страница редиректит на другую страницу, поэтому не была проиндексирована. Обычно, такие страницы не требуют внимания.
Что делать. Эти страницы и не должны быть проиндексированы, так что делать ничего не нужно.
@JohnMu what does Google do when a site redirects all its 404s to the homepage? Seeing more and more sites do this and it’s such an anti-pattern.
— Joost de Valk (@jdevalk) January 7, 2019
Yeah, it’s not a great practice (confuses users), and we mostly treat them as 404s anyway (they’re soft-404s), so there’s no upside. It’s not critically broken/bad, but additional complexity for no good reason — make a better 404 page instead.
— ? John ? (@JohnMu) January 8, 2019
Ложная ошибка 404
Обычно это страницы, на которых пользователь видит сообщение «не найдено», но которые не сопровождаются кодом ошибки 404.
Что делать. Для исправления проблемы вы можете:
- Добавить или улучшить контент таких страниц.
- Настроить 301-й редирект на ближайшую альтернативную страницу.
- Настроить сервер, чтобы он возвращал правильный код ошибки 404 или 410.
Страница является копией, отправленный URL не выбран в качестве канонического
Эти страницы есть в Sitemap, но для них не выбрана каноническая страница. Google считает их дублями и канонизировал их другими страницами, которые определил самостоятельно.
Что делать. Выберите и добавьте канонические страницы для этих URL.
Почему Google не индексирует некоторые страницы моего сайта
Если вы работаете с сайтом, особенно с большим, вы, вероятно, заметили, что не все страницы вашего сайта индексируется. Причин может быть несколько.
Многие seo-оптимизаторы по-прежнему считают, что Google не может индексировать контент из-за технических особенностей, но это миф. Правда в том, что Google может не проиндексировать ваши страницы, если вы не отправляете последовательные технические сигналы о том, какие страницы вы хотите проиндексировать.
Что касается других технических проблем: такие вещи, как JavaScript, действительно усложняют индексацию, ваш сайт может страдать от серьезных проблем с индексированием, даже если он написан на чистом HTML.
Причины, по которым Google не индексирует ваши страницы
Проверив самые популярные интернет-магазины мира, обнаружили, что в среднем 15% их индексируемых страниц продуктов невозможно найти в Google.
Результат удивительный. Почему? Каковы причины, по которым Google решает не индексировать то, что технически должно быть проиндексировано?
Консоль поиска Google сообщает о нескольких статусах неиндексированных страниц, например «Просканировано — в настоящее время не проиндексировано» или «Обнаружено — в настоящее время не проиндексировано». Хотя эта информация явно не помогает решить проблему, это хорошее начала диагностики.
Основные проблемы с индексацией
Наиболее популярные проблемы индексации, о которых сообщает Google Search Console:
1. «Просканировано — в настоящее время не проиндексировано»
В этом случае Google посетил страницу, но не проиндексировал ее.
Исходя из моего опыта, это обычно проблема качества контента. Учитывая бум электронной коммерции, который в настоящее время происходит, ожидаемо, что Google стал более требовательным к качеству сайтов. Поэтому, если вы заметили, что ваши страницы «просканированы — в настоящее время не проиндексированы», убедитесь, что контент на этих страницах имеет уникальную ценность:
- Используйте уникальные заголовки, описания и текст на всех индексируемых страницах.
- Избегайте копирования описаний продуктов из внешних источников.
- Используйте канонические теги для объединения повторяющегося контента.
- Запретите Google сканировать или индексировать некачественные разделы вашего сайта с помощью файла robots.txt или тега noindex.
2. «Обнаружено — в настоящее время не индексируется»
Это проблема может охватывать всё, от проблем со сканированием до недостаточного качества контента. Это серьезная проблема, особенно в случае крупных интернет-магазинов. И такое может случиться с десятками миллионов URL-адресов на одном сайте.
Google может сообщить, что страницы продуктов электронной коммерции «обнаружены — в настоящее время не проиндексированы» по следующим причинам:
- Проблема с бюджетом сканирования: в очереди сканирования может быть слишком много URL-адресов, и они могут быть просканированы и проиндексированы позже.
- Проблема с качеством: Google может подумать, что некоторые страницы в этом домене не стоит сканировать и решит не посещать их, ища шаблон в их URL.
Чтобы справиться с этой проблемой, требуется некоторый опыт. Если вы обнаружите, что ваши страницы «обнаружены — в настоящее время не проиндексированы», сделайте следующее:
- Определите, есть ли шаблоны страниц, попадающих в эту категорию. Может быть, проблема связана с определенной категорией товаров, а вся категория не имеет внутренней связи? Или, может быть, огромная часть страниц продуктов ожидает в очереди на индексирование?
- Оптимизируйте свой краулинговый бюджет. Сосредоточьтесь на обнаружении некачественных страниц, которые Google тратит много времени на сканирование. К обычным подозрениям относятся страницы отфильтрованных категорий и страницы внутреннего поиска — эти страницы могут легко попасть в десятки миллионов на типичном сайте электронной коммерции. Если робот Googlebot может свободно их сканировать, у него может не быть ресурсов для доступа к ценным материалам на вашем сайте, проиндексированным в Google.
3. «Повторяющееся содержание»
Дублирование контента может быть вызвано разными причинами, например:
- Варианты языка (например, английский язык в Великобритании, США или Канаде). Если у вас есть несколько версий одной и той же страницы, ориентированных на разные страны, некоторые из этих страниц могут оказаться неиндексированными.
- Дублированный контент, используемый вашими конкурентами. Это часто происходит в e-commerce, когда несколько сайтов используют одно и то же описание продукта, предоставленное производителем.
Помимо использования rel = canonical, 301 редиректа или создания уникального контента, я бы сосредоточился на предоставлении уникальной ценности для пользователей. Fast-growing-trees.com может быть примером. Вместо скучных описаний и советов по посадке и поливу на сайте можно увидеть подробный FAQ по многим продуктам.
Кроме того, вы можете легко сравнивать похожие товары.
Для многих продуктов есть FAQ.
Как проверить индексирование вашего сайта
Вы можете легко проверить, сколько страниц вашего сайта не проиндексировано, открыв отчет об индексировании в Google Search Console.
Первое, на что следует обратить внимание, — это количество исключенных страниц. Затем попробуйте найти закономерность — какие типы страниц не индексируются?
Если у вас интернет-магазин, вы, скорее всего, увидите неиндексированные страницы продуктов. Хотя это всегда должно быть предупреждающим знаком, вы не можете ожидать, что все страницы ваших продуктов будут проиндексированы, особенно на большом сайте. Например, в большом интернет-магазине обязательно будут дублирующиеся страницы и товары с истекшим сроком годности или отсутствующие в наличии. Этим страницам может не хватать качества, которое поместило бы их в начало очереди индексации Google (и это если Google вообще решит сканировать эти страницы).
Кроме того, на крупных интернет-магазинах, как правило, возникают проблемы с бюджетом сканирования. Я видел случаи, когда в интернет-магазинах было более миллиона товаров, в то время как 90% из них были классифицированы как «обнаруженные — в настоящее время не проиндексированные». Но если вы видите, что важные страницы исключаются из индекса Google, вы должны быть серьезно обеспокоены.
Как повысить вероятность того, что Google проиндексирует ваши страницы
Каждый сайт индивидуален и может иметь разные проблемы с индексированием. Тем не менее, вот советы, которые помогут вашим страницам индексироваться:
1. Избегайте ошибок «Soft 404».
Убедитесь, что на ваших страницах нет ничего, что может ложно указывать на мягкий статус 404. Это включает в себя все, что угодно, от использования «Не найдено» или «Недоступно» в копии до наличия числа «404» в URL-адресе.
2. Используйте внутренние ссылки.
Внутренние ссылки — один из ключевых сигналов для Google о том, что данная страница является важной частью сайта и заслуживает индексации. Не оставляйте лишних страниц в структуре вашего сайта и не забудьте включить все индексируемые страницы в карты сайта. Внутренние ссылки — один из элементов кайдзен сайта.
3. Реализуйте надежную стратегию сканирования.
Не позволяйте Google сканировать ваш сайт. Если на сканирование менее ценных частей вашего домена тратится слишком много ресурсов, Google может потребоваться слишком много времени, чтобы добраться до нужного. Анализ журнала сервера может дать вам полное представление о том, что сканирует робот Googlebot и как его оптимизировать.
4. Устранение некачественного и дублированного контента.
На каждом большом сайте в конечном итоге появляются страницы, которые не следует индексировать. Убедитесь, что эти страницы не попадают в ваши карты сайта, и при необходимости используйте тег noindex и файл robots.txt. Если вы позволите Google проводить слишком много времени в худших частях вашего сайта, это может недооценить общее качество вашего домена.
5. Посылайте последовательные сигналы SEO.
Один из распространенных примеров отправки непоследовательных сигналов SEO в Google — это изменение канонических тегов с помощью JavaScript. Как сказал Мартин Сплитт из Google во время работы JavaScript SEO Office Hours, вы никогда не можете быть уверены в том, что Google будет делать, если у вас есть один канонический тег в исходном HTML и другой после рендеринга JavaScript.
Интернет становится слишком большим
За последние пару лет Google совершил гигантский скачок в обработке JavaScript, упростив работу оптимизаторов поисковых систем. В наши дни реже можно увидеть сайты на базе JavaScript, которые не индексируются из-за конкретного технического стека, который они используют.
Но можем ли мы ожидать того же самого с проблемами индексации, не связанными с JavaScript? Я так не думаю. Интернет постоянно растет. Каждый день появляются новые сайты, а существующие растут. Сможет ли Google справиться с этой проблемой?
Этот вопрос появляется время от времени. Цитата Google:
«У Google ограниченное количество ресурсов, поэтому, когда он сталкивается с почти бесконечным количеством контента, доступного в Интернете, робот Googlebot может найти и просканировать только часть этого контента. Затем из просканированного контента мы можем проиндексировать только его часть».
Другими словами, Google может посещать только часть всех страниц в Интернете и индексировать еще меньшую часть. И даже если ваш сайт великолепен, вы должны помнить об этом.
Вероятно, Google не будет посещать все страницы вашего сайта, даже если он относительно небольшой. Ваша задача — убедиться, что Google может обнаруживать и индексировать страницы, важные для вашего бизнеса.
Статус «Страница просканирована, но пока не проиндексирована» в Google: что это и как изменить
«Страница просканирована, но пока не проиндексирована» — статус, который нередко присваивается в поисковой системе Google. При этом владельцу сайта не сообщается о причинах выставления такого статуса и каких-либо действиях для его изменения.
Google только оповещает, что индексация, возможно, будет позже или не будет вообще. Это не особо обнадёживает, особенно если страничка имеет большое значение для бизнеса и её нужно продвигать.
В этой статье разбираемся, что делать, если возникла такая ошибка.
Где посмотреть статус
Статус необходимо искать в отчёте об индексировании в Search Console. Поисковик не считает, что в этих страницах произошла ошибка, а потому относит их к категории исключённых.
Если кликнуть по статусу «Страница просканирована, но пока не проиндексирована», покажется список всех страничек, которые были просканированы ботом, но почему-то не прошли индексацию. Для поиска таких страничек также используют инструмент проверки URL в Search Console.
Ошибки в отчёте
Если вы заметили, что страничка получила такой статус, сначала необходимо убедиться, действительно ли это так. В отчётности бывают ошибки. Здесь и пригодится инструмент проверки URL. В нём представлено больше сведений о страничках сайта. Например, ошибки индексации, ошибки структурированных данных, наличие мобильной версии и т.д.
Различие информации в отчёте об индексации и инструменте проверки URL может быть вызвано как особенностями работы систем — в инструменте проверки сведения обновляются быстрее, чем в отчётности, так и багом.
Так кому доверять в таких случаях? Обычно в инструменте проверки URL представлены более «свежие» данные, поэтому ориентироваться следует именно на него.
Почему возникает ошибка и как её исправить
В Google конкретного ответа на этот вопрос не найти. Однако имеется ряд причин, которые потенциально могли привести к появлению такого статуса. Среди них:
- время на индексацию;
- низкое качество страничек;
- деиндексация;
- неправильная архитектура сайта;
- дублирование контента.
Время на индексацию
Индексация не проводится за одну секунду, этот процесс требует времени. Google сам определяет, какие страницы надо проиндексировать первым делом. Если страничка была опубликована только что, не стоит ждать, что её тут же проиндексируют.
Повлиять на скорость сканирования и индексации здесь и сейчас вы не можете. Но чтобы в будущем ваши страницы попадали в индекс быстрее, можно пользоваться следующими правилами:
- Разработать стратегию индексирования. Это даст краулерам поисковика понимание, какие странички надо обходить первым делом.
- Проверить наличие внутренних ссылок на особенно важные страницы. Благодаря этому поисковик быстрее найдёт эти странички и лучше поймёт их содержимое.
- Разработать карту сайта. В неё надо внести наиболее важные URL. Для Google это станет своеобразным навигатором, с помощью которого система будет искать странички быстрее.
Несоответствие стандартам качества
Поисковик не может индексировать все существующие страницы, так как его лимиты тоже ограничены. Соответственно, он сортирует их по соответствию стандартам качества. Тратить ресурсы на некачественные странички не имеет смысла, поэтому они отсеиваются и не индексируются.
Вероятно, причина ошибки кроется как раз в низком качестве контента. Соответственно, необходимо проверить, отвечает ли страница требованиям поисковика и способна ли в полной мере удовлетворить запрос пользователя.
Google даёт вопросы, которые помогут понять, насколько качественный контент вы предлагаете. Вопросы касаются следующих моментов:
- оригинальность размещённых материалов;
- наличие глубокой аналитики или полезных неочевидных фактов;
- степень проработанности контента, полученного из сторонних источников;
- готовность делиться представленной информацией, сохранять её и т.д.
UGC-контент
Это контент, который создают пользователи. И он тоже может влиять на качество страницы. Допустим, кто-то задаёт вопрос по материалу, а на момент обхода странички краулером ответов на него нет. Тогда Google может посчитать её низкокачественной, даже несмотря на то, что ответы могут появиться в дальнейшем.
Для борьбы с такими ситуациями можно воспользоваться идеей сервиса Quora. Там все неотвеченные вопросы маркируются префиксом /unanswered/. Файл robots.txt скрывает странички с таким префиксом от роботов. Когда на вопрос отвечают, префикс убирается, и страница оказывается доступной для индексации.
Деиндексация
Причиной появления статуса о сканировании, но отсутствии индексации может быть то, что Google почему-то убрал страничку из индекса. Часто такое происходит, когда поисковик решает заменить её на более полезную. Кроме того, к такому итогу может привести изменение алгоритмов поисковика. И, конечно, нельзя исключать вероятность сбоев на стороне поисковой системы.
Если поисковик удалил страницу из индекса, необходимо проанализировать её на предмет соответствия требованиям качества. Также учитывайте, что даже ранее проиндексированная страница может спустя какое-то время выпасть из индекса. То есть работать над контентом надо постоянно. Следите за актуальностью информации и своевременно обновляйте её.
Неправильная архитектура сайта
Непродуманная архитектура тоже может стать причиной непопадания страничек в индекс. Допустим, на сайте есть качественная страница, но обнаружить её можно только через Sitemap. Вероятно, краулер найдёт её и просканирует, но из-за отсутствия внутренних ссылок, он примет решение, что эта страничка представляет меньшую ценность, чем другие.
На сайте отсутствует какая-либо структурная информация, которая бы способствовала полноценной оценке странички. Соответственно, робот может оставить её без индексирования.
Проблема решается выстраиванием правильной, чёткой архитектуры.
Дубликаты
Дубли страниц не нравятся поисковикам, так как не считаются ценными и полезными. Для Google важно предоставлять пользователям уникальный контент, который будет полезен.
Соответственно, если краулер встречает две одинаковые или почти одинаковые страницы, он индексирует только какую-то одну. Чаще всего дубли получают статус «Страница является копией», но так происходит не всегда.
Работайте над устранением дублей или уникализацией контента на страничках с похожим содержимым.
Необходимо отличать статус «Страница просканирована, но пока не проиндексирована» и «Обнаружена, не проиндексирована». Первый значит, что робот выполнил сканирование, но индексация не состоялась. А второй — что страничка в принципе не была просканирована.
То есть система знает об этом URL, но сканирования не было. В этом случае следует узнать, почему Google не сканировал страничку. Возможно, причина в низком качестве контента, бюджете сканирования или перегруженности сервера.