Почему гугл не индексирует страницы сайта
Перейти к содержимому

Почему гугл не индексирует страницы сайта

  • автор:

Почему Google не индексирует некоторые страницы моего сайта

Сергей Веснин

Если вы работаете с сайтом, особенно с большим, вы, вероятно, заметили, что не все страницы вашего сайта индексируется. Причин может быть несколько.

Многие seo-оптимизаторы по-прежнему считают, что Google не может индексировать контент из-за технических особенностей, но это миф. Правда в том, что Google может не проиндексировать ваши страницы, если вы не отправляете последовательные технические сигналы о том, какие страницы вы хотите проиндексировать.

Что касается других технических проблем: такие вещи, как JavaScript, действительно усложняют индексацию, ваш сайт может страдать от серьезных проблем с индексированием, даже если он написан на чистом HTML.

Причины, по которым Google не индексирует ваши страницы

Проверив самые популярные интернет-магазины мира, обнаружили, что в среднем 15% их индексируемых страниц продуктов невозможно найти в Google.

Результат удивительный. Почему? Каковы причины, по которым Google решает не индексировать то, что технически должно быть проиндексировано?

Консоль поиска Google сообщает о нескольких статусах неиндексированных страниц, например «Просканировано — в настоящее время не проиндексировано» или «Обнаружено — в настоящее время не проиндексировано». Хотя эта информация явно не помогает решить проблему, это хорошее начала диагностики.

Основные проблемы с индексацией

Наиболее популярные проблемы индексации, о которых сообщает Google Search Console:

1. «Просканировано — в настоящее время не проиндексировано»

В этом случае Google посетил страницу, но не проиндексировал ее.

Исходя из моего опыта, это обычно проблема качества контента. Учитывая бум электронной коммерции, который в настоящее время происходит, ожидаемо, что Google стал более требовательным к качеству сайтов. Поэтому, если вы заметили, что ваши страницы «просканированы — в настоящее время не проиндексированы», убедитесь, что контент на этих страницах имеет уникальную ценность:

  • Используйте уникальные заголовки, описания и текст на всех индексируемых страницах.
  • Избегайте копирования описаний продуктов из внешних источников.
  • Используйте канонические теги для объединения повторяющегося контента.
  • Запретите Google сканировать или индексировать некачественные разделы вашего сайта с помощью файла robots.txt или тега noindex.
2. «Обнаружено — в настоящее время не индексируется»

Это проблема может охватывать всё, от проблем со сканированием до недостаточного качества контента. Это серьезная проблема, особенно в случае крупных интернет-магазинов. И такое может случиться с десятками миллионов URL-адресов на одном сайте.

Google может сообщить, что страницы продуктов электронной коммерции «обнаружены — в настоящее время не проиндексированы» по следующим причинам:

  • Проблема с бюджетом сканирования: в очереди сканирования может быть слишком много URL-адресов, и они могут быть просканированы и проиндексированы позже.
  • Проблема с качеством: Google может подумать, что некоторые страницы в этом домене не стоит сканировать и решит не посещать их, ища шаблон в их URL.

Чтобы справиться с этой проблемой, требуется некоторый опыт. Если вы обнаружите, что ваши страницы «обнаружены — в настоящее время не проиндексированы», сделайте следующее:

  1. Определите, есть ли шаблоны страниц, попадающих в эту категорию. Может быть, проблема связана с определенной категорией товаров, а вся категория не имеет внутренней связи? Или, может быть, огромная часть страниц продуктов ожидает в очереди на индексирование?
  2. Оптимизируйте свой краулинговый бюджет. Сосредоточьтесь на обнаружении некачественных страниц, которые Google тратит много времени на сканирование. К обычным подозрениям относятся страницы отфильтрованных категорий и страницы внутреннего поиска — эти страницы могут легко попасть в десятки миллионов на типичном сайте электронной коммерции. Если робот Googlebot может свободно их сканировать, у него может не быть ресурсов для доступа к ценным материалам на вашем сайте, проиндексированным в Google.
3. «Повторяющееся содержание»

Дублирование контента может быть вызвано разными причинами, например:

  • Варианты языка (например, английский язык в Великобритании, США или Канаде). Если у вас есть несколько версий одной и той же страницы, ориентированных на разные страны, некоторые из этих страниц могут оказаться неиндексированными.
  • Дублированный контент, используемый вашими конкурентами. Это часто происходит в e-commerce, когда несколько сайтов используют одно и то же описание продукта, предоставленное производителем.

Помимо использования rel = canonical, 301 редиректа или создания уникального контента, я бы сосредоточился на предоставлении уникальной ценности для пользователей. Fast-growing-trees.com может быть примером. Вместо скучных описаний и советов по посадке и поливу на сайте можно увидеть подробный FAQ по многим продуктам.

Кроме того, вы можете легко сравнивать похожие товары.

Для многих продуктов есть FAQ.

Как проверить индексирование вашего сайта

Вы можете легко проверить, сколько страниц вашего сайта не проиндексировано, открыв отчет об индексировании в Google Search Console.

Первое, на что следует обратить внимание, — это количество исключенных страниц. Затем попробуйте найти закономерность — какие типы страниц не индексируются?

Если у вас интернет-магазин, вы, скорее всего, увидите неиндексированные страницы продуктов. Хотя это всегда должно быть предупреждающим знаком, вы не можете ожидать, что все страницы ваших продуктов будут проиндексированы, особенно на большом сайте. Например, в большом интернет-магазине обязательно будут дублирующиеся страницы и товары с истекшим сроком годности или отсутствующие в наличии. Этим страницам может не хватать качества, которое поместило бы их в начало очереди индексации Google (и это если Google вообще решит сканировать эти страницы).

Кроме того, на крупных интернет-магазинах, как правило, возникают проблемы с бюджетом сканирования. Я видел случаи, когда в интернет-магазинах было более миллиона товаров, в то время как 90% из них были классифицированы как «обнаруженные — в настоящее время не проиндексированные». Но если вы видите, что важные страницы исключаются из индекса Google, вы должны быть серьезно обеспокоены.

Как повысить вероятность того, что Google проиндексирует ваши страницы

Каждый сайт индивидуален и может иметь разные проблемы с индексированием. Тем не менее, вот советы, которые помогут вашим страницам индексироваться:

1. Избегайте ошибок «Soft 404».

Убедитесь, что на ваших страницах нет ничего, что может ложно указывать на мягкий статус 404. Это включает в себя все, что угодно, от использования «Не найдено» или «Недоступно» в копии до наличия числа «404» в URL-адресе.

2. Используйте внутренние ссылки.

Внутренние ссылки — один из ключевых сигналов для Google о том, что данная страница является важной частью сайта и заслуживает индексации. Не оставляйте лишних страниц в структуре вашего сайта и не забудьте включить все индексируемые страницы в карты сайта. Внутренние ссылки — один из элементов кайдзен сайта.

3. Реализуйте надежную стратегию сканирования.

Не позволяйте Google сканировать ваш сайт. Если на сканирование менее ценных частей вашего домена тратится слишком много ресурсов, Google может потребоваться слишком много времени, чтобы добраться до нужного. Анализ журнала сервера может дать вам полное представление о том, что сканирует робот Googlebot и как его оптимизировать.

4. Устранение некачественного и дублированного контента.

На каждом большом сайте в конечном итоге появляются страницы, которые не следует индексировать. Убедитесь, что эти страницы не попадают в ваши карты сайта, и при необходимости используйте тег noindex и файл robots.txt. Если вы позволите Google проводить слишком много времени в худших частях вашего сайта, это может недооценить общее качество вашего домена.

5. Посылайте последовательные сигналы SEO.

Один из распространенных примеров отправки непоследовательных сигналов SEO в Google — это изменение канонических тегов с помощью JavaScript. Как сказал Мартин Сплитт из Google во время работы JavaScript SEO Office Hours, вы никогда не можете быть уверены в том, что Google будет делать, если у вас есть один канонический тег в исходном HTML и другой после рендеринга JavaScript.

Интернет становится слишком большим

За последние пару лет Google совершил гигантский скачок в обработке JavaScript, упростив работу оптимизаторов поисковых систем. В наши дни реже можно увидеть сайты на базе JavaScript, которые не индексируются из-за конкретного технического стека, который они используют.

Но можем ли мы ожидать того же самого с проблемами индексации, не связанными с JavaScript? Я так не думаю. Интернет постоянно растет. Каждый день появляются новые сайты, а существующие растут. Сможет ли Google справиться с этой проблемой?

Этот вопрос появляется время от времени. Цитата Google:

«У Google ограниченное количество ресурсов, поэтому, когда он сталкивается с почти бесконечным количеством контента, доступного в Интернете, робот Googlebot может найти и просканировать только часть этого контента. Затем из просканированного контента мы можем проиндексировать только его часть».

Другими словами, Google может посещать только часть всех страниц в Интернете и индексировать еще меньшую часть. И даже если ваш сайт великолепен, вы должны помнить об этом.

Вероятно, Google не будет посещать все страницы вашего сайта, даже если он относительно небольшой. Ваша задача — убедиться, что Google может обнаруживать и индексировать страницы, важные для вашего бизнеса.

Почему сайт не индексируется?

Почему сайт не индексируется?

Чтобы страницы сайта отображались в выдаче, поисковики должны их проиндексировать. Если спустя некоторое время вы замечаете, что ваш сайт все еще не индексируется, нужно проверить его техническое состояние и найти ошибки.

Сколько нужно ждать индексации в Яндексе и Google?

Яндекс добавляет в поисковую выдачу новые страницы несколько раз в месяц. Однако материалы с авторитетных сайтов индексируются быстрее и попадают в поиск практически сразу после публикации.

Скорость индексации Google тоже зависит от степени авторитетности сайта и регулярности обновления контента. Например, популярные ресурсы, на которых постоянно выходят новые материалы, поисковые роботы посещают очень часто. Так что в выдаче можно найти даже статьи, опубликованные несколько часов назад. В среднем же на индексацию уходит от 2 до 4 дней. Однако новые сайты могут появиться в выдаче только через несколько недель.

Если все допустимые сроки прошли, необходимо вплотную заняться проблемой индексации. Ниже — наиболее распространенные причины, из-за которых страницы сайта могут оставаться незаметными для поисковых роботов.

Поисковики ничего не знают о вашем сайте

Если веб-проект только запустился, то на вопрос, почему Яндекс не индексирует сайт, будет очень простой ответ — потому что он его не видит. То же самое относится к Google. Поисковики быстрее начинают отслеживать те сайты, о которых им сообщают владельцы. Поэтому совет простой: запустили сайт — добавьте его в Яндекс.Вебмастер и Google Search Console.

  1. Откройте главную панель.
  2. Нажмите на плюс, чтобы добавить сайт.
  3. Укажите адрес сайта и любым доступным способом подтвердите права на него. Можно добавить метатег в раздел <head> на главной странице, разместить в корне сайта HTML-файл, добавить TXT-запись в DNS домена.

Добавление нового сайта

В Google Search Console:

  1. Нажмите «Добавить ресурс».
  2. Укажите адрес сайта.
  3. Подтвердите права собственности.

Не нужно добавлять каждую страницу сайта — достаточно только главной. Так поисковые роботы узнают о существовании нового веб-проекта и будут периодически его проверять.

Вместе с сайтом рекомендуется добавлять карту сайта. Ее отсутствие также может стать причиной того, что Google или Яндекс не индексирует сайт.

Все или отдельные страницы закрыты от индексации

Почему сайт не индексируется, если вы сообщили о нем поисковым системам? Возможно, дело в том, что в настройках сайта запрещена индексация.

Например, многие вебмастера при наполнении страниц контентом делают их недоступными для поисковых роботов, чтобы те не забрали недоделанные материалы. Чаще всего для этого используют файл robots.txt, в котором и задаются параметры индексации.

Откройте файл robots.txt. Посмотрите, есть ли в нем такая запись:

Если нашли ее, то удалите — это запрет на индексацию всего сайта. Могут быть и другие ограничения. Чтобы разобраться с настройками индексации, изучите статью о том, что такое robots.txt и как его настроить .

Если в robots.txt все в порядке, проверьте файл .htaccess. Ищите в нем подобный фрагмент:

Это полный запрет на индексацию сайта. Удалите эти строки, если Яндекс или Гугл не индексирует страницы.

Запрет на индексацию также может быть прописан в метатегах. Изучите раздел <head> на главной странице. Ищите такую запись:

Если такая строчка есть, удалите ее.

Отдельные настройки приватности есть у CMS и конструкторов сайтов. Например, сайт на WordPress закрывается от поисковых роботов с помощью опции «Видимость для поисковых систем». Если поставить галочку «Попросить поисковые системы не индексировать сайт», то, скорее всего, он не появится в выдаче. Однако нет гарантии, что этот запрос будет учитываться, в отличие от прямого запрета на индексацию в robots.txt или метатегах.

Есть проблемы с работой самого сайта или хостинга

Возможно, сайт не в индексе, потому что работает плохо. Например, его страницы очень медленно загружаются. Проверить это можно с помощью специальных сервисов — например, PageSpeed Insights.

Также следует обратить внимание на состояние HTML-разметки. Поисковые системы все еще лояльно относятся к ошибкам, но могут понижать приоритет сайта из-за кривой разметки. Например, нарушение вложенности тегов приводит к тому, что роботам тяжело разобрать содержимое страницы. Типичный пример:

Проблемы также могут быть с индексацией JavaScript. Если контент создается динамически, то поисковым роботам сложно его просканировать. Поэтому предпочтительнее оставлять на странице статичный код, который хранится в HTML-файле на сервере.

Возможные причины отсутствия индексации сайта также следует искать на стороне сервера. Если из-за проблем с хостингом страницы часто недоступны, то поисковые роботы приходят все реже, а затем и вовсе начинают их игнорировать.

Внутри сайта дублируется контент

Неиндексируемые сайты часто содержат дубли контента. За это они получают санкции от поисковых систем, которые поддерживают уникальность. К дублям может относиться одна и та же статья, доступная по разным адресам, метатеги. Важно также «склеивать» домены с WWW и без WWW, а также HTTP и HTTPS, чтобы поисковые системы понимали, по какому адресу расположена основная страница.

На домен наложен бан

Почему сайт не в индексе, если с технической стороны у него все в порядке? Возможно, дело в домене. Перед покупкой нужно обязательно проверять его историю. В противном случае вы рискуете нарваться на домен с плохой репутацией, забаненный в поисковых системах по причине злоупотребления «черными» методами продвижения или из-за других нарушений.

Узнать историю домена можно с помощью бесплатного сервиса whois.domaintools.com. С помощью него можно увидеть, сколько раз менялись владельцы домена, сколько имеется сайтов на том же IP, к которому прикреплен домен.

Не забывайте также об архиве интернета . Здесь можно ввести URL и посмотреть, как выглядел сайт несколько лет назад. Например, это главная страница Яндекса 10 марта 2012 года:

Как выглядел Яндекс в 2012 году

Что делать, если сайт вылетел из индекса по причине бана? Можно связаться с техподдержкой поисковой системы через инструменты вебмастера. Возможно, с домена снимут бан, если увидят, что на нем больше не происходит ничего противоправного.

Вывод

Причины отсутствия индексации сайта могут быть самыми разными — от случайного запрета проверки поисковыми роботами до бана домена. В большинстве случаев проблему можно решить самостоятельно, правильно настроив работу веб-проекта. Однако иногда поиск ответа на вопрос, почему не индексируется сайт в Яндексе или Google, занимает много времени даже у опытных вебмастеров.

Почему так сложно попасть в индекс Google

Каждый сайт стремится попасть в индекс Google. Ведь пользователи смогут найти ваши страницы, только если они будут проиндексированы поисковой системой. По крайней мере, все ожидают от поисковика именно этого.

Однако на практике дело обстоит немного иначе. Многие страницы вообще не индексируются Google.

Если вы когда-либо работали с крупным сайтом, то могли заметить, что далеко не каждая его страница попадает в индекс Google. Многим страницам приходится ждать неделями, прежде чем поисковый робот обратит на них внимание.

Отсутствие индексации зависит от различных факторов, многие из которых тесно связаны с ранжированием, например, качество контента и внутренние ссылки. Другие факторы обусловлены техническими сложностями. Сайты, активно использующие современные технологии, в прошлом испытывали серьезные проблемы с индексацией (а некоторые страдают до сих пор).

Многие по-прежнему считают, что иногда Google не может индексировать контент по сугубо техническим причинам, но это не более чем миф. Да, поисковый робот проигнорирует ваши страницы, если вы не отправляете технические сигналы о том, какие именно страницы требуют индексации. К аналогичному результату может привести и недостаточный краулинговый бюджет. Однако не менее важным критерием для попадания в индекс является качество вашего контента.

На большинстве сайтов, как крупных, так и совсем небольших, есть много контента, который нужно проиндексировать. Но почему-то этого не происходит. И хотя такие вещи, как JavaScript, действительно усложняют задачу, но в индекс могут не попадать даже сайты, написанные на чистом HTML. В этой статье мы рассмотрим наиболее распространенные проблемы и предложим способы их решения.

Почему Google не индексирует ваши страницы?

Используя специальный инструмент проверки индексации, я проанализировал большое количество популярных в США интернет-магазинов. Оказалось, что в среднем 15% продуктовых страниц не были проиндексированы.

Меня удивили такие результаты. Поэтому на следующем этапе я решил выяснить причины, по которым Google решает не индексировать страницы, технически для этого пригодные.

Google Search Console позволяет узнать статус таких страниц, например, Crawled — currently not indexed (Просканировано — на данный момент не проиндексировано) или Discovered — currently not indexed (Обнаружено — на данный момент не проиндексировано). Хотя подобные сведения не помогают напрямую решить проблему, их можно использовать для дальнейшей диагностики.

Почитайте наш перевод статьи о том, как сделать запрос к API Search Console, чтобы получать более согласованные данные, а также увеличить экспорт на 400% (примеч. Ant-team.ru).

Главные проблемы с индексированием

На основе большой выборки сайтов, а также отчетов Google Search Console, я выделил следующие распространенные проблемы, связанные с попаданием в индекс:

1. Crawled — currently not indexed (Просканировано — на данный момент не проиндексировано).

В этом случае поисковый робот посетил страницу, но не проиндексировал ее.

Обычно проблема заключается в качестве контента. Учитывая, что сейчас мы наблюдаем стремительный рост числа интернет-магазинов, Google вполне ожидаемо стал более избирательным в вопросах качества. Поэтому, если ваши страницы помечены как Crawled — currently not indexed, убедитесь, что их контент обладает достаточной ценностью:

  • Используйте уникальные теги title, description и уникальный текст на всех индексируемых страницах.
  • Не копируйте описания продуктов из внешних источников.
  • Используйте канонические теги для объединения дублированного контента.
  • Запретите поисковому роботу сканировать или индексировать некачественные разделы сайта с помощью файла robots.txt или тега noindex.

Ознакомьтесь с нашим переводом статьи Криса Лонга про статус “Просканировано, но не проиндексировано”: что он означает и как от него избавиться (примеч. Ant-team.ru).

2. Discovered — currently not indexed (Обнаружено — на данный момент не проиндексировано).

Это моя любимая проблема, поскольку она охватывает практически все аспекты: от задержки сканирования до низкого качества контента. Особенно подвержены этой проблеме крупные интернет-магазины. Мне встречались случаи, когда на одном сайте десятки миллионов URL-адресов были отмечены как Discovered — currently not indexed.

Рисунок 1. Discovered — currently not indexed

Продуктовым страницам поисковый робот присваивает такой статус по следующим причинам:

  • Проблема с краулинговым бюджетом. В очереди на сканирование слишком много URL-адресов. Они могут быть просканированы и проиндексированы позже.
  • Проблема с качеством. На основе закономерностей в URL-адресах поисковая система решает, что некоторые страницы в этом домене не стоит сканировать, и не посещает их.

Чтобы справиться с этой проблемой, необходимы определенные знания и опыт. Если вы обнаружили, что страницы помечены как Discovered — currently not indexed, выполните следующие действия:

1. Определите, есть ли закономерности между страницами, попадающими в эту категорию. Возможно, проблема связана с определенной категорией товаров, и при этом отсутствуют внутренние ссылки. Или ваши страницы уже находится в очереди на индексацию.

2. Оптимизируйте краулинговый бюджет. Найдите некачественные страницы, на сканирование которых поисковый робот тратит много времени. Как правило, к ним относятся страницы фильтрации и страницы внутреннего поиска. На сайте стандартного интернет-магазина количество таких страниц достигает десятков миллионов. И если Googlebot может свободно сканировать такие страницы, то у него просто не останется ресурсов для доступа к ценным материалам на других страницах вашего сайта.

Во время вебинара Rendering SEO Мартин Сплитт (Martin Splitt) из Google дал несколько ценных советов по решению проблемы Discovered not indexed.

3. Duplicate content (Дублированный контент).

Дублированный контент может возникать по самым разным причинам:

  • Варианты языка (например, английский язык в Великобритании, США или Канаде). Если у вашей страницы есть несколько версий, ориентированных на пользователей из разных стран, некоторые из них могут остаться непроиндексированными.
  • Дублированный контент, используемый вашими конкурентами. Часто несколько интернет-магазинов используют одно и то же описание продукта, предоставленное производителем.

Помимо rel=canonical, 301 редиректа или уникального контента, можно сосредоточиться на действительно полезных для клиента функциях. В качестве примера я приведу сайт fast-growing-trees.com. Вместо скучных описаний и советов по посадке и поливу, вы найдете здесь подробный раздел вопросов и ответов с полезной информацией по многим продуктам.

Кроме того, можно легко сравнивать похожие товары по целому ряду параметров.

Рисунок 2. Сравнение

Помимо уже имеющегося раздела FAQ, каждый покупатель может задать вопрос о том или ином растении и получить подробный ответ от сообщества.

Рисунок 3. Ответ от сообщества

Как проверить индексацию сайта

Вы можете легко проверить количество непроиндексированных страниц вашего сайта, открыв соответствующий отчет в Google Search Console (Index Coverage report).

Рисунок 4. Index Coverage report

Первое, на что следует обратить внимание, — это количество исключенных страниц. Затем попробуйте найти закономерность и понять, какие категории страниц не индексируются.

Если вы владелец интернет-магазина, то, скорее всего, увидите непроиндексированные продуктовые страницы. Хотя это всегда является тревожным знаком, но не стоит ожидать, что в индекс попадут все продуктовые страницы вашего сайта (особенно если он достаточно большой). Например, на сайтах крупных интернет-магазинов обязательно будут дублирующие страницы, а также товары с истекшим сроком годности или отсутствующие на складе. Как правило, у таких страниц недостаточно высокое качества, чтобы оказаться в самом начале очереди на индексацию (если поисковый робот вообще решит их сканировать).

Кроме того, крупные интернет-магазины обычно имеют проблемы с краулинговым бюджетом. Мне встречались случаи, когда в интернет-магазине с миллионом товаров в ассортименте 90% страниц были классифицированы как Discovered — currently not indexed. Но если вы заметили, что из индекса Google начали пропадать важные страницы, это действительно повод для беспокойства.

Как повысить шансы страниц на индексацию

У разных сайтов могут быть разные проблемы с попаданием в индекс. Тем не менее существует ряд советов, которые в большинстве случаев дают положительный результат.

1. Избегайте сигналов Soft 404.

Убедитесь, что на ваших страницах нет ничего, что могло бы выдавать ложную ошибку 404. Это относится даже к фразам «не найдено», «недоступно» в тексте страницы или к числу 404 в URL-адресе.

2. Используйте внутренние ссылки.

Внутренние ссылки — один из ключевых сигналов для поисковой системы, что данная страница является важной частью сайта и заслуживает попадания в индекс. Не оставляйте страницы без ссылок, а также включите все индексируемые страницы в карту сайта.

3. Разработайте надежную стратегию сканирования.

Не позволяйте Google сканировать на сайте все подряд. Если на сканирование менее ценных частей сайта уходит слишком много ресурсов, поисковый робот может очень нескоро добраться до действительно важных страниц. Анализ журналов сервера поможет понять, что именно сканирует Googlebot и как оптимизировать процесс.

4. Устраните некачественный и дублированный контент.

На каждом крупном сайте в конечном итоге появляются страницы, которые не нужно индексировать. Убедитесь, что такие страницы отсутствуют в картах сайта, и при необходимости используйте тег noindex и файл robots.txt. Если Google проводит слишком много времени на менее качественных страницах, он может недооценить общее качество вашего домена.

5. Отправляйте правильные SEO-сигналы.

Один из распространенных примеров отправки неправильных SEO-сигналов в Google — это изменение канонических тегов с помощью JavaScript. Как заявил Мартин Сплитт из Google во время JavaScript SEO Office Hours: «Нельзя быть уверенным в действиях Google, если один канонический тег находится в исходном HTML, а другой появляется после рендеринга JavaScript».

Интернет разрастается слишком быстро

За последние пару лет Google совершил гигантский скачок в обработке JavaScript, упростив работу SEO-специалистов. В наши дни нечасто можно увидеть сайты на JavaScript, которые не индексируются по причине сложности использованных технологий.

Устранит ли Google таким же образом и другие проблемы с индексацией? Не думаю.

Интернет постоянно расширяется. Каждый день появляются новые и разрастаются уже существующие сайты.

Сможет ли поисковая система справиться с этой задачей?

Вопрос становится все более актуальным. Я бы хотел процитировать представителей самой компании:

«У Google ограниченное количество ресурсов. Поэтому, сталкиваясь с практически бесконечным количеством доступного в интернете контента, Googlebot способен найти и просканировать только определенный его процент. И только определенная часть просканированного контента сможет попасть в индекс Google».

Другими словами, Google может посещать только часть всех страниц в интернете, и еще меньшую часть — индексировать. И даже если у вас очень крутой сайт, необходимо помнить это правило.

Google, скорее всего, не будет просматривать все страницы вашего сайта, даже если он относительно небольшой. Поэтому ваша задача — убедиться, что поисковая система сможет обнаружить и проиндексировать действительно важные страницы.

Как ускорить индексацию сайта в Яндексе и Google ��

Чем быстрее страница займет место в выдаче поисковой системы, тем быстрее ее смогут увидеть пользователи, и тем больше вероятность, что она будет считаться первоисточником контента.

Нельзя точно сказать, когда боты поисковых систем просканируют страницу и она появится в выдаче. На частоту индексирования страниц ботами влияет:

  • Частота обновления контента страниц. Боты составляют краулинговый бюджет сайта на основе данных об обновлении контента. Если страницы не меняются, нет смысла их часто сканировать.
  • Поведенческие факторы, которые обрабатывают поисковые боты. Чем лучше ПФ, тем востребованнее сайт у аудитории, а это еще один сигнал к повышению внимания от робота.
  • Хостинг. На загруженном хостинге снижается скорость обработки запросов от робота.

Разберем типичные проблемы, с которыми сталкиваются оптимизаторы.

Частые проблемы с индексацией сайта в ПС

Страницы вообще не индексируются

Если роботы и Яндекса, и Google игнорируют страницы сайта, нужно убедиться, что ботам не запретили обход. Проверьте настройки хостинга и файл robots.txt — там не должно быть запрета на индексацию. Также запрет может быть в HTTP-заголовке X-Robot-Tag, который находится в файле конфигурации сервера. Проверить запрет через X-Robots-Tag можно в инструменте бесплатно.

Страницы не индексируются одним из поисковиков

Если либо Google, либо Яндекс не индексируют страницы сайта, проблема может быть в санкциях от этого поисковика. Нужно определить, какие санкции лежат на сайте, и исправить ошибки. Помогут материалы о санкциях Яндекса и фильтрах Google.

Страницы индексируются, но долго

Если приходится долго ждать индексации новых страниц, вариантов может быть много: контент редко обновляется и поэтому боты редко его посещают, страницы не оптимизированы, не участвуют в перелинковке или проблема в чем-то другом. Способы ускорить индексацию мы разберем дальше.

Посмотреть динамику индексации страниц и найти ошибки в SEO можно в сервисе для анализа сайта от PR-CY:

Проверить индексирование страниц онлайнГрафик индексации в сервисе

Итак, если страницы не индексируются, то проверьте ограничения, если игнорирует поисковик, то возможны санкции, а если индексирование идет, но долго, это повод попытаться его ускорить.

Как ускорить индексацию страниц

Представитель Google Джон Мюллер на вопрос об индексировании ответил так:

Создавайте превосходный контент, а если ваш контент плохо индексируется, то он недостаточно превосходный. 🙂 Это все, конечно, хорошо, но давайте посмотрим, что конкретно можно сделать, чтобы ускорить процесс.

Отправить страницу на переобход

Можно дополнительно обратить внимание поисковиков на конкретные URL. В Google Search Console и Яндекс.Вебмастере найдите переобход страниц и отправьте нужные URL на индексацию.

В Яндекс.Вебмастере это раздел Индексирование — Переобход страниц. В консоли Google это Инструмент проверки URL.

Массовая отправка страниц на переиндексацию в Google

Есть способ отправлять на повторное сканирование не по одной ссылке за раз, а по 200 URL в день. В этом мог бы помочь бесплатный скрипт, который сделал SEO-отдел компании Journey Further на базе Indexing API Google. Проблема в том, что для его работы понадобится аккаунт в Google Cloud Platform, но в марте Google перестал регистрировать пользователей из России в своем облачном сервисе.

Если вы не из РФ, можете настроить скрипт для массовой переиндексации URL. Для этого нужно:

Создать сервисный аккаунт в Google Cloud Platform.

Создать закрытый JSON-ключ.

Скачать скрипт и вставить ключ вместо содержимого service_account.

Связать скрипт с Google Search Console: назначить владельцем client_email. Нужен не полный доступ, а именно роль «Владелец».

Перейти по ссылке, выбрать сервисный аккаунт, который вы создали, и включить Index API.

В папке скрипта открыть файл urls и внести в него до 100 URL. Если нужно больше, можно отправить еще до 100 во втором заходе. В день можно отправлять не больше 200 ссылок.

Вызвать PowerShell, зажав Shift и правую кнопку мыши в окне.

Прописать node index.js.

Готово, через несколько секунд появится 200 ОК.

Проверить разрешения в robots.txt

В файле robots.txt веб-мастер прописывает рекомендации для поисковых ботов Яндекса и Google. Можно запретить ботам посещать некоторые страницы, для этого есть директива «disallow», «nofollow», можно использовать мета-тег «noindex» или «none». Тогда при следующем посещении сайта бот увидит запрет и может к нему прислушаться. А может и не прислушаться.

Как говорит Ксения Пескова, SEO-TeamLead в Siteclinic:

В любом случае, лучше проверить файл robots, вдруг там стоят запреты, к которым прислушались боты поисковых систем.

Создать Sitemap — Карту сайта

Карта сайта помогает поисковым ботам понять структуру ресурса и обнаруживать обновления контента.

Для ускорения индексации карту можно сделать динамической, то есть по мере создания новых страниц она сама будет обновляться. Для проектов на конструкторах сайтов, например, на Tilda, карта по умолчанию динамическая, для CMS есть плагины и отдельные сервисы. К примеру, на WordPress с этой задачей справится All in One SEO Pack.

Можно обновить файл Sitemap вручную. Обновленные страницы Google рекомендует отметить в Карте тегом < lastmod >. Обновленный файл отправьте с помощью специального отчета. Не стоит загружать один и тот же файл повторно: если вы ничего не поменяли в Карте сайта, никаких изменений не будет.

Но опять же, ссылки в Карте сайта — это рекомендации, важнее создать грамотную структуру сайта и организовать внутреннюю перелинковку.

Проверить структуру и перелинковку разделов

На сайте не должно быть страниц, оторванных от других. Если на страницу не ведут ссылки с категорий, разделов и других страниц, поисковикам сложнее определить ее релевантность и неоткуда перейти на нее для сканирования. Такие страницы называют сиротами.

Страница без ссылок в структуре

Страница-сирота в структуре сайта

Нужно встроить их в структуру сайта. К примеру, в этой схеме каждая страница имеет ссылку с родительской категории, но они вполне могут линковаться и между собой:

Грамотная структура сайта

Упрощенный пример структуры сайта, подходит для меню

Еще один момент, который влияет на поведение бота — это Click Distance from Index (DFI), то есть количество кликов от главной до текущей страницы. Чем оно меньше, тем важнее считается страница, тем больший приоритет она получит с точки зрения бота. Приоритетные страницы он смотрит первее остальных.

DFI не определяется по числу директорий в URL, они могут не совпадать. Например, если на главной странице будет ссылка на хит продаж — конкретную модель холодильника Atlant, то DFI будет равен двум. Но при этом карточка модели может находиться в каталоге и подразделе каталога, тогда директорий будет больше — site.com/shop/refrigerator/one_chamber_refrigerators/atlant/h_1401_100.

Если страница не индексируется, проверьте ее расположение в структуре сайта и количество кликов до нее с главной.

Взять за правило обновлять контент

Поисковики ценят, когда веб-мастер следит за актуальностью контента, исправляет его и добавляет что-то новое. Регулярно обновляющийся сайт бот будет чаще сканировать. Чем реже обновлять контент, тем реже боту понадобится его перепроверять.

Сотрудник Google советовал добавлять на страницу видео с Youtube, если странице нечего добавить и содержание еще актуально. Поведенческие улучшатся за счет просмотра видео, на странице появится новый формат контента — это тоже хороший сигнал для поисковика.

Публиковать ссылки в соцсетях и на других площадках

Найдите сторонние сайты по вашей тематике, где можно оставлять ссылки или публиковать посты, и размещайте таким образом ссылки на новые материалы.

CTO компании Pear Advert Иван Самохин:

Вы можете договориться о партнерстве с площадкой, близкой вам по тематике, и обмениваться ссылками. Главное, что размещения ссылок должны выглядеть естественными и подходить по теме. К примеру, ссылка на магазин рыболовных снастей будет уместно выглядеть на форуме рыболовов или туристическом портале. Ищите справочники, форумы, другие соцсети, отзовики, сервисы вопросов и ответов и другие площадки для размещения.

Если вы ведете страницы в социальных сетях, размещайте на них анонсы ваших новых материалов. С помощью разметки OpenGraph можно задать ссылке красивое превью с нужной картинкой и заголовком, и получить переходы пользователей на страницу.

Как сделать превью для ссылки

Превью ссылки в посте в ВКонтакте

Ускорить загрузку сайта

Ограничивать индексацию может долгий ответ сервера. По словам Джона Мюллера из Google, если в среднем это время составляет больше одной секунды, Google не будет сканировать столько страниц, сколько мог бы.

Медленная загрузка страниц вредит им по всем параметрам: пользователи не ждут, а поисковые системы считают страницы некачественными и могут даже понизить сайт в выдаче, если проблема с загрузкой есть у всех страниц.

Многое можно проверить на сайте автоматически. Поможет сервис для анализа сайта: он оценит загрузку сайта и отдельно найдет конкретные страницы, на которых есть проблема со скоростью.

Сервис для измерения скорости сайта онлайнПроверка скорости загрузки Онлайн сервис для аудитаПоиск медленных страниц на сайте

FAQ: что еще влияет на скорость индексации сайта

Как страницы вне индекса могут повлиять на отношение поисковика к сайту?

Качество контента на сайте поисковики оценивают только по проиндексированным страницам.

Тег noindex может влиять на индексацию страницы после его снятия?

По словам Джона Мюллера из Google, у веб-мастера не будет проблем с реиндексацией URL, на которых когда-то был noindex.

Как редирект влияет на индексацию страниц?

Джон Мюллер утверждает, что поисковик скорее всего не проиндексирует конечный URL при использовании ссылок с 301 редиректом.

Как ускорить индексацию страниц, которые были 404?

Если адрес страницы отдавал 404 и не был индексирован, на индексирование может потребоваться некоторое время. Как советуют Seroundtable, можно создать новый URL для этого контента и настроить 301 редирект со старого адреса, либо запросить повторное сканирование URL.

Как поисковики относятся к URL c хэшами?

URL с хешами поисковик не проиндексирует. То есть ссылка https://site.ru/news/p/statya проиндексируется, а ссылка на конкретную часть статьи — https://site.ru/news/p/statya#step — нет.

Расскажите, какие способы ускорить попадание в индекс знаете вы? Добавьте в комментариях, если мы что-то упустили в материале.

Добавить комментарий

Ваш адрес email не будет опубликован.