Индексация сайта в Google
Чтобы пользователи могли найти ваш сайт, поисковые системы должны его проиндексировать. После этого он будет доступен всем, кто введет в строку поиска соответствующий запрос. Рассказываем в статье более подробно о том, как добавить сайт в Google и избежать возможных ошибок.
Зачем поисковики индексируют сайты;
Почему это важно пользователям и компаниям;
Что влияет на индексацию;
Как проиндексировать сайт в Google;
Индексация сайта: зачем она нужна и как выполняется
На конец 2020 года в интернете насчитывается около 2 миллиардов веб- сайтов . Из них активны примерно 400 миллионов. И каждый день создаются тысячи новых страниц. Чтобы пользователи могли легко и быстро находить в таком объеме данных именно то, что их интересует, поисковые системы четко структурируют информацию и размещают её в своих каталогах — в них хранятся сведения обо всех страницах всех сайтов в интернете.
Индексация сайтов – это, по сути, внесение всей имеющейся на страницах информации, включая изображения, тексты, ключевые фразы, ссылки , и видео, в каталог поисковика. Только после этого сайты могут попасть в поисковую выдачу.
Индексацию выполняют поисковые роботы. Они в автоматизированном режиме проверяют обновление контента на сайте. Считается, что среди всех поисковых систем именно Google выполняет проверку новых ресурсов быстрее всего. Тем не менее, на скорость работы роботов также влияет посещаемость сайта и частота обновления информации. Например, на новостные порталы, где контент обновляется постоянно и через короткие промежутки времени, роботы заходят до нескольких раз в день. Если информация обновляется реже, то индексация может проводиться 1-2 раза в неделю. Если содержание страницы не обновлялось давно, робот будет заходить на нее, но не чаще раза в неделю.
За одно посещение робот индексирует 20-30 страниц, чтобы не перегружать сервер. Если на сайте больше страниц, робот зайдет на него несколько раз.
Каждый поисковик устанавливает глубину индексации – то есть, на сколько уровней робот может опуститься, переходя по ссылкам одного ресурса. Как правило, он изучает верхние уровни и при достижении определенной метки покидает сайт. Это означает, что при разветвленной структуре некоторые вложенные страницы могут остаться непроиндексированными.
Ранжирование сайта после индексации
После того, как роботы закончат анализ страницы, они вносят всю информацию в базу данных каталога, ранжируют сайт и определяют его авторитетность. Показатели PageRank зависят от количества и качества ссылок, которые ведут на ресурс – чем больше ссылочная масса, тем выше рейтинг. Авторитетность страниц определяется по 10-балльной шкале. Если сайт набрал 4-5 баллов, то это хороший показатель.
Требования к сайту для индексации
Есть три основных фактора, которые влияют на индексацию.
Посещаемость ресурса. Содержание страниц должно соответствовать запросам пользователей в поисковике. Для этого в текстах и метатегах необходимо размесить ключевые слова.
Качество контента. Контент должен быть уникальным и полезным, а тексты написаны без грамматических ошибок. Роботы отслеживают ошибки и снижают авторитетность сайтов. Желательно регулярно обновлять контент. О том, какой контент нравится Google , читайте в нашей статье .
Внутренняя оптимизация. Сайт должен иметь понятную и удобную для пользователей структуру. Необходимо, чтобы раздел контактов и обратной связи содержал релевантную информацию. Желательно размещать портфолио и отзывы. Все исходящие ссылки должны быть работающими.
Как добавить сайт на индексацию в Google?
Для того чтобы сайт появился в результатах поиска Google, не обязательно предпринимать какие-либо действия. Рано или поздно поисковые роботы найдут его и проиндексируют. Но, как мы говорили выше, боты перемещаются по сайту, переходя по ссылкам, и если ссылочной массы, ведущей на страницу, недостаточно, то пройдет довольно много времени, прежде чем роботы попадут на неё.
Чтобы помочь поисковым алгоритмам быстрее понять, как организован контент на вашем сайте, и точнее проиндексировать его, Google предлагает бесплатный инструмент Search Console. С его помощью можно подавать запросы на индексирование, узнать, как роботы видят сайт, выявить и устранить проблемы. В Google Search Console можно получить информацию, которая поможет улучшить взаимодействие ресурса с системами и пользователями.
Индексация сайта с помощью Search Console
Для индексации в Google , выполните следующие шаги:
Создайте Google -аккаунт, если у вас его еще нет, или авторизуйтесь в существующем.
Введите адрес главной страницы сайта и пройдите проверку, что вы не робот.
Подтвердите свои права на сайт. В инструкции Google предлагает 8 вариантов подтверждения и напоминает, что лучше иметь несколько запасных на случай, если основной перестанет работать.
Создайте файл Sitemap . xml . Это карта сайта , в которой содержится информация о структуре и контенте ресурса – страницах, изображениях, видео и пр. В файле можно указать все дополнительные сведения: какие разделы важны, когда страница обновлялась последний раз, есть ли версии на других языках и другие. Также можно добавить специфические данные о видео и изображениях: продолжительность записи, возрастные ограничения, тип файла, условия лицензирования и т.д.
Проверьте, что в файле Sitemap . xml нет ошибок. В разделе Инструменты веб-мастера зайдите в панель управления сайтом . Нажмите кнопку «Сканирование» и выберите пункт « Файлы Sitemap ». Перейдите в раздел «Добавление/проверка файла Sitemap » и укажите адрес файла. Выберите «Проверить Sitemap ».
После проверки в этом же разделе нажмите на кнопку «Отправить файл Sitemap ».
Теперь сайт индексируется в Google . Помните, что индексация материалов сайтов поисковиком не означает продвижение. Для того чтобы попасть в топ выдачи придется приложить гораздо больше усилий. Об эффективной поисковой оптимизации читайте в наших статьях с хештегом SEO .
Как проверить, что сайт проиндексирован
Базовый способ – посмотреть данные на обзорной странице Search Console . Там будут представлены все сводные данные на основе ключевых показателей, в том числе – статус индексирования. В Search Console также доступен Отчет об индексировании и Отчет о файлах Sitemap . Если вы видите рост количества ошибок, связанных с индексированием, своевременно исправляйте их, так как ошибки влияют на результаты поисковой оптимизации.
Второй вариант проверки – вручную с помощью поискового оператора « site :». Введите в поисковую строку команду: site :[ url _сайта], чтобы получить данные о количестве проиндексированных страниц.
В автоматическом режиме можно выполнить проверку с помощь плагинов и букмарклетов – закладок браузера.
Также можно установить специальные сервисы для проверки индексации сайта .
Возможные проблемы при индексации
Возможны две ситуации, при которых Google не проиндексирует ваш сайт:
В случае проблем с сервером. Вы увидите сообщение о том, что хостинг не отвечает на запросы системы, и не сможете выполнить процедуру. В этом случае повторите попытку позже, когда сайт снова заработает. Если проблемы с хостингом возникают систематически, подумайте о смене провайдера. Отсутствие ошибок на сайтах и стабильная их работа учитывается алгоритмами поисковых систем при ранжировании в выдаче. Кроме того, вряд ли вы захотите потерять клиентов из-за неработающего сайта.
Быстрая индексация в Google
Через панель веб-мастера Google. В разделе «Сканировать» выберите пункт «Посмотреть как Googlebot». Вставьте адрес новой страницы в соответствующее поле без адреса самого сайта — то есть удалить из URL эту часть. Нажмите кнопку «Сканировать», а по завершении процесса – кнопку «Добавить в индекс». Появление сканированной страницы в индексе займет от нескольких минут до получаса. Единственный недостаток такого способа заключается в том, что его необходимо выполнять вручную. Если вам нужно проиндексировать в Google сразу несколько страниц, это потребует времени.
С использованием файла Site m ap.xml. Он определяет скорость индексации новых страниц, поэтому ссылки на них нужно добавлять сразу же. Так роботы будут находить их быстрее. Рекомендуем использовать динамический Site m ap.XML, а не обновлять его вручную после каждой корректировки сайта.
С помощью оптимизации файла robots.txt. Этот файл позволяет задать поисковым роботам Google директивы, в соответствии с которыми они могут проиндексировать содержимое сайта. На скорость процесса особенно влияет директива Disallow. Она определяет, какие файлы, веб-страницы и разделы не нужно индексировать и благодаря этому роботы быстрее доходят до новых страниц.
С помощью социальных сетей и RSS-канала. Можно ускорить индексацию сайта или нового контента, если опубликовать ссылки на него в социальных сетях. Добавьте на страницы кнопки соцсетей, чтобы посетители могли делиться вашими материалами в своих профилях и наращивать ссылочную массу. Создайте RSS -канал и добавляйте в него ссылки на новые страницы. С точки зрения пользователей, этот формат распространения информации устаревает, однако для поисковых систем он все еще является хорошим источником сведений о появлении нового материала на сайте.
Индексация сайта в Google – не самая сложная задача. Однако после индексации стоит заняться продвижением, а это уже требует комплексной и продолжительной работы.
SEO-фрагменты (SEO Snippets) Google: Как часто проходит индексация сайтов в Google?
С 21 декабря 2017 г. Google публикует SEO-фрагменты (SEO Snippets) – короткие обучающие видео. Ниже перевод очередного SEO-фрагмента.
Джим из Ванкувера, штат Вашингтон, задал вопрос: «Как часто сайт индексируется в Google? Кажется, происходит это значительно реже, чем должно. Мы добавляем или убираем страницы, но проходят недели прежде, чем эти изменения отображаются в поиске Google».
Вам также может быть интересно, сколько времени нужно Google для отображения значительных изменений на сайте? Как ускорить этот процесс?
Полный анализ сайта (прим. ред., полная индексация) в короткий промежуток времени может сильно увеличить нагрузку на сайт. У Google бота есть лимит страниц, которые он может обработать за день. Это количество определяется автоматически. Как же это происходит?
Google бот чаще остальных сканирует важные страницы, чтобы в первую очередь отобразить изменения именно на них. К таким страницам относится главная страница или страницы более высокого уровня, т.к. новый контент обычно появляется на них. Поэтому работа начинается отсюда. Такие страницы сканируются чаще остальных – каждые несколько дней или даже чаще, в зависимости от сайта.
Как проиндексировать сайт в Google и повысить видимость: опыт использования Google Indexing API с примерами
История о том, как мы за 10 дней проиндексировали сайт в Google (более 30 000 страниц), используя Google Indexing API.
Конечно, мы работали с индексацией на протяжении всего 2021 года, но стандартные работы по перелинковке с расчетом весов, внедрению плитки тегов и дополнительных сквозных блоков не принесли ожидаемого эффекта. К счастью, мы нашли решение, которым делимся в этой статье.
Этот материал будет полезен как крупным, так и небольшим сайтам.
В качестве примера мы рассматриваем сайт интернет-магазина.
Когда речь идет об индексации в поисковой системе (Гугл), то прежде всего мы имеем в виду краулинговый бюджет. Это определение включает в себя множество факторов, которые влияют на индексацию: перелинковка, размер сайта, частота сканирования сайта роботами поисковой системы, настроенные заголовки и многое другое. Более подробно ознакомиться с понятием “краулинговый бюджет” можно по ссылке.
Таким образом, чтобы поисковик начал индексировать, а в последствии и ранжировать сайт, необходимо выполнить программу-минимум:
- качественный контент и его оптимизация (метатеги);
- микроразметка;
- настроенные заголовки Last-Modified;
- блоки перелинковки, например плитка тегов в категориях и товарах;
- стабильный сервер-хостинг сайта; (YMYL);
- корректные robots.txt и карты сайта.
Выполнив все работы из этого списка примерно к середине 2021 года (ориентировочно июнь-июль), мы начали ждать положительных результатов в ПС Google.
Здесь следует отдельно поблагодарить команду маркетолога, а именно: программиста, дизайнера и контент-менеджера, за то что помогли быстро осуществить все внедрения по сайту. Это дало проекту колоссальный рост видимости в Яндекс, а нам — возможность построить дальнейшие гипотезы для продвижения в Гугл.
Результаты продвижения в Яндекс представлены на рисунке 0. Если интересно, что конкретно мы делали и внедряли на проекте, то пишите в комментариях, и мы разберем это в отдельной статье.
К сожалению, у нас не сохранился скриншот, который бы отражал индексацию сайта в Google на протяжении всего 2021 года. Но по рисунку 2 очевидно, что все проведенные работы никак не повлияли на количество проиндексированных страниц. Мы находились на стабильном плато.
Да, на рисунке 2 в индексе находится около 10 000 страниц, но общий размер сайта составляет 70 000 URL-адресов. Ориентировочно в середине сентября (спустя 1-2 месяца после внедрения всех работ) мы начали искать новые решения, как проиндексировать сайт. Из известных способов оставалось:
- Ссылки (биржи, pbn сети и др.).
- WebMaster Bot (если кто-то его не знает, то вот ссылка: @wmaster_bot).
- Разработка более продвинутых и сложных способов перелинковки, например “Ловец ботов” от Дмитрия Шахова.
Все эти способы достойны того, чтобы их прорабатывать. Но мы, оптимизаторы, всегда должны искать более экономичные и быстрые варианты выполнения сложных задач.
Google Indexing API — инструмент, позволяющий отправлять в Google ссылки на новые и обновленные посадочные, а также удалять старые и ненужные мусорные ссылки. Лимит на отправку данных в Google — 200 ссылок в сутки.
В начале сентября, перед отпуском, мне прислали ссылку на пост https://t.me/drkwng/17 про индексатор Гугл, написанный на Python. Я добросовестно отложил этот пост в список To Do, что стало первой существенной ошибкой. Тем не менее, не погружаясь в тему более подробно, мы написали программисту ТЗ на индексатор. Но существенный недостаток индексатора — это лимит в 200 запросов. Вспоминаем, что нам необходимо проиндексировать более 60 000 ссылок, делим указанное количество на 200 запросов (в день), в итоге получаем 300 дней (почти год без двух месяцев).
Кстати, индексатор от drkwngdata был значительно улучшен. Чтобы им воспользоваться, не нужно быть программистом. Достаточно прочитать пост https://t.me/drkwng/57 и файл readme.txt по ссылке на скачивание Python-скрипта.
Прежде чем перейти к разбору индексатора от Google, требовалось определить, какие ссылки проиндексированы, а какие — нет. В распоряжении у SEO-специалистов для решения такой задачи могут быть как готовые сервисы и программы, так и индивидуальные решения (разработки). В нашем случае использовался парсер в связке с XEvil и фермой мобильных прокси. Далее расскажу по пунктам, какой из инструментов за что отвечает:
- A-Parser — отправляет запросы к реальной выдаче Гугл. Обрабатывает ответы и сохраняет все данные. Иными словами, это гибкий парсер, который можно настроить под любые цели.
- XEvil — компонент от Хрумера (ссылочные прогоны по форумам и профилям), который позволяет разгадывать капчи (продается в комплексе с Хрумером).
- Ферма мобильных прокси — модемы с симками, через которые осуществлялись запросы к реальной выдаче, чтобы получать как можно меньше капч.
На этом этапе мы получили таблицу со списком ссылок, которые необходимо проиндексировать (везде, где количество страниц в индексе равно 0). Пример на рисунке 3.
Углубленное руководство по принципам работы Google Поиска
Наша поисковая система полностью автоматизирована и использует так называемых поисковых роботов, которые постоянно сканируют интернет и добавляют в индекс новые страницы. Именно так найдены почти все сайты, доступные в Google Поиске. В этом документе рассказывается о том, как Google Поиск работает с контентом на вашем сайте. Изучив приведенную ниже информацию, вы сможете устранить проблемы со сканированием и индексированием страниц, а также узнаете, как оптимизировать показ своего сайта в Google Поиске.
Примечания
Мы не берем плату за то, чтобы чаще сканировать сайты или повышать их позиции в результатах поиска. Те, кто утверждает обратное, вводят вас в заблуждение.
Мы не гарантируем, что ваш сайт будет просканирован, проиндексирован и показан в результатах поиска, даже если он соответствует рекомендациям и правилам Google.
Три этапа в алгоритме работы Google Поиска
Алгоритм работы Google Поиска состоит из трех этапов, однако их проходят не все страницы.
- Сканирование. Google скачивает текст, изображения и видеофайлы с сайтов в интернете с помощью автоматизированных программ, называемых роботами.
- Индексирование. Google анализирует текст, изображения и видеофайлы на странице и сохраняет информацию о них в индексе Google, который представляет собой большую базу данных.
- Показ результатов поиска. Когда пользователь вводит в Google поисковый запрос, наша система показывает наиболее подходящие результаты.
Сканирование
Первый этап заключается в поиске страниц, опубликованных в интернете. Поскольку их официального реестра не существует, роботу Google приходится постоянно искать новые страницы и добавлять их к списку уже известных. Этот процесс называется «обнаружение URL». О некоторых страницах известно, потому что робот Google посещал их раньше. Другие обнаруживаются при переходе по ссылкам с уже известных страниц (например, на странице категории указана ссылка на новую запись в блоге). Иногда владельцы сайтов сами присылают нам списки URL, которые нужно просканировать, – так называемые файлы Sitemap.
Обнаружив URL страницы, робот Google посещает ее (сканирует), чтобы узнать, что на ней опубликовано. Для его работы используется огромное количество компьютеров, ведь он обрабатывает миллиарды страниц. Программа, выполняющая сканирование, называется робот Googlebot (или «паук»). Она автоматически определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них. Поисковые роботы Google стараются сканировать сайт не слишком быстро, чтобы не допустить его перегрузки. Этот механизм основан на ответах сайта (например, ошибки HTTP 500 означают, что работа сайта замедлена) и настройках в Search Console.
Робот Googlebot сканирует не все обнаруженные страницы. Некоторые страницы запрещено сканировать, другие страницы невозможно посмотреть без ввода пароля, а какие-то страницы являются дубликатами ранее отсканированных. Например, доступ ко многим сайтам осуществляется через версию доменного имени с префиксом www ( www.example.com ) и без него ( example.com ), даже если на них одинаковый контент.
В ходе сканирования Google отрисовывает страницу и запускает обнаруженный код JavaScript в актуальной версии Chrome. Похожим образом браузер отрисовывает страницы, которые вы посещаете. Это очень важно, потому что для показа контента на странице часто используется JavaScript, и без отрисовки Google может его не увидеть.
Возможность сканирования зависит от того, есть ли у поисковых роботов Google доступ к сайту. Его может не быть по следующим причинам:
- проблемы с сервером, на котором размещен сайт;
- проблемы с сетью;
- директивы robots.txt препятствуют доступу.
Индексирование
После сканирования страницы нужно выяснить, какого рода контент на ней размещен. Этот этап называется индексированием и состоит из обработки и анализа текста и основных тегов и атрибутов (например, элементов <title> и атрибутов alt), изображений, видео и т. п.
В ходе индексирования Google определяет, является ли обрабатываемая страница дубликатом или канонической версией другой страницы. Каноническая версия может показываться в результатах поиска. Она определяется следующим образом: сначала мы объединяем в группу найденные в интернете страницы с похожим контентом, а затем выбираем среди них главную. Остальные страницы в этой группе считаются альтернативными версиями, которые могут показываться в других контекстах, например, если пользователь выполняет поиск с помощью мобильного устройства или ищет определенную страницу из группы.
Кроме того, Google собирает сигналы о канонических страницах и их контенте и может использовать эти сведения на следующем этапе – при показе в результатах поиска. К таким сигналам относятся язык страницы, страна, для которой предназначен контент, использование страницы и т. п.
Информация о канонической странице и ее группе может храниться в индексе Google – большой базе данных, размещенной на тысячах компьютеров. При этом индексируются не все обработанные страницы.
Возможность индексирования также зависит от контента страницы и его метаданных. Проблемы могут возникать по следующим причинам:
- контент страницы низкого качества;
- директивы в метатеге robots запрещают индексирование;
- из-за оформления сайта затрудняется индексирование.
Показ результатов поиска
Когда пользователь вводит запрос, наша система находит в индексе и показывает в результатах поиска самые подходящие страницы высокого качества. При этом учитываются сотни различных факторов, такие как местоположение, язык, тип устройства пользователя (компьютер или телефон) и многое другое. Например, результаты по запросу «ремонт велосипедов» будут различаться в зависимости от того, находитесь ли вы в Париже или в Гонконге.
Иногда проиндексированные страницы не показываются в результатах поиска. Это может произойти по следующим причинам:
- контент страницы не имеет отношения к запросу пользователя;
- контент низкого качества;
- директивы в метатеге robots препятствуют показу.
Мы постоянно работаем над улучшением алгоритма. Вы можете следить за изменениями в блоге Центра Google Поиска.
Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.