Процесс индексации сайта.

дата индексации сайта

Когда пользователь вводит поисковый запрос например «купить видеокарту», он видит результаты поиска:

запрос на поиск

2 470 000 станиц за пол секунды. Это абсолютно не значит, что поисковик «оббежал» весь интернет за пол секунды и собрал для нас эту информацию. Система работает по-другому. Поисковая система имеет свою собственную базу данных, в которой вся информация заранее упорядочена, каталогизирована, систематизирована из которой выбираются страницы, которые соответствуют нашему запросу. В данном случае в базе данных нашлось 2 470 000 страниц, которые по мнению поисковой системы Гугл могут нас заинтересовать.

У нас две задачи:

  • попасть в базу данных поисковой системы («попасть в индекс»)
  • выводится на первой странице выдачи (быть в ТОП)

Самый быстрый и простой способ купить у Google рекламу. Если заплатим больше, чем другие желающие продающие видеокарты — сразу будем там, где надо на первой странице выдачи в верху. Минус очевиден, за каждый переход на наш сайт будем платить Google и достаточно прилично. Хорошо если мы продаем автомобили, заплатили за 1000 переходов, сделали одну продажу и покрыли все расходы с лихвой. А если мы продаем силиконовые китайские чехлы на телефон по 1$? Переход посетителя от Google может стоить дороже чем чехол!!! В этом случае путь один, попасть в базу поисковика и выдаваться как можно ближе к первому месту выдачи.  Кстати, результат выдачи называется SERP (Search Engine Results Page) или СЕРП.

Как попадают сайты в базу поисковых систем. (индексация).

Для того, чтобы наполнять базу данных в поисковая система использует специальные программы, также их называют bot, robot, spider, crawler. Задача этой программы ходить по сайтам в интернет, считывать и отправлять информацию в базу данных поисковой системы. Каждый раз, когда такая программа начинает работать с нашим сайтом, прежде всего она посещает системный файл robots.txt. В этом файле находится информация что роботу можно добавлять в базу для выдачи, а что нельзя (например мы не хотим, чтобы некоторые страницы показывались, можем прописать это в файле robots.txt). Второй обязательный для посещения файл это sitemap.xmlкарта нашего сайта. Карта содержит все страницы и передает эту информацию в базу данных поисковой системы. Эти файлы общедоступны для каждого сайта и находятся в корневом каталоге по адресу:

  • http://ваш сайт/robots.txt
  • http://ваш сайт/sitemap.xml

Если эти файлы недоступны, то можно считать, что их нет, так как робот искать их будет именно по этим адресам.

Фрагмент файла robot.txt

robot.txt

Конечно, возникает вопрос, куда пускать робота на сайте, а куда нет. Все просто, робот должен посещать все страница для пользователей, кроме динамических страниц поиска (пользователь что то ищет на сайте нашего сайта, в результате формируется страница поиска), админ части нашего сайта (не только часть для администратора, но и личные кабинеты пользователей где находятся личные данные и так далее.) Бывает так, что этот файл отсутствует или просто владелец сайта не знает, как сделать, а тратить деньги на специалиста не хочет. В таком случае робот разберется сам, что показывать, а что нет, только это займет время и ресурс поисковой системы, что в свою очередь наложит маркер недоделанного сайта и будет его ранжировать на более низких позициях.  Мы должны помогать поисковым системам, они это любят.

Будьте осторожны, это ВАЖНО, этим файлом можно закрыть весь сайт, и он не будет показываться в поисковой выдаче. Поэтому проверьте чтобы у вас этого не было:

  • Disallow: — эта команда не позволяет добавлять информацию в базу поисковой выдачи
  • Disallow: / — эта команда закрывает добавление всего сайта в базу

Часто такая ошибка встречается при разработке сайта. Прописывают эту команду на время разработки, пока сайт еще не готов, а затем забывают убрать, и что бы вы не делали сайт в выдачу не попадет.

Следующий файл для робота – эта карта сайта.

Фрагмент файла sitemap.xml

sitemap.xml

Если карта сайта отсутствует, робот начинает бродить по сайту как пользователь от одной ссылке к другой и постепенно собирает всю информацию о сайте, но при этом тратится ресурс поисковой системы, а мы с вами знаем, система этого не любит и клеймо недоделанного сайта, и низкий рейтинг нам не к чему.

Файлы системный, для пользователей не предназначены, не забывайте о них. Практически все популярные CMSсистемы при установке имеют функцию автоматического создания этих файлов, но контроль с нашей стороны обязателен.

Нас интересуют два момента:

  • Как ускорить процесс прихода поискового робота на наш сайт.
  • Как упростить процесс сбора информации о нашем сайте и внесение ее в базу данных.

Приглашаем робота на свой сайт и упрощения его работы.

Когда мы хотим, чтобы к нам кто-то пришел, мы должны сделать приглашение, хотя иногда гости приходят сами и без приглашения. В интернет тоже самое. Но если нужно сделать быстро, то и Google и Yandex имеют свои приложения для разработчиков, где мы можем пригласить робота. В Google это Google Search Console, в YandexЯндекс.Метрика. Пройдя несложную регистрацию мы подтверждаем права на сайт. Это делается путем добавления текстового файла в корень нашего сайта или установкой скрипта (фрагмента программы) на страницу сайта. Далее можно добавить карту сайт и прописать url (адрес страницы) для прихода робота. Имейте ввиду, на каждый сайт поисковая система выделяет определенный ресурс, сайтов много, поэтому существуют ограничения по количеству посещений роботом нашего сайта и времени, которое он тратит на это. Также в этих приложениях мы можем загрузить наш файл sitemap.xml. Имея карту сайта, робот определенно сделает больше, чем при ее отсутствии и соответственно будет большее количество страниц попадет в индекс. Чем чаще на сайте будет добавляться контент, тем чаще робот будет приходить и индексировать наш сайт. Обратите внимания, что на сайтах с большей посещаемостью, например, сеть Instagram.com с огромным количеством обновлений в минуту, защищается от роботов, вернее сказать, допускает только роботов определенных поисковых систем, чтобы не создавать нагрузку на сервер.

Как проверить индексацию страницы сайта?

После всех описанных выше действиях нас конечно же интересует вопрос «Получилось?» наш сайт внесет в базу или нет. Предположим мы разместили информацию о продаже старенькой видеокарты MSI PCI-Ex Radeon RX 560 на своем сайте https://www.nix.ru/ и хотим знать попала эта страница в индекс и выдачу или нет. Если мы просто наберем в Google запрос «MSI PCI-Ex Radeon RX 560» то получим такой ответ

Результатов: примерно 2 610 000 (0,34 сек.) Не спешите искать свою страницу среди 2 миллионов других. Все гораздо проще.

В поисковой строке запроса используем служебный оператор site: и адрес нашей станицы, выглядит это следующим образом

индексация сайта

Страница присутствует в индексе Google. Обратите внимание на выделенный маленький треугольник. При нажатии на него мы можем увидеть, когда последний раз робот был на этой странице и какая последняя версия храниться в базе.

дата индексации сайта

Последний раз робот посещал станицу 2 дня назад, это нормально, ведь карта очень старая и уже нет в продаже. Нормальная работа если робот посещает вашу страницу раз в 1-4 дня, если период больше, Google не очень уважает ваш сайт, считает, что тратить время на него не нужно. Чаще обновляйте контент сайта, например пишите новость. Кроме этого, можно проверить какие еще страницы сайта есть в базе выдачи по запросу этой видеокарты. Для этого переходим в Google и в поисковой строке вводим site:https://www.nix.ru MSI PCI-Ex RadeonRX 560

проверка индекса

Как мы видим, при таком запросе с использованием оператора site: поиск идет только по заданному сайт, соответственно найти искомую страницу и посмотреть в каком виде она выдается очень просто. Если мы не укажем что мы хотим найти, а укажем только site:https://www.nix.ru мы увидим все страницы нашего сайта которые присутствуют в базе данных Google, другими словами все проиндексированные страницы. Их в данном примере 273 тысячи.

реклама гугла

Кроме этого, обратите внимание, Google сообщает нам, что есть сервис Google Search Console, это действительно удобно. Также, надо помнить, и использовать такой просмотр для своих конкурентов, нас же интересуют вопросы:

  • а сколько у конкурентов страниц в индексе?
  • а есть ли у конкурента страница под запрос MSI PCI-Ex Radeon RX 560?

И так далее.

Что еще можно добавит интересного? Предлогаю обсудить в комментариях.

Оставьте первый комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*