сейка.ru
§ 01.03 · Старт

Шаг 3. Как поисковик находит ваш сайт

Бот, краулер, sitemap, robots.txt — звучит страшно. На самом деле очень простая идея. Сейка раскрывает тайну за десять минут.

Сейчас раскроем тайну: как именно Яндекс впервые узнаёт о том, что в интернете появился ваш сайт.

Допустим, вы только что запустили сайт. Купили домен, поставили движок, написали 50 страниц, нажали «опубликовать». В этот момент про существование вашего сайта знаете вы, ваши коллеги, ваш разработчик и, возможно, ваша мама, которой вы отправили ссылку на проверку.

Яндекс — не знает.

И вот теперь хороший вопрос: как информация о вашем сайте вообще попадает в Яндекс? Никто туда руками ничего не вписывает (по крайней мере, со стороны Яндекса). Никто не приходит лично с проверкой. Никто из сотрудников Яндекса не сидит и не читает все новые сайты Рунета вручную.

Ответ: через бота. И это первая серьёзная техническая концепция, с которой вам предстоит подружиться.

Кто такой поисковый бот

Бот — это специальная программа, которую написала и запустила команда Яндекса (и аналогично — Google). Эта программа круглосуточно ходит по интернету и читает страницы. У этого существа в SEO-сообществе есть несколько имён: «бот», «краулер», «паук», «робот». Это всё одно и то же.

Представьте обычного пользователя интернета, который кликает по ссылкам с одного сайта на другой и читает всё, что встречает. Бот делает примерно то же самое, только с тремя ключевыми отличиями.

Во-первых, он очень быстрый. Тысячи страниц в секунду. То, на что у человека уходят годы, бот делает за часы.

Во-вторых, он ничего не покупает, не оставляет комментариев и не подписывается на рассылки. Он только читает.

И в-третьих, всё прочитанное он не забывает, а отправляет в гигантскую базу данных Яндекса. Эта база называется индексом, и про неё будет отдельная статья.

У Яндекса не один бот, а целое семейство. Главного зовут YandexBot — он ходит по обычным веб-страницам. Есть YandexImages, который специализируется на картинках. Есть YandexMobileBot для мобильных версий сайтов. Есть YandexVideo, YandexMarket, и ещё несколько служебных. Если вы пока не различаете их — не страшно, для базового понимания достаточно знать про основного.

Как бот находит ваш сайт впервые

Тут есть момент, который часто упускают. Бот не угадывает URL. Он не сидит на сервере, пытаясь набрать случайные доменные имена и проверить, открывается ли что-то.

Бот находит ваш сайт одним из трёх способов.

Способ первый — самый естественный — это через ссылку с другого сайта, который ему уже известен. Например, бот сидит на vc.ru, читает свежий материал и видит в тексте ссылку на ваш сайт. Переходит по ней. Видит у вас ссылку на внутреннюю страницу. Переходит. И так далее.

Способ второй — через прямую регистрацию в Яндекс.Вебмастере. Это бесплатный сервис, который Яндекс держит для владельцев сайтов: вы добавляете туда домен, подтверждаете владение (через мета-тег в HTML или через специальный файл на сервере) — и Яндекс сразу знает, что у вас есть сайт. Это первый шаг, который делают абсолютно для каждого нового сайта в Рунете. Сейка про Вебмастер напишет подробно отдельной статьёй, потому что это инструмент номер один, без которого SEO в России не делается. А пока — просто запомните название.

Способ третий — через карту сайта, файл sitemap.xml. Это XML-документ, в котором вы перечисляете все важные URL вашего сайта. Создаёте его (в большинстве современных движков сайтов он генерируется автоматически), кладёте по адресу вашсайт.ру/sitemap.xml, указываете на него в Вебмастере или в robots.txt — и Яндекс «читает отсюда».

В реальности обычно работают все три способа одновременно. Вы регистрируете сайт в Вебмастере, заливаете sitemap.xml, и параллельно получаете первые внешние ссылки. Бот заходит, читает, отчитывается в базу.

Файл sitemap.xml сайта seyka.ru, открытый в браузере: XML-структура с тегами <urlset>, <url>, <loc>, <lastmod> и перечнем страниц сайта.
sitemap.xml сайта seyka.ru, открытый прямо в браузере. Под предупреждением Chrome «без стилей» видна реальная XML-структура: пары <loc> и <lastmod> для каждой страницы. seyka.ru/sitemap-0.xml

Что такое robots.txt

Раз уж заговорили про служебные файлы, нужно рассказать про второй важный — robots.txt. Это маленький текстовый файл в корне вашего сайта, по адресу вашсайт.ру/robots.txt. В нём вы говорите ботам, куда им можно ходить, а куда нельзя.

Простейший пример:

User-agent: *
Disallow: /admin/
Disallow: /cart/

Sitemap: https://вашсайт.ру/sitemap.xml

Расшифровка: первой строкой «User-agent: *» вы говорите «следующие правила относятся ко всем ботам». Дальше «Disallow: /admin/» — «не ходи в раздел /admin/, там у меня админка, бот тебе там делать нечего». «Disallow: /cart/» — «не ходи в корзину, её не нужно индексировать». В конце «Sitemap: …» — указатель, где лежит карта сайта.

Логика тут простая. Есть страницы, которые в индексе вам не нужны: служебные, технические, дублирующие. Их вы закрываете. Есть страницы, которые в индексе нужны, — их вы оставляете открытыми и желательно указываете в sitemap.

Осторожно

Самая частая катастрофа, которая случается с владельцами сайтов после переноса с тестового окружения на прод: в robots.txt осталось Disallow: / — то есть «не индексируй ничего». Бот честно слушается, не индексирует, ничего не показывает в выдаче. Иногда так живут месяцами, удивляясь, почему трафика нет. Сейка предупреждает прямо: первое, что вы делаете на новом сайте в проде — открываете вашсайт.ру/robots.txt в браузере и проверяете, что там нет глобального запрета. Если есть — снимаете.

Сколько ждать первой индексации

Это второй частый вопрос, который мне задают: «зарегистрировал сайт, добавил sitemap — сколько ждать?»

Для совершенно нового сайта реалистичные сроки такие. Регистрация в Вебмастере проходит моментально, это просто запись в базе данных Яндекса. Первый визит бота на ваш сайт — обычно от одного до семи дней. Первая полная индексация, то есть момент, когда большая часть ваших страниц попала в индекс, — от двух до шести недель. И стабильное появление в поисковой выдаче по релевантным запросам — от двух до четырёх месяцев.

Для сайтов с регулярными обновлениями всё происходит быстрее. Новая страница на уже хорошо известном Яндексу сайте попадает в индекс за один–семь дней. В Вебмастере есть отдельная функция «Запросы для индексации», через которую можно отправить URL на приоритетный обход — типичная квота двадцать URL в день, и для важных страниц этим пользуются регулярно.

Если индексация затянулась, и страницы не появляются дольше пары недель — это уже сигнал копать. Возможные причины обсудим в следующей статье, когда будем разбираться, что такое индекс и почему страницы туда не попадают.

Что нельзя

Прежде чем закончить, отмечу несколько типичных ошибок новичков.

Не закрывайте через robots.txt важные страницы, рассчитывая, что они потом каким-то чудом проиндексируются. Бот туда не зайдёт. Точка.

Не имейте на сайте нескольких файлов robots.txt с противоречивыми правилами. Должен быть один, в корне домена.

Не делайте sitemap.xml, в котором перечислены URL, закрытые через robots.txt. Это противоречивые сигналы, и бот предпочтёт перестраховаться.

Не блокируйте у себя на сайте файлы CSS и JavaScript для бота. Бот должен видеть страницу так, как её видит пользователь. Если вы блокируете стили и скрипты, бот может неправильно понять структуру и проиндексировать страницу как «странную».

Бесплатный AI SEO анализ

Сделайте аудит сайта прямо сейчас

Спросите Сейку напрямую — конкретный ответ по вашему сайту обычно быстрее, чем читать всю серию.

Убедитесь, что вы согласны с нашими Условиями использования и Политикой обработки персональных данных.