Как работает поиск Яндекса: краулер, индекс, ранжирование

Сейчас я расскажу, что Яндекс физически делает с вашей страницей — от первого визита бота до показа в SERP.

TL;DR

Поиск ищет не «прямо сейчас», а среди уже скачанного и проиндексированного. Работа Яндекса делится на три этапа: краулинг (бот скачивает страницу), индексация (индексатор разбирает HTML и кладёт в индекс) и ранжирование (кандидатинг, затем YATI поверх MatrixNet). Почти любая SEO проблема прячется на одном из этих этапов, и диагностику ведут по порядку: сначала краулинг, потом индекс, потом ранжирование.

Есть одна базовая иллюзия, с которой полезно расстаться в самом начале: когда пользователь жмёт «найти», ему кажется, что Яндекс ищет прямо сейчас, в данную секунду. Это не так. Поисковик ищет среди уже скачанного, разобранного и проиндексированного — то есть среди работы, которая делалась несколько недель, а то и месяцев назад.

Понять эту разницу важно по очень практической причине. Почти все SEO проблемы прячутся на одном из трёх этапов: краулинг, индексация или ранжирование. И диагностика прямо зависит от того, на каком этапе именно сломалось у вас. Поэтому полезно знать, что происходит на каждом.

Этап 1: Краулинг

Краулинг — это первый этап. Бот Яндекса приходит на вашу страницу и читает её. На первый взгляд скучно, но здесь сосредоточена огромная часть SEO проблем у новых сайтов.

YandexBot — это, на самом деле, не один бот, а семейство роботов. Основной — YandexBot — ходит по обычным веб-страницам. YandexMobileBot ходит как мобильное устройство (с 2020 года это приоритетный бот). YandexImages специализируется на картинках, YandexVideo — на видео, YandexMarket — на товарных страницах. И ещё несколько служебных. Все они имеют отдельные User-Agent и часто отдельные IP-диапазоны; список есть в официальной документации Яндекса.

Что определяет частоту визитов

Это вопрос «краулингового бюджета» — сколько URL вашего сайта бот посещает за единицу времени. Бюджет зависит от нескольких связанных факторов. Размер сайта: чем больше известных URL, тем больше бюджет. Частота обновлений: если страницы регулярно меняются, бот ходит чаще. Доверие к сайту: фактически функция ИКС и истории — старые проверенные сайты получают больше внимания. Скорость ответа сервера: медленный сайт получает меньше визитов, чтобы бот не перегружал. Наличие свежего sitemap.xml: даёт боту понять, что обходить. И глубина вложенности страниц: чем дальше от главной, тем реже визит.

Сейка подсказывает

В Метрике и Вебмастере есть отчёты «Обход сайта». Если ваш бюджет тратится в основном на параметризованные URL с фильтрами и сортировкой, закрывайте их через robots.txt или указывайте canonical на чистый URL. Бот должен ходить на полезные страницы, а не на пятьдесят копий одной карточки товара. У крупных интернет-магазинов нередкая ситуация: значительная доля обхода уходит на параметризованные дубли с фильтрами и сортировкой, а целевые карточки переобходятся раз в месяц или реже.

Что блокирует краулинг

Несколько типичных проблем, которые останавливают бота и которые встречаются регулярно.

Самое частое — это Disallow: / в robots.txt, который случайно остался с тестового окружения. Случай типовой настолько, что уже почти не удивляет. Открываете вашсайт.ру/robots.txt, видите глобальный запрет, снимаете его — и через две недели сайт начинает индексироваться. Часто это объясняет «загадку», почему новый сайт три месяца не появляется в выдаче.

Дальше — техническая недоступность. Если главная страница регулярно отдаёт 404 или 5xx, бот делает выводы. Если ответы сервера занимают больше пяти секунд, бот сокращает частоту визитов. Если у вас бесконечные циклы редиректов, бот в какой-то момент сдаётся и помечает домен как проблемный.

И ещё один сюжет — JavaScript-рендеринг. Современный Яндекс умеет рендерить JS-страницы, но это медленнее, чем чтение статического HTML, и работает не для всех типов сайтов. Если ваш контент полностью генерируется на клиенте без серверного рендеринга, бот может видеть пустые страницы. Решение — SSR или статическая генерация. Это отдельная большая тема в техническом разделе.

Этап 2: Индексация

Скачанная страница не сразу появляется в выдаче. Сначала её разбирает индексатор. Это отдельный механизм, который вычленяет из HTML текст, заголовки, ссылки, микроразметку, картинки, и складывает всё это в индекс — гигантскую базу данных Яндекса. Подробнее про сам индекс и его устройство есть отдельная статья в разделе Старт; здесь — про процесс попадания страницы в него.

После разбора индексатор проверяет страницу на дубли. Если контент сильно похож на уже известный — внутри сайта или на других сайтах в интернете — оригинал может быть оставлен, а копии помечены как дубли. Они в индексе формально есть, но в выдаче не показываются.

Что попадает в индекс

В индекс попадают все страницы с уникальным контентом, кроме нескольких категорий исключений.

Закрытые через мета-тег <meta name="robots" content="noindex"> — это прямой запрет на индексацию на уровне самой страницы, и он действует надёжнее, чем robots.txt. Robots.txt только не пускает бота на страницу, но если на эту страницу ссылаются откуда-то, она может попасть в индекс без обхода — просто как URL без содержимого. Если хотите гарантированно закрыть страницу от индексации, ставьте noindex на саму страницу.

Закрытые через canonical, указывающий на другую страницу — Яндекс склеит их в одну запись индекса. Хотя тут есть нюанс: Яндекс уважает canonical, но не всегда. Если canonical-страница хуже по поведенческим и контенту, чем страница с canonical, Яндекс может выбрать вариант с canonical как основной, проигнорировав вашу указку.

И страницы, которые Яндекс классифицировал как «низкое качество» — короткий тонкий контент, признаки спама, попадание под АГС. Они тоже могут не попасть в индекс или попасть в нижний эшелон, откуда никогда не вылетают в выдачу.

Сколько ждать

Для нового сайта первичная индексация занимает от двух до шести недель. Для существующего, активно обновляемого сайта новая страница попадает в индекс за один-семь дней. Можно ускорить — через раздел «Запросы для индексации» в Вебмастере отправить URL на приоритетный переобход. Квота для большинства сайтов — около двадцати URL в день, для крупных и доверенных — больше.

Осторожно

Если в Вебмастере страница висит в статусе «обнаружена, но не проиндексирована» уже месяц, причина почти всегда одна из трёх. Дубль (canonical указывает на другую страницу, или контент почти повторяет уже проиндексированный). Низкое качество (короткий тонкий контент, AI генерация без редактуры). Либо рендеринг не сработал и страница для бота пустая. Проверять обычно стоит в таком порядке: сначала canonical, потом длину и качество контента, потом исходный HTML «глазами бота» — есть ли там основной текст без выполнения JS.

Этап 3: Ранжирование

Самая интересная часть. Когда пользователь вводит запрос, Яндекс не пробегает по всему индексу — даже у суперкомпьютеров на это не хватило бы скорости. Он сначала быстро выбирает несколько тысяч кандидатов, которые формально подходят под запрос, и потом ранжирует их более тяжёлыми моделями.

Кандидаты выбираются по сигналам «лёгкого» матчинга: текстовое совпадение, морфологические преобразования запроса и документа, регион пользователя и сайта, базовые тематические признаки. Этот этап работает очень быстро — за десятки миллисекунд — и его задача отсечь миллиарды страниц от тысяч.

Дальше — тяжёлый ранжировщик. С ноября 2020 года в этой роли у Яндекса стоит YATI поверх классического MatrixNet. YATI — нейросеть на архитектуре трансформера, которая получает на вход запрос и текст документа и выдаёт оценку их семантической близости. MatrixNet — это градиентный бустинг, который работает с десятками классических признаков (длина текста, плотность ключей, поведенческие, ссылочные, региональные).

Эта связка оценивает каждого кандидата по сотням признаков одновременно. Семантическая близость к запросу — это уже не просто совпадение слов, а понимание интента: YATI понимает, что «купить пуховик» и «приобрести пуховую куртку» — про одно. Авторитет домена в нише — через ИКС, ссылки, исторические сигналы. Свежесть страницы — для запросов с признаками «новости» критично, для evergreen-контента нет. Регион сайта vs регион пользователя — для геозависимых запросов важно. Поведенческие сигналы по этой странице и по всему домену — главный сюжет для Яндекса. Микроразметка и её соответствие интенту — помогает в спорных случаях. Общее качество текста — YATI оценивает «человекописность» документа.

Результат — упорядоченный список кандидатов. Сверху на него накладываются колдунщики (карточки организаций, прогноз погоды, калькулятор, ответ Маркета), Нейро-блок (если запрос подходит), реклама, иногда специальные форматы вроде витального ответа. И вот это пользователь видит как SERP.

Яндекс

Кандидатинг → YATI/MatrixNet → пост-обработка.
30–80% запросов: Нейро-блок сверху.
Региональная сортировка для геозависимых.
Колдунщики Карт, Маркета, Расписаний доминируют первый экран.

Google

Кандидатинг → набор нейросетей (BERT, MUM, RankBrain) + ранжировщики.
AI Overviews — для растущей доли запросов, но в РФ редко.
Региональная сортировка по странам, внутри страны — слабая.
Featured snippets, Knowledge Graph, People Also Ask, Local Pack.

Где SEO проблема обычно прячется

Когда страница не появляется в выдаче, новички часто паникуют и начинают делать всё подряд: переписывать тексты, закупать ссылки, переделывать дизайн. Это лотерея. Правильная диагностика идёт по этапам.

Сначала проверяете, добирался ли бот до страницы. Это раздел «Статистика обхода» в Вебмастере. Если страница не посещалась — проблема в краулинге: возможно, не указана в sitemap, нет ведущих внутренних ссылок, закрыта в robots.txt. Решается перед тем, как трогать что-либо ещё.

Дальше — если бот приходил, попала ли страница в индекс. Это раздел «Страницы в поиске» в Вебмастере. Если бот пришёл, но страница не в индексе — проблема с дублями, качеством контента или canonical. Это вторая стадия, и она требует анализа конкретных причин.

И только если страница в индексе, но позиция глубокая, — это уже проблема ранжирования. Тут вступают контент, поведенческие, ссылки, региональность. Это самая большая категория проблем, но она имеет смысл только после того, как первые две проверены.

Сейка подсказывает

Простой эвристический ход для быстрой диагностики: проверьте через site:ваш-домен.ру URL-страницы в Яндексе. Если страница появляется — она в индексе, проблема в ранжировании. Если не появляется — проблема на более раннем этапе, краулинге или индексации. Это занимает пять секунд и сразу сужает направление работы.

Что не делать

Несколько типичных ошибок, которые встречаются у новичков и которые гарантированно ломают работу с поиском.

Не закрывайте важные страницы через robots.txt и не ждите потом, что они проиндексируются. Бот туда просто не зайдёт. Если хотите закрыть страницу от индексации — используйте noindex.

Не делайте canonical с массовых страниц (например, со всех страниц категорий) на главную. Яндекс склеит всё в одну запись индекса, и весь длинный хвост страниц исчезнет из выдачи.

Не удаляйте старые URL без 301-редиректа на новые. Накопленный авторитет, ссылочный профиль и поведенческие сигналы привязаны к URL — удалив его без редиректа, вы теряете всё.

Не запускайте пятьдесят поддоменов или зеркал с однотипным контентом. Аффилиатный фильтр распознает связку и склеит их в один с понижением.

Не ждите, что Яндекс «сам разберётся». Без явных сигналов — sitemap, перелинковки, регистрации в Вебмастере — он разбирается очень долго. Этап сигналов для Яндекса критичен, и сэкономить на нём нельзя.

Короче говоря

Поиск ищет среди скачанного и проиндексированного, не «прямо сейчас». Краулинг, индексация и ранжирование — это три отдельных этапа, и любая SEO проблема находится на одном из них. YandexBot — это семейство, и важно понимать, какой именно бот ходит на ваш сайт. Вебмастер — это инструмент диагностики, а не «настройки SEO», и без него вы летите вслепую. Канонические URL, sitemap, robots.txt — это трубопровод для бота: если он сломан, всё остальное бесполезно.

Дальше логично читать про техническое SEO — Sitemap, robots, canonical, если интересует механика. Или Поисковый интент — если хочется сразу к смыслу.

Источники

официальная документация Яндекс.Вебмастера (yandex.ru/support/webmaster), технические доклады команды Поиска на конференциях Optimization, материалы на Habr про индексацию в Яндексе.

Частые вопросы

Из каких этапов состоит работа поиска Яндекса?

Из трёх отдельных этапов: краулинг (бот скачивает страницу), индексация (индексатор разбирает HTML и складывает его в индекс) и ранжирование (Яндекс выбирает кандидатов и сортирует их). Почти любая SEO проблема находится на одном из этих этапов.

Что такое краулинговый бюджет?

Это количество URL вашего сайта, которое бот посещает за единицу времени. Бюджет зависит от размера сайта, частоты обновлений, доверия к сайту (ИКС и истории), скорости ответа сервера, наличия свежего sitemap.xml и глубины вложенности страниц.

Сколько времени занимает индексация страницы в Яндексе?

Для нового сайта первичная индексация занимает от двух до шести недель. Для существующего, активно обновляемого сайта новая страница попадает в индекс за один-семь дней. Ускорить можно через раздел «Запросы для индексации» в Вебмастере.

Чем noindex отличается от robots.txt?

Мета-тег noindex — это прямой запрет на индексацию на уровне самой страницы, и он действует надёжнее. Robots.txt только не пускает бота на страницу, но если на неё ссылаются, она может попасть в индекс без обхода — просто как URL без содержимого.

Что отвечает за ранжирование в Яндексе?

С ноября 2020 года тяжёлый ранжировщик — это YATI поверх классического MatrixNet. YATI — нейросеть на архитектуре трансформера, оценивающая семантическую близость запроса и документа, а MatrixNet — градиентный бустинг по десяткам классических признаков.

Как работает поиск Яндекса: краулер, индекс, ранжирование

Этап 1: Краулинг

Что определяет частоту визитов

Что блокирует краулинг

Этап 2: Индексация

Что попадает в индекс

Сколько ждать

Этап 3: Ранжирование

Яндекс

Google

Где SEO проблема обычно прячется

Что не делать

Короче говоря

Частые вопросы

Термины из вики

Сделайте аудит сайта прямо сейчас

Этап 1: Краулинг

Что определяет частоту визитов

Что блокирует краулинг

Этап 2: Индексация

Что попадает в индекс

Сколько ждать

Этап 3: Ранжирование

Яндекс

Google

Где SEO проблема обычно прячется

Что не делать

Короче говоря

Частые вопросы

См. также

Термины из вики

Сделайте аудит сайта прямо сейчас