Сейчас я расскажу, что Яндекс физически делает с вашей страницей — от первого визита бота до показа в SERP.
Есть одна базовая иллюзия, с которой полезно расстаться в самом начале: когда пользователь жмёт «найти», ему кажется, что Яндекс ищет прямо сейчас, в данную секунду. Это не так. Поисковик ищет среди уже скачанного, разобранного и проиндексированного — то есть среди работы, которая делалась несколько недель, а то и месяцев назад.
Понять эту разницу важно по очень практической причине. Почти все SEO-проблемы прячутся на одном из трёх этапов: краулинг, индексация или ранжирование. И диагностика прямо зависит от того, на каком этапе именно сломалось у вас. Поэтому полезно знать, что происходит на каждом.
Этап 1: Краулинг
Краулинг — это первый этап. Бот Яндекса приходит на вашу страницу и читает её. На первый взгляд скучно, но здесь сосредоточена огромная часть SEO-проблем у новых сайтов.
YandexBot — это, на самом деле, не один бот, а семейство роботов. Основной — YandexBot — ходит по
обычным веб-страницам. YandexMobileBot ходит как мобильное устройство (с 2020 года это приоритетный
бот). YandexImages специализируется на картинках, YandexVideo — на видео, YandexMarket — на товарных
страницах. И ещё несколько служебных. Все они имеют отдельные User-Agent и часто отдельные IP-диапазоны;
список есть в официальной документации Яндекса.
Что определяет частоту визитов
Это вопрос «краулингового бюджета» — сколько URL вашего сайта бот посещает за единицу времени. Бюджет зависит от нескольких связанных факторов. Размер сайта: чем больше известных URL, тем больше бюджет. Частота обновлений: если страницы регулярно меняются, бот ходит чаще. Доверие к сайту: фактически функция ИКС и истории — старые проверенные сайты получают больше внимания. Скорость ответа сервера: медленный сайт получает меньше визитов, чтобы бот не перегружал. Наличие свежего sitemap.xml: даёт боту понять, что обходить. И глубина вложенности страниц: чем дальше от главной, тем реже визит.
В Метрике и Вебмастере есть отчёты «Обход сайта». Если ваш бюджет тратится в основном на параметризованные URL с фильтрами и сортировкой, закрывайте их через robots.txt или указывайте canonical на чистый URL. Бот должен ходить на полезные страницы, а не на пятьдесят копий одной карточки товара. У крупных интернет-магазинов нередкая ситуация: значительная доля обхода уходит на параметризованные дубли с фильтрами и сортировкой, а целевые карточки переобходятся раз в месяц или реже.
Что блокирует краулинг
Несколько типичных проблем, которые останавливают бота и которые встречаются регулярно.
Самое частое — это Disallow: / в robots.txt, который случайно остался с тестового окружения. Случай
типовой настолько, что уже почти не удивляет. Открываете вашсайт.ру/robots.txt, видите глобальный
запрет, снимаете его — и через две недели сайт начинает индексироваться. Часто это объясняет «загадку»,
почему новый сайт три месяца не появляется в выдаче.
Дальше — техническая недоступность. Если главная страница регулярно отдаёт 404 или 5xx, бот делает выводы. Если ответы сервера занимают больше пяти секунд, бот сокращает частоту визитов. Если у вас бесконечные циклы редиректов, бот в какой-то момент сдаётся и помечает домен как проблемный.
И ещё один сюжет — JavaScript-рендеринг. Современный Яндекс умеет рендерить JS-страницы, но это медленнее, чем чтение статического HTML, и работает не для всех типов сайтов. Если ваш контент полностью генерируется на клиенте без серверного рендеринга, бот может видеть пустые страницы. Решение — SSR или статическая генерация. Это отдельная большая тема в техническом разделе.
Этап 2: Индексация
Скачанная страница не сразу появляется в выдаче. Сначала её разбирает индексатор. Это отдельный механизм, который вычленяет из HTML текст, заголовки, ссылки, микроразметку, картинки, и складывает всё это в индекс — гигантскую базу данных Яндекса. Подробнее про сам индекс и его устройство есть отдельная статья в разделе Старт; здесь — про процесс попадания страницы в него.
После разбора индексатор проверяет страницу на дубли. Если контент сильно похож на уже известный — внутри сайта или на других сайтах в интернете — оригинал может быть оставлен, а копии помечены как дубли. Они в индексе формально есть, но в выдаче не показываются.
Что попадает в индекс
В индекс попадают все страницы с уникальным контентом, кроме нескольких категорий исключений.
Закрытые через мета-тег <meta name="robots" content="noindex"> — это прямой запрет на индексацию на
уровне самой страницы, и он действует надёжнее, чем robots.txt. Robots.txt только не пускает бота на
страницу, но если на эту страницу ссылаются откуда-то, она может попасть в индекс без обхода — просто как
URL без содержимого. Если хотите гарантированно закрыть страницу от индексации, ставьте noindex на саму
страницу.
Закрытые через canonical, указывающий на другую страницу — Яндекс склеит их в одну запись индекса. Хотя тут есть нюанс: Яндекс уважает canonical, но не всегда. Если canonical-страница хуже по поведенческим и контенту, чем страница с canonical, Яндекс может выбрать вариант с canonical как основной, проигнорировав вашу указку.
И страницы, которые Яндекс классифицировал как «низкое качество» — короткий тонкий контент, признаки спама, попадание под АГС. Они тоже могут не попасть в индекс или попасть в нижний эшелон, откуда никогда не вылетают в выдачу.
Сколько ждать
Для нового сайта первичная индексация занимает от двух до шести недель. Для существующего, активно обновляемого сайта новая страница попадает в индекс за один-семь дней. Можно ускорить — через раздел «Запросы для индексации» в Вебмастере отправить URL на приоритетный переобход. Квота для большинства сайтов — около двадцати URL в день, для крупных и доверенных — больше.
Если в Вебмастере страница висит в статусе «обнаружена, но не проиндексирована» уже месяц, причина почти всегда одна из трёх. Дубль (canonical указывает на другую страницу, или контент почти повторяет уже проиндексированный). Низкое качество (короткий тонкий контент, AI-генерация без редактуры). Либо рендеринг не сработал и страница для бота пустая. Проверять обычно стоит в таком порядке: сначала canonical, потом длину и качество контента, потом исходный HTML «глазами бота» — есть ли там основной текст без выполнения JS.
Этап 3: Ранжирование
Самая интересная часть. Когда пользователь вводит запрос, Яндекс не пробегает по всему индексу — даже у суперкомпьютеров на это не хватило бы скорости. Он сначала быстро выбирает несколько тысяч кандидатов, которые формально подходят под запрос, и потом ранжирует их более тяжёлыми моделями.
Кандидаты выбираются по сигналам «лёгкого» матчинга: текстовое совпадение, морфологические преобразования запроса и документа, регион пользователя и сайта, базовые тематические признаки. Этот этап работает очень быстро — за десятки миллисекунд — и его задача отсечь миллиарды страниц от тысяч.
Дальше — тяжёлый ранжировщик. С ноября 2020 года в этой роли у Яндекса стоит YATI поверх классического MatrixNet. YATI — нейросеть на архитектуре трансформера, которая получает на вход запрос и текст документа и выдаёт оценку их семантической близости. MatrixNet — это градиентный бустинг, который работает с десятками классических признаков (длина текста, плотность ключей, поведенческие, ссылочные, региональные).
Эта связка оценивает каждого кандидата по сотням признаков одновременно. Семантическая близость к запросу — это уже не просто совпадение слов, а понимание интента: YATI понимает, что «купить пуховик» и «приобрести пуховую куртку» — про одно. Авторитет домена в нише — через ИКС, ссылки, исторические сигналы. Свежесть страницы — для запросов с признаками «новости» критично, для evergreen-контента нет. Регион сайта vs регион пользователя — для геозависимых запросов важно. Поведенческие сигналы по этой странице и по всему домену — главный сюжет для Яндекса. Микроразметка и её соответствие интенту — помогает в спорных случаях. Общее качество текста — YATI оценивает «человекописность» документа.
Результат — упорядоченный список кандидатов. Сверху на него накладываются колдунщики (карточки организаций, прогноз погоды, калькулятор, ответ Маркета), Нейро-блок (если запрос подходит), реклама, иногда специальные форматы вроде витального ответа. И вот это пользователь видит как SERP.
Яндекс
- Кандидатинг → YATI/MatrixNet → пост-обработка.
- 30–80% запросов: Нейро-блок сверху.
- Региональная сортировка для геозависимых.
- Колдунщики Карт, Маркета, Расписаний доминируют первый экран.
- Кандидатинг → набор нейросетей (BERT, MUM, RankBrain) + ранжировщики.
- AI Overviews — для растущей доли запросов, но в РФ редко.
- Региональная сортировка по странам, внутри страны — слабая.
- Featured snippets, Knowledge Graph, People Also Ask, Local Pack.
Где SEO-проблема обычно прячется
Когда страница не появляется в выдаче, новички часто паникуют и начинают делать всё подряд: переписывать тексты, закупать ссылки, переделывать дизайн. Это лотерея. Правильная диагностика идёт по этапам.
Сначала проверяете, добирался ли бот до страницы. Это раздел «Статистика обхода» в Вебмастере. Если страница не посещалась — проблема в краулинге: возможно, не указана в sitemap, нет ведущих внутренних ссылок, закрыта в robots.txt. Решается перед тем, как трогать что-либо ещё.
Дальше — если бот приходил, попала ли страница в индекс. Это раздел «Страницы в поиске» в Вебмастере. Если бот пришёл, но страница не в индексе — проблема с дублями, качеством контента или canonical. Это вторая стадия, и она требует анализа конкретных причин.
И только если страница в индексе, но позиция глубокая, — это уже проблема ранжирования. Тут вступают контент, поведенческие, ссылки, региональность. Это самая большая категория проблем, но она имеет смысл только после того, как первые две проверены.
Простой эвристический ход для быстрой диагностики: проверьте через site:ваш-домен.ру URL-страницы
в Яндексе. Если страница появляется — она в индексе, проблема в ранжировании. Если не появляется — проблема
на более раннем этапе, краулинге или индексации. Это занимает пять секунд и сразу сужает направление работы.
Что не делать
Несколько типичных ошибок, которые встречаются у новичков и которые гарантированно ломают работу с поиском.
Не закрывайте важные страницы через robots.txt и не ждите потом, что они проиндексируются. Бот туда просто не зайдёт. Если хотите закрыть страницу от индексации — используйте noindex.
Не делайте canonical с массовых страниц (например, со всех страниц категорий) на главную. Яндекс склеит всё в одну запись индекса, и весь длинный хвост страниц исчезнет из выдачи.
Не удаляйте старые URL без 301-редиректа на новые. Накопленный авторитет, ссылочный профиль и поведенческие сигналы привязаны к URL — удалив его без редиректа, вы теряете всё.
Не запускайте пятьдесят поддоменов или зеркал с однотипным контентом. Аффилиатный фильтр распознает связку и склеит их в один с понижением.
Не ждите, что Яндекс «сам разберётся». Без явных сигналов — sitemap, перелинковки, регистрации в Вебмастере — он разбирается очень долго. Этап сигналов для Яндекса критичен, и сэкономить на нём нельзя.
Короче говоря
Поиск ищет среди скачанного и проиндексированного, не «прямо сейчас». Краулинг, индексация и ранжирование — это три отдельных этапа, и любая SEO-проблема находится на одном из них. YandexBot — это семейство, и важно понимать, какой именно бот ходит на ваш сайт. Вебмастер — это инструмент диагностики, а не «настройки SEO», и без него вы летите вслепую. Канонические URL, sitemap, robots.txt — это трубопровод для бота: если он сломан, всё остальное бесполезно.
Дальше логично читать про техническое SEO — Sitemap, robots, canonical, если интересует механика. Или Поисковый интент — если хочется сразу к смыслу.
официальная документация Яндекс.Вебмастера (yandex.ru/support/webmaster), технические доклады команды Поиска на конференциях Optimization, материалы на Habr про индексацию в Яндексе.