Бот пришёл и забрал страницу. Куда она делась? В индекс. Что это такое — сейчас разберём.
В прошлой статье мы остановились на том, что бот ходит по сайтам, читает страницы и куда-то их утаскивает. «Куда-то» — это индекс, и сейчас разберёмся, что это такое физически и почему вам как владельцу сайта про это нужно знать.
Без понимания индекса не понять, почему SEO работает так, как работает. Это второй ключевой механизм поисковика, после самого бота.
Аналогия с огромной библиотекой
Представьте библиотеку. Не маленькую районную, а огромную, типа Российской государственной — несколько миллионов книг на десятках километров полок. К библиотекарю приходит читатель и спрашивает: «Дайте что-нибудь почитать про моральные дилеммы XIX века».
Если бы у библиотекаря не было никакого учёта, он бы сейчас побежал брать с полок все книги подряд и быстро читать их по диагонали. Понятно, что это работать не будет.
Поэтому в любой настоящей библиотеке есть каталог. Это отдельная картотека (или сейчас уже база данных), в которой про каждую книгу записано: где стоит, кто автор, какие темы, какой жанр, краткая аннотация. Когда приходит запрос про «моральные дилеммы XIX века», библиотекарь смотрит в каталог, находит несколько подходящих карточек и идёт за конкретными книгами.
Поисковый индекс — это такой же каталог, только не для книг, а для веб-страниц. И не один библиотекарь его ведёт, а программный механизм, который автоматически обрабатывает миллиарды страниц со всего интернета.
Что лежит в индексе про каждую страницу
Когда бот пришёл к вам на сайт, прочитал страницу и отчитался в индекс, в каталоге появилась запись. Грубо говоря, для каждой страницы там хранится примерно следующее.
URL этой страницы. То есть точный адрес, по которому она открывается.
Полный текст всего, что на странице. Не превью, не первый абзац — весь текст.
Структура страницы: заголовок (тег <title>), главный заголовок (H1), все подзаголовки (H2, H3 и так
далее).
Все изображения с описаниями (alt-теги), которые на странице есть.
Все ссылки, которые на странице — и внутренние (на ваши же страницы), и внешние (на другие сайты).
Дата последней модификации, насколько Яндекс смог её определить.
Метаданные: описание страницы из тега meta description, микроразметка schema.org (если есть).
Технические сигналы: насколько быстро страница грузится, как она выглядит на мобильном, нет ли ошибок.
И, что важно, связь страницы с сайтом: кому она принадлежит, какой у этого сайта общий уровень доверия, насколько он авторитетен в своей нише, какие фильтры на нём действуют (если есть).
Всё это вместе — досье на одну вашу страницу. Когда пользователь введёт релевантный запрос, Яндекс будет смотреть в это досье, оценивать его соответствие и принимать решение, показать вашу страницу или нет.
Поисковик не ищет — поисковик показывает заранее найденное
Это, пожалуй, самая важная мысль во всей статье. И она часто оказывается неожиданной для новичков.
Когда вы набираете в Яндексе «как стирать пуховик» и нажимаете «найти», Яндекс не идёт сейчас читать сайты в интернете. Он не бежит на ваш сайт за актуальной версией страницы. Он не пытается понять, что сейчас в данную секунду опубликовано про стирку пуховика.
Он смотрит в свой индекс. То есть в свою библиотечную базу данных, которую он накопил заранее — за дни, недели, месяцы постоянной работы бота. Находит там страницы про стирку пуховика, оценивает их, сортирует от самой подходящей к самой далёкой и показывает результат.
Если ваша страница не попала в индекс — её для Яндекса в этом запросе просто не существует. Даже если она самая лучшая, самая релевантная, самая полезная страница про стирку пуховика во всём интернете. Бот не зашёл — индекса нет — выдачи нет.
Поэтому первая стратегическая задача SEO — попасть в индекс. И только после этого — задача попасть в выдачу повыше.
Сколько всего страниц в индексе
Цифры тут варьируются от месяца к месяцу и от оценки к оценке, но порядок такой. У Яндекса в индексе — десятки миллиардов страниц русскоязычного и зарубежного интернета. У Google — сотни миллиардов.
Если ваш сайт — это, скажем, 50 страниц, это составляет порядка 0.0000005% от всего индекса Яндекса. Это вам для масштаба, чтобы не было иллюзии, будто Яндекс «специально» вас не показывает или «обращает на вас внимание». Не обращает. Ваши 50 страниц — крошечная пылинка в гигантской базе. Чтобы поисковик начал вас показывать, страница должна объективно соответствовать запросу и обходить миллионы конкурентов.
Это, кстати, объясняет, почему все попытки «обмануть алгоритм» или «обхитрить Яндекс» обречены: вы конкурируете не с алгоритмом, вы конкурируете со всеми остальными страницами в этом индексе.
Как проверить, в индексе ли ваша страница
Это полезный практический навык. Способов несколько.
Самый простой: введите в Яндексе site:вашсайт.ру — то есть слово «site:» сразу за двоеточием и без
пробела ваш домен. Откроется список всех страниц вашего сайта, которые Яндекс знает. Иногда там оказывается
неожиданно мало (или, наоборот, неожиданно много).
Через Вебмастер. Это правильный профессиональный способ. В Яндекс.Вебмастере есть раздел «Индексирование → Страницы в поиске». Там полный список того, что Яндекс знает о вашем сайте, с разбивкой по статусам: какие страницы в индексе, какие исключены, какие в очереди на обход.
По конкретной странице: введите её точный URL в поисковую строку Яндекса. Если она в индексе — обычно появится первой. Если её нет в результатах — скорее всего, не в индексе.
Почему страница может быть не в индексе
Это типичная ситуация, с которой сталкиваются все. Вы сделали страницу, прошёл месяц, она всё ещё не в индексе. Возможных причин несколько.
Чаще всего — бот просто ещё не дошёл. Для новых сайтов это нормально первые две-три недели. Решение: подождать или отправить URL на ускоренную индексацию через Вебмастер.
Бывает, что страница закрыта через robots.txt. Заходите, проверяете файл, выясняется — да, действительно
закрыто. Открываете, ждёте пересборку индекса.
Бывает, что на странице стоит мета-тег <meta name="robots" content="noindex">. Это прямой запрет на
индексацию, который иногда случайно остаётся с тестового окружения. Снимаете, ждёте.
Бывает, что Яндекс посчитал страницу дублём другой. Например, у вас два URL ведут на один и тот же контент, и Яндекс склеил их в одну запись индекса. Решается через настройку canonical (об этом будет позже в техническом разделе).
Бывает, что страница низкого качества с точки зрения Яндекса. Слишком короткая, малополезная, дублирующая чужой контент. Тогда в индекс она не попадает или попадает «глубоко», без шансов на выдачу. Решение тут — переработать страницу, добавить ценности.
И иногда — сайт под фильтром. Это уже серьёзная ситуация, которая отдельно разбирается в разделе про аудит и восстановление. Но это редкость для новичков, и обычно проблема не в этом.
Распространённая ошибка: разработчики выкладывают новые страницы, и владелец сайта удивляется, что они не в индексе через неделю. Обычно нужно: проверить sitemap.xml — обновился ли он автоматически. Проверить robots.txt — не закрыто ли. Проверить мета-теги — нет ли случайного noindex. И отправить URL на переобход в Вебмастере. Само по себе не индексируется — поисковик может неделями игнорировать новые страницы, если не подсказать.
Индекс — это живая структура
Последний важный момент. Индекс не статичен. Он постоянно обновляется, и это критично понимать.
Новые страницы добавляются по мере того, как бот их находит. Старые страницы переобходят и обновляют — если контент на них изменился, в индексе появляется новая версия. Удалённые страницы (которые отдают код 404 или 410) со временем убираются из индекса. Дубликаты периодически склеиваются.
Частота, с которой Яндекс переобходит ваш сайт, зависит от вашего «уровня доверия» в его глазах. Крупные новостные сайты бот посещает несколько раз в день. Маленький личный блог — раз в неделю или реже. Поэтому для информационного сайта свежесть страниц — отдельная тема: если вы что-то обновили, нужно подсказать боту переобойти, иначе обновление будет видно в выдаче только через неделю-другую.
Размер индекса — не показатель успеха
И ещё одна штука, которую я хочу зафиксировать заранее, потому что многие новички радуются «у меня уже 5000 страниц в индексе» и думают, что это хорошо.
Это не всегда хорошо. Большой индекс полезен, если он состоит из полезных уникальных страниц с трафиком. Если же это 5000 одинаковых шаблонных лендингов с заменённым названием города, бесполезных карточек параметров, дублей с тонким контентом — это плохо, потому что Яндекс распределяет внимание между ними неэффективно, и каждая отдельная страница не получает того ранжирования, которое могла бы получить.
Качество страниц в индексе важнее количества. Лучше 200 хорошо ранжирующихся страниц, чем 5000 болтающихся непонятно где.