сейка.ru
§ 03.04 · Семантика и контент

LSI и тематичность: как Яндекс понимает, что текст про что

От Latent Semantic Indexing до семантических полей в YATI — что нужно знать о тематической глубине в русском SEO.

«LSI-копирайтинг» в SEO-чатах — обычно маркетинг. Сейка разберёт, что под этим словом реально полезного, а что устаревшее.

LSI расшифровывается как Latent Semantic Indexing — латентно-семантическое индексирование. Это математический метод анализа текстовых документов, который Скотт Дирвестер с коллегами предложил ещё в 1988 году. Поисковики, кстати, никогда не использовали LSI в исходном академическом виде — он считался слишком вычислительно дорогим для веб-масштабов. Но в SEO-сообществе термин прочно закрепился как «всё про то, как поисковик понимает тему страницы».

С появлением YATI ситуация изменилась принципиально. Современные нейросетевые модели действительно понимают тематическую близость, и говорить о «тематичности страницы» имеет смысл. Только это уже не LSI в академическом смысле и не «LSI-фразы», как часто продают в SEO-агентствах. Сейка разберёт, что под всем этим хайпом реально работает.

Что значит «понимать тему»

С точки зрения трансформера типа YATI, страница «про пуховики» — это страница с несколькими признаками, которые работают вместе.

На странице встречаются слова, обычно сопровождающие тему: пух, утеплитель, морозоустойчивость, гусь, климат, температура, размер, бренд, материал верха. Эти слова используются в естественных сочетаниях, как живая речь специалиста или интересующегося пользователя — а не вставлены как отдельные ключи. Структура страницы соответствует теме: разделы про материалы, размеры, уход, бренды, выбор. Контекст всего сайта подтверждает: это сайт из категории «одежда», «зимняя одежда», «верхняя одежда».

YATI всё это видит как многомерный вектор «смысла страницы», и сравнивает с вектором запроса. Чем ближе векторы — тем выше релевантность. Это не «слова на странице» в чистом виде, это «семантическое поле страницы».

Что такое «LSI-фразы» на самом деле

В SEO-практике то, что называют «LSI-фразами», — это не LSI в академическом смысле. Это просто слова и сочетания, которые с высокой вероятностью встречаются на хорошо ранжирующихся страницах по теме. Простая статистика: «слова, которые часто встречаются на топ-страницах в этой нише».

Как это работает полезно. Парсите топ-10 выдачи по своему целевому запросу. Извлекаете часто встречающиеся слова и биграммы, исключая стоп-слова и сам запрос. Полученный список — это «лексический фон» темы, набор слов, которые в нише обязательно должны быть на странице.

Если на вашей странице этих слов нет, это диагностический сигнал: вы не вписаны в тему. Не значит, что страница плохая — может быть, она просто про что-то параллельное. Но если вы целитесь в этот SERP, лексика должна совпадать.

Сейка подсказывает

Сейка категорически против «вкручивать LSI-фразы» по заданной плотности. Если на вашей странице про пуховики не упоминается «утеплитель», это знак, что вы плохо раскрыли тему — нужно переписать раздел про материалы, органично используя слово в контексте. А не вставить слово «утеплитель» пять раз искусственно. Современный YATI и Баден-Баден различают эти подходы.

Тематичность сайта в целом

Важная штука, которую часто упускают. Не только отдельная страница имеет «вектор смысла». Сайт целиком тоже.

Если ваш сайт — про пуховики, то «авторитет в теме» у Яндекса вырабатывается за счёт нескольких сигналов одновременно. Объём контента в нише — чем больше у вас страниц про пуховики и связанные темы, тем выше тематический авторитет. Разнообразие раскрытых под-тем — пуховики мужские, женские, детские, для бега, для города, разных брендов, разных материалов. Внутренняя перелинковка внутри тематики — статьи и страницы сайта ссылаются друг на друга в рамках одной темы. Внешние ссылки с других тематичных сайтов — на вас ссылаются с других сайтов про одежду, моду, спорт. И поведенческие сигналы именно по тематичному трафику — пользователи, пришедшие по тематическим запросам, остаются и возвращаются.

Сайт, который пишет одновременно про «пуховики, кофеварки и автокредиты», у Яндекса не получит сильного авторитета ни в одной нише. Это «тематический шум», и Яндекс его распознаёт.

Что это значит для контент-стратегии. Лучше один сайт, глубоко проработанный по теме, чем три сайта в трёх нишах поверхностно. Если планируете расширение в новую нишу, рассматривайте отдельный сайт или хотя бы отдельный поддомен. Внутренние ссылки между статьями одной темы важнее, чем «внутренние ссылки» в произвольных местах сайта.

YATI и многоязычность

Один интересный аспект YATI стоит подчеркнуть отдельно. Он понимает темы внутри одного языка. То есть «пуховик» и «down jacket» для модели — разные понятия (если только не было специального обучения на параллельных корпусах для этой пары). Поэтому тематичность накапливается внутри русскоязычного сайта, а добавление английского раздела на ту же тему не «помогает» русским страницам — скорее размывает сигнал.

Билингвальные сайты лучше делать как два домена или два поддомена. Тогда каждый накапливает свой авторитет в своём языке независимо, и сигналы не мешают друг другу.

Семантическое поле на практике

Сейка предлагает простую методологию работы с тематичностью. Допустим, вы пишете статью «как выбрать пуховик».

Соберите топ-5 SERP по этому запросу — это ваши конкуренты-эталоны. Извлеките у них заголовки H2 и H3, часто встречающиеся слова и сочетания, разделы, про что они пишут. Сравните с тем, что вы запланировали написать. Если у конкурентов есть разделы «как стирать пуховик» и «как хранить», а у вас этого нет — это диагностика темы, которую нужно дописать. Допишите недостающие разделы органично, включая их в общую структуру статьи, а не отдельным «SEO-блоком в конце». И прочитайте свой готовый текст вслух — если в нём попадаются «искусственные» вставки слов, переписывайте до естественности.

Вот это и есть «LSI-копирайтинг» в полезном смысле: не плотность ключей, а полнота раскрытия темы. Этот подход даёт реальный результат в Яндексе и не попадает под фильтры.

Чем русская тематичность отличается от английской

Главные различия — морфология и стилистика.

На английском «down jacket» один раз в тексте — это одно вхождение. На русском «пуховик» имеет десятки словоформ («пуховика», «пуховику», «о пуховике», «пуховиков»), и в простых SEO-метриках каждая считается отдельно. YATI все формы сводит к одной семантической единице — но это означает, что попытка «увеличить плотность ключа» через разные словоформы не сработает. Поисковик видит, что это всё одно слово в разных формах.

Также русский текст в среднем длиннее по количеству слов из-за того, что русские словоформы морфологически длиннее английских. Попытка достичь заданной плотности ключей в русском тексте приводит к неестественной речи быстрее, чем в английском. Это ещё одна причина, по которой Сейка рекомендует переключиться на оценку «полноты раскрытия темы» вместо подсчёта плотности словоформ.

Что не делать

Не покупайте «LSI-копирайтинг» по заданной плотности ключей. Это устаревшая практика начала 2010-х, и она сейчас даёт Баден-Баден.

Не считайте, что есть «магический список LSI-фраз для вашей темы», который вам кто-то составит за деньги. Каждая ниша уникальная, и SERP вашей конкретной ниши — это и есть «список». Сделайте сами через парсинг топ-10.

Не размазывайте сайт на три и больше принципиально разные ниши. Тематичность падает, авторитет ни в одной из них не накапливается, и в итоге проигрываете на всех направлениях.

Не думайте про LSI как про отдельную сущность от структуры страницы. Тематичность — это структура плюс лексика плюс внутренние ссылки плюс ссылочный профиль в теме. Всё вместе работает на один сигнал.

Короче говоря

«LSI» в SEO-сообществе — это не академический LSI, а просто «слова, типичные для темы». YATI понимает темы по-настоящему, и «вкручивать LSI» по плотности — устаревшая практика. Полнота раскрытия темы важнее плотности слов: если у конкурентов в топе есть разделы X и Y, у вас они тоже должны быть. Тематичность накапливается на уровне всего сайта, не только отдельной страницы. Билингвальные сайты лучше разделять по доменам или поддоменам. Методика работы: парсинг SERP, сравнение структуры конкурентов, органичное дополнение собственных страниц недостающим.

Дальше — E-E-A-T по-русски.

Источники

оригинальная статья Дирвестера и др. про LSI (1988, для академического контекста), материалы Девака и Шакина про тематичность в Яндексе, доклады команды Поиска про YATI.

Бесплатный AI SEO анализ

Сделайте аудит сайта прямо сейчас

Спросите Сейку напрямую — конкретный ответ по вашему сайту обычно быстрее, чем читать всю серию.

Убедитесь, что вы согласны с нашими Условиями использования и Политикой обработки персональных данных.