LSI и тематичность: как Яндекс понимает, что текст про что

«LSI-копирайтинг» в SEO чатах — обычно маркетинг. Сейка разберёт, что под этим словом реально полезного, а что устаревшее.

TL;DR

«LSI» в SEO — это не академический Latent Semantic Indexing, а просто «слова, типичные для темы». YATI понимает темы по-настоящему, поэтому «вкручивать LSI» по плотности устарело и даёт Баден-Баден; важна полнота раскрытия темы. Тематичность накапливается на уровне всего сайта, а не только страницы, и внутри одного языка — билингвальные сайты лучше разделять по доменам или поддоменам. Методика: парсинг SERP, сравнение структуры конкурентов и органичное дополнение своих страниц недостающим.

LSI расшифровывается как Latent Semantic Indexing — латентно-семантическое индексирование. Это математический метод анализа текстовых документов, который Скотт Дирвестер с коллегами предложил ещё в 1988 году. Поисковики, кстати, никогда не использовали LSI в исходном академическом виде — он считался слишком вычислительно дорогим для веб-масштабов. Но в SEO сообществе термин прочно закрепился как «всё про то, как поисковик понимает тему страницы».

С появлением YATI ситуация изменилась принципиально. Современные нейросетевые модели действительно понимают тематическую близость, и говорить о «тематичности страницы» имеет смысл. Только это уже не LSI в академическом смысле и не «LSI-фразы», как часто продают в SEO агентствах. Сейка разберёт, что под всем этим хайпом реально работает.

Что значит «понимать тему»

С точки зрения трансформера типа YATI, страница «про пуховики» — это страница с несколькими признаками, которые работают вместе.

На странице встречаются слова, обычно сопровождающие тему: пух, утеплитель, морозоустойчивость, гусь, климат, температура, размер, бренд, материал верха. Эти слова используются в естественных сочетаниях, как живая речь специалиста или интересующегося пользователя — а не вставлены как отдельные ключи. Структура страницы соответствует теме: разделы про материалы, размеры, уход, бренды, выбор. Контекст всего сайта подтверждает: это сайт из категории «одежда», «зимняя одежда», «верхняя одежда».

YATI всё это видит как многомерный вектор «смысла страницы», и сравнивает с вектором запроса. Чем ближе векторы — тем выше релевантность. Это не «слова на странице» в чистом виде, это «семантическое поле страницы».

Что такое «LSI-фразы» на самом деле

В SEO практике то, что называют «LSI-фразами», — это не LSI в академическом смысле. Это просто слова и сочетания, которые с высокой вероятностью встречаются на хорошо ранжирующихся страницах по теме. Простая статистика: «слова, которые часто встречаются на топ-страницах в этой нише».

Как это работает полезно. Парсите топ-10 выдачи по своему целевому запросу. Извлекаете часто встречающиеся слова и биграммы, исключая стоп-слова и сам запрос. Полученный список — это «лексический фон» темы, набор слов, которые в нише обязательно должны быть на странице.

Если на вашей странице этих слов нет, это диагностический сигнал: вы не вписаны в тему. Не значит, что страница плохая — может быть, она просто про что-то параллельное. Но если вы целитесь в этот SERP, лексика должна совпадать.

Сейка подсказывает

Сейка категорически против «вкручивать LSI-фразы» по заданной плотности. Если на вашей странице про пуховики не упоминается «утеплитель», это знак, что вы плохо раскрыли тему — нужно переписать раздел про материалы, органично используя слово в контексте. А не вставить слово «утеплитель» пять раз искусственно. Современный YATI и Баден-Баден различают эти подходы.

Тематичность сайта в целом

Важная штука, которую часто упускают. Не только отдельная страница имеет «вектор смысла». Сайт целиком тоже.

Если ваш сайт — про пуховики, то «авторитет в теме» у Яндекса вырабатывается за счёт нескольких сигналов одновременно. Объём контента в нише — чем больше у вас страниц про пуховики и связанные темы, тем выше тематический авторитет. Разнообразие раскрытых под-тем — пуховики мужские, женские, детские, для бега, для города, разных брендов, разных материалов. Внутренняя перелинковка внутри тематики — статьи и страницы сайта ссылаются друг на друга в рамках одной темы. Внешние ссылки с других тематичных сайтов — на вас ссылаются с других сайтов про одежду, моду, спорт. И поведенческие сигналы именно по тематичному трафику — пользователи, пришедшие по тематическим запросам, остаются и возвращаются.

Сайт, который пишет одновременно про «пуховики, кофеварки и автокредиты», у Яндекса не получит сильного авторитета ни в одной нише. Это «тематический шум», и Яндекс его распознаёт.

Что это значит для контент-стратегии. Лучше один сайт, глубоко проработанный по теме, чем три сайта в трёх нишах поверхностно. Если планируете расширение в новую нишу, рассматривайте отдельный сайт или хотя бы отдельный поддомен. Внутренние ссылки между статьями одной темы важнее, чем «внутренние ссылки» в произвольных местах сайта.

YATI и многоязычность

Один интересный аспект YATI стоит подчеркнуть отдельно. Он понимает темы внутри одного языка. То есть «пуховик» и «down jacket» для модели — разные понятия (если только не было специального обучения на параллельных корпусах для этой пары). Поэтому тематичность накапливается внутри русскоязычного сайта, а добавление английского раздела на ту же тему не «помогает» русским страницам — скорее размывает сигнал.

Билингвальные сайты лучше делать как два домена или два поддомена. Тогда каждый накапливает свой авторитет в своём языке независимо, и сигналы не мешают друг другу.

Семантическое поле на практике

Сейка предлагает простую методологию работы с тематичностью. Допустим, вы пишете статью «как выбрать пуховик».

Соберите топ-5 SERP по этому запросу — это ваши конкуренты-эталоны. Извлеките у них заголовки H2 и H3, часто встречающиеся слова и сочетания, разделы, про что они пишут. Сравните с тем, что вы запланировали написать. Если у конкурентов есть разделы «как стирать пуховик» и «как хранить», а у вас этого нет — это диагностика темы, которую нужно дописать. Допишите недостающие разделы органично, включая их в общую структуру статьи, а не отдельным «блоком под SEO» в конце. И прочитайте свой готовый текст вслух — если в нём попадаются «искусственные» вставки слов, переписывайте до естественности.

Вот это и есть «LSI-копирайтинг» в полезном смысле: не плотность ключей, а полнота раскрытия темы. Этот подход даёт реальный результат в Яндексе и не попадает под фильтры.

Чем русская тематичность отличается от английской

Главные различия — морфология и стилистика.

На английском «down jacket» один раз в тексте — это одно вхождение. На русском «пуховик» имеет десятки словоформ («пуховика», «пуховику», «о пуховике», «пуховиков»), и в простых SEO метриках каждая считается отдельно. YATI все формы сводит к одной семантической единице — но это означает, что попытка «увеличить плотность ключа» через разные словоформы не сработает. Поисковик видит, что это всё одно слово в разных формах.

Также русский текст в среднем длиннее по количеству слов из-за того, что русские словоформы морфологически длиннее английских. Попытка достичь заданной плотности ключей в русском тексте приводит к неестественной речи быстрее, чем в английском. Это ещё одна причина, по которой Сейка рекомендует переключиться на оценку «полноты раскрытия темы» вместо подсчёта плотности словоформ.

Что не делать

Не покупайте «LSI-копирайтинг» по заданной плотности ключей. Это устаревшая практика начала 2010-х, и она сейчас даёт Баден-Баден.

Не считайте, что есть «магический список LSI-фраз для вашей темы», который вам кто-то составит за деньги. Каждая ниша уникальная, и SERP вашей конкретной ниши — это и есть «список». Сделайте сами через парсинг топ-10.

Не размазывайте сайт на три и больше принципиально разные ниши. Тематичность падает, авторитет ни в одной из них не накапливается, и в итоге проигрываете на всех направлениях.

Не думайте про LSI как про отдельную сущность от структуры страницы. Тематичность — это структура плюс лексика плюс внутренние ссылки плюс ссылочный профиль в теме. Всё вместе работает на один сигнал.

Короче говоря

«LSI» в SEO сообществе — это не академический LSI, а просто «слова, типичные для темы». YATI понимает темы по-настоящему, и «вкручивать LSI» по плотности — устаревшая практика. Полнота раскрытия темы важнее плотности слов: если у конкурентов в топе есть разделы X и Y, у вас они тоже должны быть. Тематичность накапливается на уровне всего сайта, не только отдельной страницы. Билингвальные сайты лучше разделять по доменам или поддоменам. Методика работы: парсинг SERP, сравнение структуры конкурентов, органичное дополнение собственных страниц недостающим.

Дальше — E-E-A-T по-русски.

Источники

оригинальная статья Дирвестера и др. про LSI (1988, для академического контекста), материалы Девака и Шакина про тематичность в Яндексе, доклады команды Поиска про YATI.

Частые вопросы

Что такое LSI?

LSI расшифровывается как Latent Semantic Indexing — латентно-семантическое индексирование, математический метод анализа текстовых документов, предложенный Скоттом Дирвестером с коллегами в 1988 году. Поисковики никогда не использовали LSI в исходном академическом виде — он считался слишком вычислительно дорогим для веб-масштабов.

Что такое «LSI-фразы» на самом деле?

В SEO практике «LSI-фразы» — это не LSI в академическом смысле, а просто слова и сочетания, которые с высокой вероятностью встречаются на хорошо ранжирующихся страницах по теме. По сути это лексический фон темы: слова, которые часто встречаются на топ-страницах в нише.

Как собрать список «LSI-фраз» для своей темы?

Спарсите топ-10 выдачи по целевому запросу, извлеките часто встречающиеся слова и биграммы, исключая стоп-слова и сам запрос. Полученный список — это лексический фон темы; магического готового списка не существует, SERP вашей ниши и есть «список».

Почему нельзя «вкручивать LSI-фразы» по заданной плотности?

Это устаревшая практика начала 2010-х, которая сейчас даёт фильтр Баден-Баден. Современный YATI сводит все словоформы к одной семантической единице, поэтому накрутка плотности через разные формы не работает, а важна полнота раскрытия темы.

Как тематичность работает на билингвальных сайтах?

YATI понимает темы внутри одного языка: «пуховик» и «down jacket» для модели — разные понятия. Поэтому тематичность накапливается внутри русскоязычного сайта, а билингвальные сайты лучше делать как два домена или два поддомена, чтобы каждый накапливал свой авторитет независимо.

LSI и тематичность: как Яндекс понимает, что текст про что

Что значит «понимать тему»

Что такое «LSI-фразы» на самом деле

Тематичность сайта в целом

YATI и многоязычность

Семантическое поле на практике

Чем русская тематичность отличается от английской

Что не делать

Короче говоря

Частые вопросы

Термины из вики

Сделайте аудит сайта прямо сейчас

Что значит «понимать тему»

Что такое «LSI-фразы» на самом деле

Тематичность сайта в целом

YATI и многоязычность

Семантическое поле на практике

Чем русская тематичность отличается от английской

Что не делать

Короче говоря

Частые вопросы

См. также

Термины из вики

Сделайте аудит сайта прямо сейчас