Русский язык — это не «английский с другим алфавитом». Сейка разберёт, что это значит технически для YATI и Нейро.
YATI — нейросетевой ранжировщик Яндекса с 2020 года. В большинстве русских SEO-материалов про него рассказывают как «BERT, только в Яндексе». Это очень упрощённое описание. Архитектурно — да, трансформер, родственный западным BERT и GPT. Но содержательно YATI устроен иначе, потому что учится преимущественно на русскоязычных данных. И эти особенности обучения дают ему очень характерное поведение, которое полезно понимать, если вы пишете контент для Рунета.
Сейка разберёт основные нюансы.
Морфологическое богатство
Сначала факт, который часто проходит мимо новичков. Английское слово «buy» имеет пять словоформ: buy, buys, buying, bought (как прошедшее) и bought (как причастие). Русское «купить» имеет десятки форм с падежами, числами, временами, видами и причастиями: купить, купят, купила, купившие, купленный, купленному, куплю, купим — и так далее. Это, как ни странно звучит, базовое отличие, которое определяет всё остальное.
Для модели обучения вроде YATI это означает следующее. Чтобы понять понятие «купить пуховик», нужно увидеть в обучающих данных большую часть этих форм в разных контекстах. YATI обучен на огромном русскоязычном корпусе именно так — он знает морфологию русского как родную, а не «угадывает» её по правилам.
Что из этого следует для SEO. Во-первых, точные ключевые слова стали менее важны, чем были в эпоху Google 2014 года. YATI понимает, что «купить пуховик», «приобрести пуховик», «купите пуховик», «куплены пуховики» — это одно и то же по смыслу, разные формы одного интента. Так что искусственно вставлять все словоформы в текст бессмысленно и даже вредно.
Во-вторых, точное совпадение всё ещё даёт небольшой прирост на хвосте запросов. Для очень низкочастотных формулировок с конкретными словоформами вхождение этой формы в текст помогает. Не критично, но заметно.
В-третьих — и это, пожалуй, самое важное практическое следствие — перевод с английского теряет нюансы. Английская SEO-стратегия с короткими предложениями и точными ключами в русском проигрывает естественной русской речи с богатой морфологией.
Синтаксическая свобода
В английском порядок слов жёсткий. «I love cats» и «Cats love I» — формально другой смысл; вторая фраза вообще ломается грамматически.
В русском порядок слов гибкий. «Я люблю кошек», «Кошек я люблю», «Люблю я кошек» — это одно по смыслу, с небольшими стилистическими оттенками акцента. YATI это учитывает, потому что в обучающем корпусе видел все эти вариации.
Английские LLM (GPT-4, Claude, Mistral) русский синтаксис тоже понимают, но менее уверенно — особенно в редких или поэтических порядках слов. YATI «думает» в русском синтаксисе с самого начала.
Практически это значит. Не нужно подгонять текст под «канонический» порядок слов из учебника. Стилистическая вариативность вашего автора не мешает ранжированию. Поэтические и литературные конструкции с инверсиями работают в SEO-плане так же, как простые повествовательные.
Сложное словообразование
Русский активно использует приставки и суффиксы для создания производных слов с новыми смыслами. Возьмём «купить» — от него происходят «подкупить» (с оттенком взятки), «перекупить» (получить раньше другого), «выкупить» (забрать обратно за деньги), «закупить» (приобрести оптом), «накупить» (приобрести много).
Все слова однокоренные, но смысловые оттенки разные. YATI понимает это: производные слова он видит как семантически близкие, но не идентичные. То есть текст про «выкупить» по запросу «купить» получит частичную релевантность, но с пониманием, что это другой оттенок.
Не нужно повторять все варианты с приставками искусственно. Естественная русская речь сама использует производные там, где они уместны, и YATI это понимает без подсказок.
Идиоматичность
Русский богат на устойчивые выражения, идиомы, фразеологизмы: «бить баклуши», «как баран на новые ворота», «через пень-колоду», «как пить дать», «на скорую руку». YATI обучен на огромном корпусе русских текстов и знает эти выражения как единое целое, как несоставные конструкции.
Английские LLM, даже если они хорошо знают русский, часто «разрезают» идиомы, теряя смысл. YATI — не теряет.
Что это значит. Если вы пишете для русской аудитории — пишите как русский. Идиоматичные конструкции, разговорные обороты, характерные русские слова и связки делают текст не только приятнее для читателя, но и «русским» для модели тоже. Это работает на ранжирование.
Перевод с английского — почему не работает идеально
Допустим, у вас есть отличная статья на английском (например, западный SEO-гайд), и вы её переводите для русского сайта. С точки зрения YATI она будет иметь несколько слабых мест.
Чужая синтаксическая структура — калька с английского порядка слов, который для русского кажется неестественным даже когда формально правильным.
Бедная морфология — переводчик часто использует одну форму слова, теряя естественные русские вариации. «We buy» в русском становится одинаковым «мы покупаем», тогда как живой русский писал бы «мы покупаем», «нам покупать», «у нас куплено», «купим» — в зависимости от стилистики и контекста.
Отсутствие идиом — если только переводчик не пересоздаёт их активно, английские устойчивые выражения переводятся буквально, и русский текст звучит «синтетически».
Чужая логика абзацев — английский абзац короче (одна-две мысли, тогда раздел заканчивается), русский может быть длиннее и развивать мысль глубже.
Бедная тематическая плотность — английский «buy down jacket» переводится как «купить пуховик», но при этом не обогащает текст характерными русскими словами «утеплитель», «пух гусиный», «холодоустойчивость», «лёгкость», которые в оригинальном русском контексте про пуховики возникали бы естественно.
В результате машинно или формально переведённый текст ранжируется в Яндексе заметно хуже, чем оригинально-русский текст с тем же фактическим содержанием.
Яндекс
- Калька синтаксиса.
- Бедная морфология.
- Нет идиом.
- Тематическая плотность как у оригинала.
- YATI распознаёт «переводной» стиль.
- Естественный синтаксис.
- Богатая морфология.
- Идиомы и характерные обороты.
- Тематическая плотность ниши на русском.
- YATI ранжирует выше.
Сейка наблюдала это на проектах. Даже хороший человеческий перевод английского материала (без машинного, силами опытного переводчика) обычно проигрывает оригинальной русской статье в Яндексе при сопоставимом фактическом содержании. Это не «недостаток переводчика», а разница языковых статистик: YATI учился на оригинальных русских текстах и отдаёт им приоритет.
Многозначность
В русском многозначность сильнее, чем в английском. «Лук» — это и растение, и оружие, и музыкальный термин, и (в сленге) образ человека. «Коса» — волосы, инструмент для скашивания, географический объект. «Ключ» — открывалка, родник, музыкальный знак, IT-термин. У YATI было больше работы в обучении, чтобы различать эти значения по контексту.
И справляется он с этим хорошо. Запрос «купить лук» — Яндекс понимает контекст по словам вокруг (если у пользователя в истории были запросы про готовку, лук — растение; если про охоту, лук — оружие). И подбирает SERP под нужное значение.
Практически. Для многозначных слов важен контекст в тексте: на странице про инструменты для готовки слово «лук» однозначно про растение, и не нужно постоянно уточнять. Не нужно избегать многозначных слов вообще — модель различает по теме страницы. Но при кластеризации запросов учитывайте: «лук» как одинокий запрос — это мульти-интент, и страница под него должна это учитывать.
YATI и LLM в составе Нейро
Важное обновление 2024 года. В подборе источников для Нейро участвует не только YATI как ранжировщик, но и сами LLM. YandexGPT оценивает кандидатов на «понятность» и «полезность» для генерации ответа.
Это означает, что текст, хорошо ранжирующийся в классической выдаче, может не попадать в Нейро, если он плохо извлекается LLM. И наоборот: чёткий, структурированный текст с явными цитируемыми фрагментами может попадать в Нейро даже с не первой позиции в обычной выдаче.
Подробнее про это — в статье Как стать источником цитат для Яндекс Нейро.
Что писать для YATI и Нейро
Если резюмировать всё сказанное в практические рекомендации.
Естественный русский стиль. Не калька с английского. Не «AI-стиль» с типичными гладкими нейросетевыми конструкциями («стоит отметить», «в заключение хочется подчеркнуть», «следует учитывать»). Живой профессиональный язык вашей ниши.
Тематическая плотность. Используйте все характерные для темы термины. Если статья про пуховики — упомяните утеплитель, пух гусиный или утиный, материал верха, температурный режим, бренды, размерные ряды. Это естественное проявление компетентности автора в теме, и YATI его улавливает.
Чёткие определения и цитируемые фрагменты. «ИКС — это публичная метрика качества сайта Яндекса» в начале раздела. Это работает и для удобства человека-читателя, и для извлечения LLM при формировании ответа Нейро.
Стилистическая вариативность. Не повторяйте одну и ту же конструкцию пять раз подряд. Русский язык богат на способы сказать одно и то же — используйте.
Идиомы и характерные обороты. «Сейка покажет» лучше, чем «в нашей статье будет рассмотрено». «По опыту» лучше, чем «исходя из эмпирических наблюдений». Живой русский ранжируется лучше «академического».
Что не делать
Машинно переводить английские источники без серьёзной редактуры. Получите искажённый стиль, который YATI распознаёт.
Использовать AI-генерацию русского текста без редактуры русским автором. LLM часто пишут «правильный», но «не русский» текст с характерными нейросетевыми оборотами.
Игнорировать морфологическую вариативность. Текст, в котором каждое ключевое слово использовано только в одной форме, выглядит роботизированным.
Считать, что Яндекс работает «как Google». Не работает, особенно в части обработки русского языка. И эта разница — в вашу пользу, если вы пишете оригинально-русский контент.
Короче говоря
YATI понимает русскую морфологию глубоко благодаря обучению на оригинальном русском корпусе. Точные ключи менее важны, чем были у Google 2014 года, потому что YATI видит синонимы и словоформы. Синтаксическая свобода и идиоматичность русского — преимущества для оригинальных текстов, не препятствия. Перевод с английского, даже качественный, проигрывает оригинальному русскому на 15-30%. Тематическая плотность и естественный стиль — лучшая стратегия. YATI в Нейро дополняет LLM, и текст должен быть «понятным» обоим: структурированным для машинного извлечения и живым для человеческого восприятия.
Дальше — про схему для LLM, как технически разметить страницу для лучшего извлечения.
официальный анонс YATI (Яндекс, ноябрь 2020), статьи на Habr про работу с русской морфологией в нейросетях, материалы команды Поиска про эволюцию ранжирования.