GEO citation patterns: как LLM решает, кого цитировать

Сейчас покопаемся в том, как LLM на самом деле выбирает «эти три-восемь источников». Сейка разбирает паттерны.

TL;DR

Поиск в LLM выбирает источники в две стадии: ранжировщик отбирает кандидатов, LLM — три-восемь лучших из них. На втором шаге решают точность, однозначность, структура (FAQ, списки, таблицы), авторитет в нише и свежесть — поэтому структурированный источник с 5-й позиции нередко обходит сплошной абзац с 1-й.

Когда Нейро или другая LLM-search генерирует ответ, она опирается на несколько источников из выдачи. Откуда они берутся, по какому принципу выбираются, и почему именно эти, а не другие — понимание этих вопросов превращает «я просто сделал хороший контент» в «я знаю, как туда попасть».

Сейка разберёт логику отбора источников.

Двухэтапная архитектура

Все современные LLM-search продукты — Нейро, Google AI Overviews, Perplexity, ChatGPT с поиском — работают по двухэтапной модели, и без понимания этих этапов невозможно объяснить, почему один сайт цитируется, а другой нет.

Первый этап — retrieval, поиск кандидатов. Из всего корпуса страниц по запросу выбирается N кандидатов, обычно от 20 до 50. Это делает классический ранжировщик. Для Яндекса — это YATI плюс дополнительные модели. Если ваша страница не попала в эти 20-50 кандидатов, дальше с вами ничего не произойдёт. То есть чтобы попасть в источники Нейро, страница должна хорошо ранжироваться в обычной выдаче. GEO не отменяет классическое SEO, оно его надстройка.

Второй этап — re-ranking и selection, отбор источников. Из 20-50 кандидатов LLM (или отдельная ранжирующая модель) оценивает каждого на «пригодность как источник для генерации ответа» и отбирает три-восемь лучших. Это и есть самый интересный шаг — именно здесь работают паттерны цитирования, и именно здесь можно повлиять на попадание через оптимизацию под GEO.

Какие сигналы влияют на отбор источников

Из наблюдений за работой Нейро и других LLM-search можно выделить несколько устойчивых сигналов, которые повышают шансы попадания в цитаты.

Точность утверждений. LLM ценит источники, в которых фактов больше, чем мнений. «По данным Яндекса, ИКС публично представлен в августе 2018» лучше, чем «ИКС — относительно молодая метрика». Конкретные числа, даты, имена, цитаты — повышают «оценку» источника моделью.

Однозначность формулировок. LLM избегает источников с «но, с другой стороны…», «это зависит от ситуации», «в каждом случае разное». Такие источники не дают однозначного контекста для генерации. Идеальный для цитирования источник пишет «X равно Y. Причина — Z. Исключение — W». Чётко.

Структурированность. FAQ-блоки, HowTo, списки, таблицы извлекаются легче, чем сплошные абзацы. У источника с явной структурой выше шанс цитирования.

Авторитет домена в нише. LLM учитывает доменный авторитет в конкретной нише. Habr ранжируется высоко в технических темах. vc.ru — в бизнесе, маркетинге, SEO. Девака — в SEO. Это не «общий авторитет», а «авторитет в этой теме».

Свежесть. Для нестабильных тем (алгоритмы, инструменты, цены, новости) свежесть критична. Источник 2020 года про Яндекс Нейро (которая появилась только в 2024) очевидно невалидный, и модель его не процитирует. Дата публикации и обновления учитывается.

Уникальность. Если ваш контент во многом повторяет другой источник (а LLM это видит ещё на этапе retrieval), модель возьмёт первоисточник. Уникальные данные, инсайты, авторские исследования — повышают цитируемость.

Бренд-сигналы. Если бренд узнаваем в нише (часто упоминается в обучающих данных LLM и в текущей семантике интернета), модель «склоняется» выбрать его как источник. Это самый медленный сигнал — требует долгого присутствия, упоминаний, публикаций.

Структурное соответствие запросу. На запрос «как X» LLM ищет источники с HowTo-структурой. На «что такое X» — с явными определениями. На «X vs Y» — со сравнительной структурой. Соответствие структуры страницы формату запроса — важный фактор.

Сейка подсказывает

По наблюдениям за выдачей Нейро в разных нишах: туда часто попадает не первый органический результат, а позиции 4-7, если у них структурное соответствие лучше. Хорошая FAQ-страница на седьмой позиции может «обойти» сплошной абзац на первой. Это меняет арифметику SEO: позиция важна, но структура — иногда важнее.

Эмпирические паттерны Нейро

Из практики мониторинга Нейро-блока в разных нишах вырисовываются устойчивые паттерны, кого Нейро цитирует чаще.

Часто цитируется Habr — для технических тем (программирование, DevOps, IT-инструменты), у него огромный домен-авторитет в этих темах. vc.ru — для бизнеса, маркетинга, SEO. Русская Wikipedia — для базовых определений и фактоидных вопросов. Документация Яндекса (yandex.ru/support, yandex.ru/dev) — для тем непосредственно про Яндекс. Профильные авторские блоги (Девака, Шакин, Ашманов) — для SEO и маркетинга. Корпоративные блоги технологических компаний — для запросов про их продукты.

Редко цитируются безымянные блоги без авторства, машинно переведённые статьи, лендинги без явного текстового контента, очень старые материалы по нестабильным темам.

Иногда цитируются авторские блоги среднего уровня площадок, если у них есть уникальные инсайты или данные, недоступные другим. Корпоративные блоги новых проектов — если контент действительно качественный. Свежий контент даже без авторитета домена — если на него попадает алгоритм Нейро в момент свежести.

Структурные паттерны в самих ответах

Когда LLM генерирует ответ Нейро, она часто использует одинаковые структурные паттерны. Знание этих паттернов помогает понять, какие фрагменты вашей страницы попадут в цитату.

Паттерн «определение плюс детали»:

[Краткое определение]. [Несколько пояснений]. По данным [источник], [конкретный факт].

[Какой-то аспект 2]. По данным [источник 2], [факт].

Чтобы попасть в такой ответ, давайте на странице короткие точные определения в начале раздела (для retrieval) и конкретные факты с числами (для цитирования).

Паттерн «список»:

Основные пункты:
1. [пункт 1]. По данным [источник 1].
2. [пункт 2]. По данным [источник 2].
3. [пункт 3]. По данным [источник 3].

Чтобы попасть в такой ответ — имейте явные списки на странице. LLM их парсит охотнее абзацев.

Паттерн «сравнение»:

[A] vs [B]:
- В части X: [A лучше / B лучше]. По данным [источник].
- В части Y: ...

Чтобы попасть — имейте сравнительные блоки или таблицы.

Как мерить видимость в GEO

Это самый частый практический вопрос: как понять, попадаете ли вы в источники Нейро? Есть несколько подходов.

Ручной аудит — самый точный, самый медленный. Возьмите 50-100 запросов из вашей ниши. По каждому проверьте в Яндексе в инкогнито: есть ли Нейро-блок, какие источники он цитирует. Запишите долю запросов, в которых ваш домен цитируется. Это базовая видимость в GEO. Сравните с органической видимостью — долей запросов, в которых вы в топ-10. Разница покажет, насколько эффективна ваша оптимизация под GEO при имеющейся органике.

Анализ цитируемых фрагментов — когда вы видите себя в Нейро, откройте источник и посмотрите, какой именно фрагмент вашей страницы модель процитировала. Это говорит вам, какие места работают для LLM. Закономерности: часто это лид-абзацы разделов, ответы FAQ, конкретные числовые утверждения, цитаты с явным указанием автора.

Через инструменты — в 2025-2026 годах появляются специализированные средства мониторинга: Topvisor добавил отслеживание упоминаний в Нейро по вашему домену. Rush Analytics — аналогично. YandexGPT API плюс кастомные скрипты — для крупных проектов с техническими ресурсами. Универсального инструмента «один клик и видимость по всему ядру» пока нет, но точечные решения уже работают.

Что не делать

Не делайте чек-листы для GEO из пустоты. Если на странице нет реальных уникальных данных и инсайтов, никакая структура и микроразметка не помогут. Сначала контент, потом форматирование.

Не считайте, что GEO заменит SEO. Чтобы попасть в кандидаты Нейро, страница должна хорошо ранжироваться обычно. GEO без классического SEO не работает.

Не «подгоняйте» текст под цитирование ценой читабельности для человека. Если пользователю читать неприятно, поведенческие падают, и страница вылетает из топа в обычной выдаче, а значит и из кандидатов Нейро.

Не игнорируйте структурные паттерны. Сплошной абзац цитируется хуже структурированного текста при прочих равных. Простой переход к спискам и подзаголовкам заметно повышает шансы цитирования.

Короче говоря

LLM-search работает в две стадии — retrieval (классический ранжировщик отбирает кандидатов) и re-ranking (LLM отбирает источники из кандидатов). Сигналы для отбора: точность, однозначность, структура, авторитет домена в нише, свежесть, уникальность, бренд, структурное соответствие запросу. Часто Нейро берёт не первую позицию органики, а более структурированный источник с 4-7 позиций. Структурные паттерны ответов: определение плюс детали, списки, сравнения. Мониторинг — ручной аудит плюс анализ цитируемых фрагментов плюс инструменты. GEO дополняет SEO, не заменяет его.

Дальше — про дополнительный технический сигнал, llms.txt в Рунете.

Источники

исследования на arxiv.org про retrieval-augmented generation, кейсы из vc.ru про попадание в источники Нейро, материалы Ашманов про работу с AI-search, моя практика мониторинга на нескольких проектах.

Частые вопросы

Как LLM решает, кого цитировать?

В две стадии: retrieval — классический ранжировщик (для Яндекса YATI) отбирает 20-50 кандидатов; re-ranking — LLM оценивает их «пригодность как источник» и отбирает три-восемь лучших. Повлиять на попадание можно на втором шаге через GEO.

Какие сигналы повышают шанс цитирования?

Точность утверждений (факты, числа, даты), однозначность формулировок, структурированность (FAQ, списки, таблицы), авторитет домена в нише, свежесть, уникальность данных и структурное соответствие формату запроса.

Всегда ли цитируется первый результат органики?

Нет. Нейро часто берёт не первую позицию, а более структурированный источник с 4-7 позиций. Хорошая FAQ-страница на седьмой позиции может «обойти» сплошной абзац на первой.

Кого Нейро цитирует чаще всего?

Habr — в технических темах, vc.ru — в бизнесе и маркетинге, русскую Wikipedia — для базовых определений, документацию Яндекса — для тем про Яндекс, авторские блоги (Девака, Шакин, Ашманов) — для SEO и маркетинга.

Как измерить видимость в GEO?

Ручной аудит (доля запросов, где ваш домен в источниках Нейро), анализ цитируемых фрагментов и инструменты — Topvisor и Rush Analytics добавили отслеживание упоминаний в Нейро.

GEO citation patterns: как LLM решает, кого цитировать

Двухэтапная архитектура

Какие сигналы влияют на отбор источников

Эмпирические паттерны Нейро

Структурные паттерны в самих ответах

Как мерить видимость в GEO

Что не делать

Короче говоря

Частые вопросы

Термины из вики

Сделайте аудит сайта прямо сейчас

Двухэтапная архитектура

Какие сигналы влияют на отбор источников

Эмпирические паттерны Нейро

Структурные паттерны в самих ответах

Как мерить видимость в GEO

Что не делать

Короче говоря

Частые вопросы

См. также

Термины из вики

Сделайте аудит сайта прямо сейчас