Что такое RAG на самом деле, без жаргона

RAG — это сокращение от retrieval-augmented generation. Три слова, делающих много работы, поэтому вот простая версия. Когда клиент спрашивает AI chatbot «во сколько вы открываетесь в воскресенье?», за кулисами происходит одно из двух. Либо бот отвечает из того, что усвоил при обучении — а оно не включает ваш бизнес — и что-то выдумывает. Либо бот сначала ищет ответ в вашем конкретном контенте, находит вашу страницу с часами работы и пишет ответ на основе того, что там реально написано. Второе — это RAG. Представьте экзамен с открытой книгой. Без RAG chatbot сдаёт экзамен с закрытой книгой о вашем бизнесе — и учебник он никогда не видел. С RAG у него учебник открыт, он листает на нужную страницу и читает ответ перед тем, как отвечать.

Без RAG vs с RAG: пример с ценами

Допустим, вы продаёте коучинговые пакеты: $99 starter, $299 pro, $599 elite. Клиент спрашивает: «Сколько стоит план pro?» Без RAG:

«Цены различаются у разных провайдеров и планов. Большинство коучинговых пакетов стоят от $50 до $1,000 в месяц. Рекомендую уточнить точную цену напрямую у компании.» Технически верно. Совершенно бесполезно. Клиент уходит. С RAG: «План pro стоит $299/мес и включает еженедельные сессии 1-на-1, неограниченную переписку и индивидуальный план роста. Прислать ссылку, чтобы начать?» Конкретно, точно, полезно. Это и есть разница, которую делает RAG — и это разница между ботом, который захватывает лиды, и ботом, который их теряет.

Как это работает, вкратце

Вам не обязательно понимать инженерию, но вот картина из 3 шагов, чтобы вы знали, о чём говорят вендоры.

  1. Индексация. Система читает ваш сайт, FAQ и загруженные документы — и разбивает их на куски для поиска. Происходит один раз при настройке, а потом каждый раз, когда меняется ваш контент.
  2. Поиск. Когда клиент задаёт вопрос, система ищет среди этих кусков самые релевантные. Не сопоставление ключевых слов — семантический поиск. Она понимает, что «сколько» и «какая цена» — это один вопрос.
  3. Генерация. Релевантные куски передаются модели AI вместе с вопросом клиента. Модель пишет ответ на основе этих кусков, а не общего обучения. Клиент видит один связный ответ. За кулисами произошло три вещи.

Почему RAG лучше fine-tuning для большинства бизнесов

Альтернатива RAG — fine-tuning, дообучение базовой модели AI именно на ваших бизнес-данных. Звучит привлекательно. Для большинства малых и средних бизнесов это неверный выбор. Стоимость. Fine-tuning обычно стоит примерно в 100 раз дороже, чем chatbot на RAG с теми же данными. Математика становится жестокой на любом масштабе. Скорость обновления. Когда вы меняете цены, часы или услуги, RAG обновляется со скоростью, с которой вы можете переиндексировать контент — минуты, часто автоматически. Fine-tuned модели нужно переобучать, это занимает дни-недели. Поменяли цены в понедельник — fine-tuned бот может всё ещё называть старые в пятницу. Прозрачность. Хорошая реализация RAG может указать страницу-источник для каждого ответа («это с вашей страницы цен»). Fine-tuned модели не могут — они впитали информацию в свои веса. Когда клиент спрашивает «откуда вы это взяли?», у вас нет ответа. Для большинства бизнесов RAG — правильный ответ. Fine-tuning имеет смысл в узких случаях — узкоспециализированный словарь, большие проприетарные датасеты — и даже там RAG часто накладывается сверху.

Что может пойти не так с RAG

RAG — не магия. Самая частая поломка: если контент сайта неполный, устаревший или противоречивый — ответы бота тоже будут такими. Garbage in, garbage out. Другие проблемы:

  • Устаревший контент. Если переиндексация раз в месяц, клиенты неделями видят старые цены. Спрашивайте вендоров, как настроена переиндексация.
  • Плохая разбивка на куски. Если система разбивает контент на куски, которые слишком велики или слишком малы, нужный ответ не всплывает. Клиент получает уверенно звучащую чушь.
  • Нет указания источника. Если бот не может назвать страницу, откуда взят ответ, вы не можете аудировать или исправить.
  • Утечка между клиентами. Multi-tenant платформы должны строго разделять контент каждого клиента. Спрашивайте, как это обеспечено — см. гид покупателя, как выглядит хороший ответ. Это проблемы вендоров, а не RAG. Стоит проверить до подписания.

4 вопроса вендорам про их RAG

Четыре вопроса отделяют серьёзных вендоров от маркетинговой воды.

  1. Как часто переиндексируется мой контент? Хороший ответ: «Автоматически при изменениях, плюс ежедневный полный проход.» Плохой ответ: «Когда вы нажмёте кнопку обновления.»
  2. Может ли бот указать страницу-источник для каждого ответа? Если да — вы можете аудировать и править. Если нет — спросите почему.
  3. Через какое время обновление контента появляется в ответах бота? Цельтесь в минуты, не часы, и точно не дни.
  4. Как мой контент изолирован от других клиентов? Должен быть чёткий, технический ответ с упоминанием изоляции на уровне данных. Если разводят руками — это флаг. Если вендор использует RAG, но не может ответить на эти вопросы — он использует его плохо. Если вообще не использует RAG, а ваш контент регулярно обновляется — ищите дальше.