Переворот в добыче знаний из информационного мусора

01.05.2026 | Решения

 

За окном - четвертая промышленная революция: массовое внедрение искусственного интеллекта (ШИ), интернета вещей (IoT) и киберфизических систем, интегрирующих вычислительные ресурсы с физическими объектами. Основой этих процессов является аналитика больших данных – сбор и всесторонняя обработка информации из многочисленных источников.

Впрочем, как уже не первый год отмечает статистика Gartner, от 80 до 90% корпоративных данных остаются неструктурированными. Данных много, но в «в топку революции» подбросить нечего.

В космологии и теоретической физике существует понятие «темной материи» – не взаимодействующей с электромагнитным излучением. В data science имеется близкий по содержанию термин – «темные данные»: большие объемы неисследованной необработанной информации, доступной предприятиям. Такие данные могут быть неструктурированными, генерироваться без учета внутренних процессов компании, а их источники нередко игнорируются из-за неадекватной стратегии работы с ними или недостаточной осведомленности о них. По оценкам Splunk , около 55% корпоративных данных относятся к «темным». Агностицизм чистой воды.

Но то, о чем долго говорили, наконец-то произошло: LLM и RAG-конвейеры сделали значительную часть этих данных пригодной для практического использования.

 

Три типа данных : что с ними делать

 

  • Структурированные данные понятны: заранее определенные поля, строки и столбцы встречаются везде - от простых Excel-файлов учета затрат до реляционных баз данных и транзакционных систем уровня ERP и CRM. Такие данные всегда соответствуют заранее определенному формату, модели или схеме данных. Основным инструментом работы с ними является язык SQL, хотя применяются и другие подходы – визуализация, моделирование, программные преобразования и машинное обучение.
  • Неструктурированные данные не подчиняются предопределенной схеме. Они существуют в виде текста, изображений, аудио, видео или документов и остаются в исходном виде, пока не будут обработаны. Электронные письма, PDF-файлы, сканированные контракты, презентации, записи звонков, история чатов – именно такие данные составляют значительную часть информационного потока в организациях.
  • Полуструктурированные данные – продукт цифровых платформ и интернета вещей, которые генерируют непрерывные потоки событий. Ответы API, потоки телеметрии, JSON и XML-документы, журналы событий, строковые форматы типа Avro и колоночные Parquet – все это многообразие возможно и создавалось для перемещения между API и рабочими службами облачных сред. Но они тоже являются ценным источником для аналитики. По данным Spotify, еще в 2019 году платформа генерировала около 70 ТВ таких данных.

Если коротко, то структурированные данные помогают ответить на вопрос , что произошло , полуструктурированные - где и когда, а неструктурированные позволяют понять, почему это произошло .

 

Почему неструктурированные данные важны

Сложности, возникающие при работе со структурированными данными, можно считать незначительными по сравнению с обработкой неструктурированных. Это объясняется тем, что современные компьютеры, структуры данных и языки программирования лучше приспособлены именно к табличным данным и заранее определенным форматам. Чтобы анализировать и управлять неструктурированными данными, компьютерные системы вынуждены сначала разбивать их на фрагменты, пригодные для обработки и «понимания».

Структурированные данные хорошо подходят, если уже известно, какие ответы нужно получить. Но как только возникает задача не просто понять событие и его динамику, а разобраться, почему что-то произошло, реляционные таблицы сталкиваются с ограничениями.

Работа с неструктурированными данными обычно связана с двумя основными сложностями:

  • хранение – объем таких данных, как правило, существенно больше, чем у структурированных;
  • анализ – его сложность всегда выше по сравнению со структурированными данными.

Для анализа могут применяться и традиционные методы – например, поиск по ключевым словам или сопоставление шаблонов. Но чаще используются технологии машинного обучения: распознавание изображений, анализ настроений, извлечение сущностей и другие подходы.

Когда точный вопрос заранее неизвестен, когда нужно глубже погрузиться в детали и найти смысл, скрытый в большом объеме текстового или мультимедийного контента, возникает необходимость работать с неструктурированными данными – и здесь проявляется вся сложность этого процесса.

Полуструктурированные данные, в свою очередь, позволяют достаточно точно определить, где произошел сбой в процессе, а также отследить изменения между состояниями системы. Именно поэтому они особенно полезны для мониторинга, выявления мошенничества, анализа продуктов и устранения неполадок.

Для принятия решений требуется полнота информации, и все три категории данных важны. Данные из реляционных баз показывают, что изменилось что-то, тогда как неструктурированные и полуструктурированные данные объясняют, что именно изменилось и почему.

 

Неструктурированные данные и конвейеры искусственного интеллекта

Большие языковые модели (LLM) поразили мир своими беспрецедентными возможностями понимания и генерации ответов, приближенных к человеческим. Чат-интерфейс обеспечивает быстрое и естественное взаимодействие человека с большими массивами данных. Например, они могут обобщать информацию и выделять ключевые моменты из данных или заменять сложные запросы, в частности SQL-запросы, естественным языком общения.

Было бы наивно считать, что такие модели могут приносить коммерческую ценность без усилий. К счастью, все, что нужно предприятиям для получения практической пользы от LLM, – это дополнить модель собственными данными. И здесь на сцену выходит RAG – генерация с дополненным поиском.

 

Что такое RAG

RAG (Retrieval-Augmented Generation) - это технология дополненной генерации, при которой нейросеть (LLM) берет знания не только из своей «памяти», но и использует внешнюю базу данных как актуальный справочник, по схеме: Запрос → Поиск в базе знаний → Контекст (добавление найденной информации к запросу)  → Ответ LLM (со ссылками на источники).

Стандартная модель не знает внутренних регламентов компании, свежих тикетов, электронных писем, контрактов, корпоративных политик или утренних отзывов клиентов.

RAG решает эти проблемы:

  • Актуальность: нет необходимости каждый раз дообучать модель при смене одного абзаца в инструкции, достаточно обновить файл в базе знаний.
  • Достоверность: существенно снижается риск «галлюцинаций»: модель обязана опираться на предоставленный текст.
  • Прозрачность: ответ легко проверить – система всегда может указать источник (документ, страницу или фрагмент текста).
  • Экономичность: это значительно дешевле и быстрее, чем дообучение модели.

Отдельный плюс RAG – в содействии работе с конфиденциальной информацией. Не обязательно «скармливать» модели все подряд - можно ограничить доступ только документами и источниками, которые нужны для конкретного задания. Данные остаются в собственной инфраструктуре, а модель получает доступ к ним только в момент запроса, что уменьшает риски утечки информации. Для бизнеса это часто не менее важно, чем качество ответа.

Системы RAG становятся новой нормой, а неструктурированные данные быстро переходят с периферии в ядро стратегии работы с данными.

 

Как работает RAG

 

Ускоренный конвейер RAG, который можно собрать и развернуть в репозитории GitHub /NVIDIA/GenerativeAIExamples

 

1. Загрузка документов

Сначала в систему RAG загружаются необработанные данные из разных источников, таких как базы данных, документы или потоки данных в реальном времени.

Для предварительной обработки LangChain предоставляет большое количество загрузчиков документов, позволяющих получать данные из разных форматов и источников. Термин «загрузчик документов» в этом контексте используется в широком смысле: исходные данные не обязательно должны быть стандартными PDF- или текстовыми файлами. Например, LangChain поддерживает загрузку данных из Confluence, CSV-файлов, электронной почты Outlook и многих других источников. Аналогичные возможности также предоставляет LlamaIndex через экосистему LlamaHub.

2. Предварительная обработка документа

После загрузки документы обычно проходят этап трансформации. Один из самых распространенных подходов – разбиение текста на меньшие фрагменты (chunking). Это необходимо для того, чтобы текст лучше помещался в контекстное окно модели и более эффективно индексировался.

Хотя сам процесс разделения выглядит простым, на практике он достаточно сложен: если фрагменты слишком малы – теряется содержание, если слишком велики – снижается качество поиска и точность ответа.

3. Генерация эмбедингов

После обработки данные нужно перевести в формат, подходящий для вычислительного анализа. Для этого используется генерация эмбедингов – превращение текста в многомерные векторные представления, отражающие его семантическое содержание в числовой форме.

4. Хранение в векторной базе данных

Обработанные данные и векторные представления хранятся в специализированных системах - векторных базах данных. Они оптимизированы для скорейшего семантического поиска и извлечения релевантной информации.

Сохранение данных в векторных базах с ускорением RAPIDS RAFT, таких как Milvus, обеспечивает высокую скорость доступа к информации и эффективный поиск в режиме реального времени.

5. LLM

LLM-модели являются основным генеративным компонентом RAG-конвейера. Они учатся на больших массивах данных, что позволяет им понимать и генерировать текст, близкий к человеческому языку.

В контексте RAG LLM необходимы для формирования полноценного ответа на основе запроса пользователя и дополнительного контекста, полученного из базы знаний при выполнении запроса.

6. Запросы

Когда пользователь отправляет запрос, RAG использует индексированные данные и векторные представления для поиска. Она сравнивает вектор запроса с векторами, хранящимися в базе данных, находит наиболее релевантную информацию, после чего LLM формирует ответ на основе запроса и полученного контекста.

 

Вместо вывода

Когда точный вопрос заранее неизвестен, особенно важно уметь работать не только с цифрами в таблицах, но и с тем, что обычно остается в тени – электронными письмами, документами, логами, чатами и другими неструктурированными данными. Именно здесь LLM и RAG-конвейеры делают то, что еще недавно выглядело почти как магия: превращают хаос в ответ.