О том, как ИИ может упростить обработку данных и что для этого уже разработано, рассказал на конференции «Данные компании – 2024: управление и интеграция» технический директор DATAREON Станислав Пиголкин.
Активное развитие искусственного интеллекта в последние годы не перестает волновать общественность: кто-то по-прежнему пугается этого новшества, а кто-то активно старается внедрить его в различные сферы деятельности. Не секрет, что ускорение, автоматизация рутинных операций, в принципе снижение влияния человеческого фактора на те или иные рабочие процессы сейчас является приоритетом для любого работодателя, сфера деятельности которого во многом ориентирована на механическую работу, технический труд.
– В рамках работы над DATAREON Platform мы столкнулись с таким явлением, как однотипные стартовые задачи по управлению данными – задачи структурирования оперативных данных. У клиента уже есть какой-то объем данных, и они могут быть структурированными, а может и нет, но самое главное – данные, даже константные, так или иначе меняются со временем. Нашей целью стало создание такого сервиса, который позволил бы оперативно обрабатывать, структурировать, сопровождать этот объем данных с минимальным вмешательством в этот процесс человека. Потому что человек – это самое тонкое место, – делится мнением технический директор DATAREON Станислав Пиголкин.
Сервер ИИ от DATAREON
Поиски решения привели компанию DATAREON к созданию некоего «подспорья» – так называемого сервера ИИ. Это новый продукт, который, во-первых, может быть развернут как отдельное standalone-решение, так и в облаке, т.е. клиент сможет подключаться к нему с помощью своих средств и устройств. Во-вторых, сервер ИИ от DATAREON способен и к вертикальному, и к горизонтальному масштабированию с помощью графических инструментов управления, позволяет настраивать в нем множество различных моделей обработки данных.
– Например, вы формируете сервер, загружаете в него те модели, которые вам кажутся нужными. Затем дата-стюард загружает данные, выполняет разметку согласно этим моделям либо корректирует разметку, полученную, допустим, с нашего сервера, и выполняет управление данными. Иными словами, сам по себе сервер ИИ – это такой швейцарский нож, с помощью которого вы можете формировать различные автоматизированные подходы управления данными на базе различных систем ИИ, – Станислав Пиголкин, технический директор DATAREON.
Упрощенно архитектуру этого решения можно представить следующим образом: есть единый сервер, который управляет запросами на получение данных, отслеживает их, передает на отдельные объекты исполнения непосредственно для каждой модели.
Сценарии использования сервера ИИ
В настоящее время компанией DATAREON разработано три типовых сценария по использованию сервера ИИ в области интеграции приложений и управления данными.
Первый – Классификация и выделение характеристик.
Это самый классический сценарий первичной обработки данных, когда поступает большое количество «сырых» данных. Сервер ИИ оперативно анализирует их, определяет, к каким классам могут относиться те или иные данные, какие у них характеристики, какие значения в них, вероятнее всего, заложены и когда именно у конкретного класса данных появились какие-то новые характеристики.
– Представьте, что мы компания, которая торгует мониторами. Я помню, как мониторы начинались от электронно-лучевых трубок и «мутировали» до жидких кристаллов, потом LED-мониторов и т.д. У каждого типа монитора свои характеристики, набор ключевых значений, границы значений. Сервер ИИ сможет точно определить, что «к нам пришли данные, и вроде бы относятся к классу «монитор», но имеют новый набор характеристик. Кажется, что это такой-то набор с такими-то значениями», – Станислав Пиголкин, технический директор DATAREON.
Второй сценарий – Формирование классификаторов по сырым данным.
Как правило, у клиентов нет изначально задействованного классификатора данных. В этом случае сервер ИИ сможет быстро сформировать из набора данных заказчика такой классификатор, со структурированной системой моделью под конкретную задачу. Он разберет все ваши текущие данные, скажет, к какому набору классов, с какой иерархией они соотносятся, укажет потенциальные совпадения, насколько эти классы имеют наполненность в вашем массиве данных, и предположит, какими атрибутами могли бы обладать классы данных исходя из тех атрибутов, которые уже сформированы во всех исходных данных.
– Представьте, что у вас есть ERP, бухгалтерия, WMS, DOM-система и вам не надо выгружать все данные куда-то, вы просто подключаете к ним платформу, сервер ИИ и запускаете механизм разбора. Он сам обратится к вашим справочникам, сам проанализирует эти данные и сам сформирует вам архитектуру классов, – Станислав Пиголкин, технический директор DATAREON.
Третий сценарий – Дедубликация записей.
Такой сценарий реализуется, когда нужно понять, стоит ли обрабатывать исходные «сырые» данные. Именно в этом может помочь сервер ИИ: он сможет оперативно проанализировать данные, даже если нет явных критериев для сравнения либо оно должно проводиться по какому-то конкретному набору критериев с определением весовой значимости, стоимости этих критериев.
Кроме того, у DATAREON есть еще несколько потенциальных сценариев для реализации, например, неявное выделение дублей; разведочный анализ и профайлинг данных; кластеризация данных и др. По мере совершенствования продукта все эти сценарии будут постепенно разрабатываться и совершенствоваться наравне с типовыми.
В дальнейшем компания DATAREON планирует совершенствовать сервер ИИ посредством улучшения механизма оценки качества обучения в рамках модели данных, расширения интерфейсных механизмов взаимодействия в DATAREON Platform, коммерциализации сервера, увеличения списка базовых моделей и алгоритмов, появления рабочего места аналитика данных и т.д.