- Решения
- Управление качеством данных
- Функциональные возможности
DATAREON (DQ, ETL)
Управление качеством данных
Повышение и поддержание стабильного качества данных в структурных единицах компании
ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ
УПРАВЛЕНИЯ КАЧЕСТВОМ ДАННЫХ (DQ,
ETL) НА ПЛАТФОРМЕ DATAREON
Некачественные данные сводят на «нет» весь эффект
от централизации данных и их централизованного
управления
Для управления качеством данных в платформе DATAREON присутствуют следующие механизмы и инструменты:
Извлечение и загрузка данных
В платформе DATAREON присутствуют механизмы по извлечению и загрузке данных из/в сторонних источников. Извлечение «сырых» данных может вестись из множества источников в различных форматах с приведением к единому стандарту. Загрузка данных после обработки в конечные системы может выполняться параллельно с разделением данных по сценариям.
Анализ и профилирование данных
Прежде чем приступать к каким-либо манипуляциям с данными, необходимо эти данные изучить. Механизмы анализа и профилирования данных в платформе DATAREON позволяют грубо оценить качество данных, выявить ошибки в данных, выстроить стратегию их обработки.
Валидация, стандартизация, очистка и обогащение данных
Для обработки данных в платформе DATAREON могут применяться такие простейшие механизмы как приведение значений к единому формату (например, телефонных номеров), удаление/замена случайных вкраплений символов «другого» алфавита, удаление лишних пробелов, замена сокращений и аббревиатур по словарю, исправление явных опечаток и т.д. Также в системе могут использоваться более сложные механизмы на основе бизнес-правил, различные семантические и синтаксические алгоритмы с функцией самообучения и возможность подключения внешних референсных баз данных для стандартизации и обогащения (например, баз данных адресов или юридических лиц). Процессы обработки данных настраиваются в платформе DATAREON параметрически. Процессы обработки могут выполняться как полностью автоматически, так и с привлечением дата-стюардов на каком-либо из этапов.
Выявление дублирующихся сущностей мастер-данных
Одна из ключевых возможностей платформы DATAREON. В системе присутствуют механизмы дедубликации на основании четких бизнес-правил для структурированных данных (часто используются в домене Клиентов) и различные сложные семантические механизмы с возможностью самообучения для слабоструктурированных и неструктурированных данных (часто используются в домене Номенклатуры).
Работа дата-стюардов (экспертов), занимающихся полуавтоматической или ручной обработкой данных
В платформе DATAREON предусмотрены удобные пользовательские интерфейсы для проведения различных ручных манипуляций с данными или их согласования, которые невозможно выполнить автоматически. К таким действиям могут относиться: редактирование атрибутов, не поддающихся автоматической обработке, слияние дублирующихся элементов и выбор «выживающего» элемента или атрибута, согласование тех или иных операций с данными и т.д. Задания для дата-стюардов встраиваются в общий бизнес-процесс обработки данных. Кроме этого в системе существует специальный API, который позволят построить такой пользовательский интерфейс внутри какого-либо бизнес-приложения, если так будет удобнее с точки зрения работы пользователей организации.
Бизнес-процессы ведения мастер-данных
Платформа DATAREON позволяет настраивать произвольные бизнес-процессы для автоматизации процессов ведения мастер-данных в случаях, когда требуется как простое последовательное, так и сложное параллельное взаимодействие между различными группами пользователей или систем в процессе той или иной операции. Такое взаимодействие обычно имеет сложную «ветвящуюся» структуру, состоящую из различных автоматических и ручных задач. Наиболее сложные процессы ведения мастер-данных обычно присутствуют в домене номенклатуры. Например, при создании новой номенклатурной позиции, когда существуют несколько ответственных за ввод различных данных, много ручной работы и согласований.
Оценка изменения качества данных с течением времени
Платформа DATAREON позволяет рассчитывать KPI по качеству данных и отслеживать их состояние во времени. На основе этих показателей можно строить политику мотивации подразделения НСИ в компаниях.