Пресс-центр
26 Июл 2024

Корпоративные хранилища данных: грамотно организуем единое аналитическое пространство компании

В DATAREON Platform реализованы все механизмы для построения хранилища данных уровня предприятия. На конференции «Данные компании – 2024: управление и интеграция» Станислав Пиголкин, технический директор DATAREON, рассказал, как организовать единое аналитическое пространство компании с помощью платформы.

Не каждой компании для эффективного управления данными нужно создавать MDM-структуру для выстраивания четких бизнес-процессов с обязательными нормализацией, дедубликацией, приведением к единому виду и сложной проверкой. Большинству пользователей требуются место для формирования данных, единое место для хранения данных и единое место для предоставления данных новым и существующим потребителям, будь то аналитики, внедряемые системы, создаваемые бизнес-процессы для управления предприятием. В таких случаях оптимальным вариантом будет создание не MDM-системы, а именно хранилища данных. Ключевое его отличие от MDM – пониженные требования к управлению данными, но при этом возникают совершенно отдельная потребность и функциональная необходимость.

Если мы формируем неуправляемый набор данных, помимо сбора самих данных, его нужно описать, определить вид, обозначить, зачем данные нужны предприятию, сформулировать, откуда и как эти данные будут собираться. После этого предоставить пользователям инструменты, с помощью которых они получат доступ к информации, будь то витрина данных или ERP, или функционал, который позволит работать напрямую с этими данными. В DATAREON Platform мы предусмотрели и реализовали все необходимые для построения хранилищ данных механизмы, Станислав Пиголкин, технический директор DATAREON.

Описание данных

Одним из механизмов хранилища данных является возможность формирования бизнес-модели данных, с помощью которой вы описываете данные так, как они интересны конечному потребителю.

Допустим, у вас есть справочник «Номенклатура» с определенными полями. Пользователю техническая структура данных неинтересна, как и то, где и как они хранятся, в какой системе, какой тип используют и какая у них длина полей. Чтобы вывести необходимую пользователю информацию, в платформе вы описываете данные в бизнес-терминах, после этого указываете правила формирования структуры, из каких источников данные должны браться и начинаете их наполнение.

Вот пример того, как работает механизм в платформе. Мы используем разные источники данных, такие как СУБД и система 1С, чтобы собрать информацию, дополнить ее и сформировать в бизнес-терминах.

Хранение данных

Для хранения данных в DATAREON Platform используется механизм, называемый банком данных. Он позволяет абстрагировать хранение данных для пользователя платформы до уровня бизнес-понятий.

Когда вы создаете банк данных, вы указываете, в какой текущей системе управления базами данных (СУБД) он будет храниться. Например, вы можете создать банк данных «Сотрудники» и сохранить его на SQL-сервере. Или создать банк данных «Банки», связанный с «Сотрудниками», и сохранить его на Postgres-сервере. Таким образом, вы можете горизонтально развивать структуру своих данных, управлять их доступностью и хранением, не вникая в детали хранения на уровне СУБД. Вам нужно только указать, на каком сервере расположить данные, а система сама сформирует все необходимые структуры хранения, версионирования и т.д.

Внутри DATAREON Platform есть специализированный язык запросов. Он предметно-ориентированный и синтаксически близок к диалектам SQL, но оперирует именно структурами бизнес-данных. Вам не нужно переходить на знания таблиц – вы просто записываете запрос, используя структуру данных, которую описали ранее.

На примере видно, как в реальности хранятся данные и как вы описываете их для пользователя с помощью механизма в DATAREON Platform.

Доступ к данным

Платформа позволяет создавать витрины данных разных типов. Например, вы можете сформировать специализированное API для доступа к определенным данным. В этом случае потребители получают только те данные, которые им необходимы. Например, если мы предоставляем API для типа данных «Контрагенты», то потребители смогут получить только информацию о контрагентах. Они увидят только названия, форму собственности и телефоны. Таким образом, платформа позволяет ограничить доступ как к объему данных, так и к их атрибутивному составу.

С другой стороны, мы можем создать новый тип данных на основе уже существующих. Например, мы можем объединить данные о контрагентах и товарах и создать новый тип данных «Покупатели». В этом случае потребители смогут получить информацию о том, кто купил, что купил, в каком объеме и т.д.

Также мы можем предоставить не API, а интерфейсный подход к работе с данными. В этом случае потребители получат не API, а готовые формы для вывода заданных типов данных. Формы могут быть элементарными, на которые будут выводиться только типы данных, или более сложными, где типы данных будут агрегированными или соединенными. Кроме того, возможно использование дополнительных вычислений для получения типов данных. Например, если у нас есть тип данных «Почтовый адресат», мы можем создать пользовательский интерфейс, который будет выводить адреса и сотрудников, которым они принадлежат. При этом самих сотрудников платформа возьмет из другой системы, например, управления персоналом. Таким образом получится избежать избыточного хранения информации.

Наконец, с помощью DATAREON Platform можно комбинировать различные подходы для доступа к данным, предоставляя как API, так и интерфейсный подход одновременно.

Вот пример того, как можно создать интерфейс. Есть тип данных «Контрагенты», с помощью платформы мы создаем форму на его основе. В этой форме ограничиваем доступ к некоторым атрибутам и формируем API, который ограничивает доступ как к атрибутивному составу, так и к наполнению, объему данных.

Загрузка и трансформация данных

В DATAREON Platform реализованы инструменты ETL (Extract, Transform, Load – извлечение, преобразование и загрузка данных), которые позволяют настраивать и выполнять процессы массовой загрузки и преобразования данных, а также проверять их. Для каждого атрибута можно задать правила проверки. Если проверка не пройдена или пройдена частично, платформа может создать задачу для дата-стюарда (специалиста по управлению данными) или офицера по качеству (специалиста по контролю качества данных), чтобы внести необходимые изменения или реализовать протокол управления данными с точки зрения их качества.

На примере типа данных «Контрагенты» показано, как в DATAREON Platform происходит настройка правил проверки.

Планы развития

В рамках развития DATAREON Platform будет реализован механизм шардирования. Сейчас разные типы данных можно хранить на разных серверах, кроме этого, планируется возможность хранения одного типа данных на нескольких серверах. Например, тип данных «Контрагенты»: покупателей можно хранить на одном физическом сервисе, продавцов – на другом, а внутренних контрагентов – на третьем. Это позволит более гибко управлять хранением данных и обновлять их текущее состояние.

Мы понимаем, что данные постоянно меняются. Все введенные данные в какой-то момент устаревают и должны быть удалены. Механизм шардирования поможет управлять процессом старения данных. Например, старые данные можно переместить на менее производительные серверы, а актуальные – на самые производительные. Также можно запустить процедуру проверки и удаления данных, не мешая работе других систем, Станислав Пиголкин, технический директор DATAREON.

Еще одной задачей является интеграция с аналитическими BI-системами. В DATAREON Platform «из коробки» будет реализован коннектор к одной из отечественных BI-систем. После создания хранилища данных пользователь сможет обрабатывать их напрямую в BI-инструменте.

Мы используем файлы cookie для улучшения работы сайта