Вопросы управления данными (Data Governance), которым раньше доставались вторые роли при рассмотрении задач, способных оказать влияние на работу предприятий, в последнее время все чаще выходят на передний план. В век цифровизации и повального использования автоматизированных систем данные становятся ценным ресурсом, и легкомысленное отношение к ним не сулит ничего хорошего для устойчивой работы организаций, а тем более для их развития.
К сожалению, для решения вопросов управления данными на предприятии нужно преодолеть довольно много сложностей. Обусловлены они в основном историческим наследием в виде «зоопарка» систем и подходов к управлению, хотя отсутствие изначальной ориентации процессов управления на качество данных тоже стоит учитывать.
Взять, скажем, стандартную ситуацию, когда на предприятии существует несколько автоматизированных систем, которые внедрялись в разное время и, что очень важно, разными командами с разным мировоззрением и различными подходами к автоматизации.
Как следствие — применение разных форматов данных (простой пример: хранение адреса — в ФИАС-структуре или в обычной строке), разная идеология их хранения и использования (транзакции с суммами вычетов или накопленный итог), а также исторически сложившиеся процессы заведения и изменения данных (заводят и ведут в Excel-таблицах или структурированно в SQL через интерфейс). Все это приводит к тому, что данные состоят из разных кусков, которые хранятся в разных системах и заводятся с разными процедурами обеспечения качества, нацеленными на различные результаты и далеко не всегда объединенными одним устремлением…
Описанная ситуация, конечно, выглядит не очень красиво, но так ли она плоха, чтобы вкладываться в её исправление? Опыт подсказывает, что да, исправлять надо.
Приведённые примеры являются типовыми и встречаются у большинства компаний, с которыми мы работали. Эти типовые проблемы постоянно требуют трудозатрат (ежеквартально и ежемесячно) на сведение данных для получения нужных отчетов и принятия управленческих решений. Особенно критична для сотрудников такой компании ситуация с частыми и внезапными требованиями со стороны руководства подготовить и представить определенную статистику, которая в большинстве случаев не повторяется (т. е. каждый раз нужны данные не по одному и тому же клиенту и не в одном и том же разрезе). А подобные запросы отвлекают ресурсы на сведение и подготовку данных, приостанавливая выполнение основной работы, часто на значительный промежуток времени.
Если все эти затраты суммировать, то даже за один год сумма может получиться весьма внушительной. А при отсутствии системного подхода к интеграции между приложениями разрозненные данные гарантированно превращают такие запросы руководства в трудно решаемые квесты с вечерними, а иногда и ночными посиделками персонала в попытках разобраться и свести данные в читаемую и правдивую версию. И нужно заметить, что версию правдивую удается получить не всегда. Зачастую при решении подобных задач сотрудники подгоняют данные под правдиво с их точки зрения выглядящий вариант, при этом результат может действительно оказаться правдой, а может быть и ее полной противоположностью, что в свою очередь приведёт к принятию неправильных решений, а затем к упущенной выгоде или даже к прямым убыткам.
С чего же начать налаживание процесса управления данными? Первое, что приходит в голову, — переделать всё и начать с чистого листа. Разработать методологию управления данными, определить точки их заведения и ответственных за качество, экспертов для решения трудных вопросов, требующих обращения к внешним источникам, а также руководителей, которые будут распределять нагрузку и следить за исполнением процедур качества. Фактически с нуля будет спроектирована бизнес-модель управления данными на предприятии. Далее эту модель нужно «натягивать» на существующие особенности предприятия, и вот тут начинаются основные проблемы её внедрения. То схема централизованного заведения справочных данных (так называемых «мастер-данных») не позволяет оперативно добавлять, например, контрагентов в системы, а это важно для бизнеса (как известно, клиент ждать не будет), то получающаяся структура данных не подходит к какому-то доисторическому приложению, то источники частей одних и тех же данных распределены территориально и не могут быть собраны в одном месте в силу специфики производства (а как вводить централизованно данные, источники которых не централизованы?). Если квалификации и терпения сотрудников, а также поддержки руководства и понимания со стороны бизнес-пользователей хватает для работы над такой задачей, то она в конечном итоге будет решена и результат может быть весьма хорошим и показательным для отрасли. Но, по статистике, не каждой команде дается возможность для столь большого и рискованного шага, зачастую требующего немалых ресурсов, как временных, так и финансовых.
Поскольку дисциплина Data Governance — понятие довольно обширное и не имеет единой автоматизированной системы, которая закрывала бы собою все задачи управления данными, то возможен вариант постепенного наращивания функционала. Здесь уже появляется некоторая вариативность в зависимости от потребностей организации и возможностей группы внедрения. Первое, что можно сделать, это скорректировать управление данными в существующих производственных системах: ввести ролевую модель и распределить обязанности и полномочия на заведение и проверку данных, чтобы их вводили и проверяли опытные эксперты, а не все пользователи систем. Дополнительно можно добавить процедуру перекрестной проверки данных между системами, например, в аналогичных системах проверять наличие данных, которые уже введены, и в свою систему вводить их подобным образом, без противоречий с введенными. Если же противоречия неизбежны, то инициировать процедуру исправления недостоверных данных. Второй шаг — настроить процессы извлечения данных из систем трансформации и загружать их в нужные представления (ETL — Extract, Transform & Load). Другими словами, так как структура данных в каждой системе приспособлена под определенные цели именно этой системы, то для корректной передачи данные нужно привести к единой системе значений и детализации. Делается это без изменения точек ввода и без существенного усложнения процесса контроля за качеством вводимых данных, практически все остается, как было. При этом бизнес-процессы компании не меняются и внедрение проходит довольно безболезненно. Получаемые при этом плюсы — готовые процедуры выгрузки и необходимых преобразований данных, которые можно многократно применять по запросу. Как правило, инструменты ETL позволяют быстро дополнять и менять настройки трансформации, что дополнительно сокращает издержки. Минусы, конечно, тоже есть: отсутствие управления качеством данных, контроля за их ведением.
Одновременно с ETL желательно внедрить корпоративную сервисную шину данных (Enterprise Service Bus, ESB), поскольку это позволит автоматизировать процесс доставки нужных данных в нужные места к нужному времени, гарантировать такую доставку и централизовать управление интеграцией. Выполнения этих двух относительно простых пунктов иногда хватает для существенного прорыва в качестве работы с данными. Некоторые на этом останавливаются, так как дальнейшие действия для организаций определенных отраслей и размеров потребуют бОльших вложений в изменение процессов работы, нежели возможный эффект от их реализации.
Однако мы постараемся пройти весь путь до конца.
После закрытия самых базовых потребностей в Data Governance можно говорить о полноценном контроле качества данных. Но любой контроль возможен только в том случае, если есть параметры для его ведения. Решается это с помощью профилирования данных. Определяются параметры, которые будут контролироваться, вводится понятие «качественные данные». Все эти мероприятия, проводимые с использованием специализированных систем, позволяют начать полноценную работу по улучшению качества данных и поддержанию их в этом состоянии.
Поддерживать данные в качественном состоянии можно с применением процедур Data Quality. Это довольно серьезный механизм, требующий существенной проработки деталей: назначения ответственных (Data Steward), разработки методологии, использования автоматических систем. Зато при использовании этих механизмов можно говорить о качественных, непротиворечивых, достоверных, неповторяющихся данных.
Еще одним большим пластом работ является процесс внедрения инструмента управления мастер-данными (Master Data Management, MDM). Он необходим для управления процессом сбора данных, их верификации, дедупликации и превращения обычного хранилища в хранилище чистых, верных, идеальных данных. Исполнение этой части влечет за собой существенное изменение работы предприятия с данными. Ставятся на контроль точки их заведения, регламентируются любые изменения, вводятся новые роли (эксперты), для которых разрабатываются процедуры и инструменты помощи в принятии решений в случае противоречий. Процесс усложняется и удлиняется по времени, но при этом существенно растут качество, достоверность и «сводимость» данных всех систем. Как дополнительный бонус мы получаем возможность замены любой устаревшей системы на новую без потери важных для компании данных. Рассматривать управление мастер-данными в этой статье мы не будем, так как это большая тема, заслуживающая отдельного обзора.
Таким образом, процесс перехода к управляемым данным может быть разделен на несколько хоть и взаимосвязанных, но отдельно решаемых частей. Как видно из написанного выше, существует не один путь решения проблем управления данными (в различных вариациях их наберется по меньшей мере несколько).
Владимир Рождественский, генеральный директор DATAREON