На вопросы журнала отвечает Владимир Рождественский, генеральный директор компании DATAREON. Часть ответов вошла в материал «Данные со знаком качества», опубликованный на сайте itWeek 24.10.2019.
1. Термин “качество” относится к разным сущностям. Существует качество продукции, качество процессов, качество обслуживания клиентов, качество программного обеспечения и т. д. Важно ли для внедрения концепции Data Quality располагать опытом менеджмента качества в других областях? Существует ли некие общие принципы решения проблем качества на предприятии? Используются ли они при развертывании Data Quality?
— Да, опыт будет полезен, и да, — необходимо знать принципы и руководствоваться эффективными методами управления качеством. Одна из самых успешных методологий управления качеством выросла из методологии бережливого производства компании «Тойота» (LEAN). Один из ее принципов гласит, что качество должно быть встроено в процесс, а не контролироваться на выходе из него. Говоря по-простому, процесс не должен позволить любому его участнику совершить ошибку. При организации процессов внедрения Data Quality мы стараемся донести до наших заказчиков необходимость внедрения контроля качества именно в процесс, а не вводить контроль качества на выходе из процесса. Во втором случае ошибки могут привести к проблемам, которые проникнут глубоко в другие, следующие за основным, процессы, и устранение последствий может потребовать значительных ресурсов.
2. В обеспечении качества чего бы то ни было всегда присутствовал процессный аспект. То есть построение правильных процессов, которые должны приводить к получению качественного продукта на выходе. Насколько значим процессный аспект при решении вопросов Data Quality? Насколько тесно Data Quality можно привязать к более общим и традиционно рассматриваемым вопросам оптимизации бизнес-процессов?
— Процессный подход является основой в обеспечении качества. Если не организовать процесс нужным образом, то и гарантировать качество на выходе будет невозможно. А если пытаться контролировать качество на выходе, то не удастся выстроить единых процедур контроля, т.к. выход из процесса будет непредсказуем. То есть, в любом варианте построения процессов обеспечения качества процесс важен. В целом, в любых процессах, как и в процессах обеспечения качества, важны одни и те же принципы и баланс между затратами и получаемым результатом.
3. Каков современный технологический арсенал, способный обеспечить надлежащее качество данных? Используются ли здесь традиционные методы и инструменты работы с корпоративными данными (очистка, нормализации данных, сервисы поиска и фильтрации, преобразование форматов и пр.)? Могут ли применяться инструменты нового поколения, больше используемые при работе с большими данными (например, инструменты обогащения данных или статистические пакеты)? Есть ли требования к аппаратной инфраструктуре хранения и обработки данных и системному ПО в контексте обеспечения Data Quality?
— Понятие «данные» в современном мире так же обширно, как и инструменты, применяемые для их обработки. В зависимости от свойств данных и цели их использования применяются различные инструменты, начиная от нормализации и заканчивая методами тензорного анализа.
4. Работа с данными, как известно, связана с серьезными затратами. Как адекватно оценить финансовую сторону проблемы? В частности, чтобы не допустить ситуаций, когда затраты на обеспечение качества данных превысят бизнес-эффект от внедрения данной концепции?
— Движение небольшими итерациями в процессе повышения качества данных помогает сопоставлять финансовые затраты с получаемым результатом. Такой подход позволит вовремя остановиться, до того, как затраты превысят бизнес-эффект.
5. Качество данных — понятие во многом относительное. С этой точки зрения разными бизнес-подразделениями один и тот же ИТ-ресурс вполне может быть оценен по-разному. И это в свою очередь может породить недоверие к самой концепции Data Quality. Существует ли методическая основа для решения подобных проблем?
— Как и любые изменения, внедрение управления качеством данных должно сопровождаться доведением информации до всех вовлеченных. С проектной точки зрения – это типовое управление ожиданиями заинтересованных лиц.
6. Количество и разнообразие используемых в бизнесе данных стремительно увеличивается. Происходят ли при этом принципиальные изменения в методах оценки качества информационного ресурса? Например, следует больше работать со статистическими параметрами, описывающими тот или иной блок данных; разрабатывать новые KPI, более “укрупненно” характеризующие качество ИТ-ресурса, определять параметры качества для новых типов данных и т. д.
— Математический аппарат оценки качества постоянно развивается. Но необходимость того или иного метода определяет то, как и где данные будут использоваться. С появлением новых потребностей начинают использовать новые методы, но и старые не исчезают.