В-третьих, измеряйте качество данных и составляйте отчеты о результатах работы в соответствии с установленными правилами качества данных. Большинство компаний используют программные пакеты (например, Talend Open Studio, Ataccama ONE, Informatica Data Quality) для измерения производительности в соответствии с правилами и проведения более широкого сканирования для выявления проблем с качеством данных. Независимо от того, используется программное обеспечение или нет, процесс определения правил качества данных и целевых показателей остается критически важным.

 

При правильном подходе этот процесс может выявить целый ряд проблем, включая неточные значения данных, приводящие к неправильным расчетам, различия в определениях бизнес-подразделений, приводящие к неправильному использованию данных, и задержки в интеграции данных, приводящие к тому, что данные не успевают к сроку сдачи отчетности.

 

Одна из самых больших проблем, с которой сталкиваются компании в ходе этого процесса, заключается в том, что оценка качества данных и их очистка могут отнимать много времени и стоить дорого, хотя мы видим, что появляются инструменты искусственного интеллекта, которые помогают в этом процессе. По этой причине важно сосредоточиться на наиболее важных данных для ваших приоритетных сценариев использования. Например, в страховой компании, о которой идет речь в Примере 24.1, важно было иметь данные, которые были бы менее трех месяцев назад и были легко доступны, а также отвечали строгим требованиям конфиденциальности и секретности. Но они не должны были быть на 100 % точными. Или в случае с компанией, занимающейся недвижимостью, актуальность данных была крайне важна, но только на рынках Нью-Йорка и Лос-Анджелеса.

 

Разработка минимального жизнеспособного продукта (MVP) с использованием менее совершенных данных может быть успешной, если имеется необходимая критическая масса данных и команда четко понимает, какую ценность они хотят получить. Кроме того, компании все чаще обращаются к инструментам машинного обучения и искусственного интеллекта, таким как Talend, Trillium Quality, Sypherlink, Syncsort и AI4DQ1, чтобы очистка существующих данных (хотя некоторые проблемы всегда требуют определенных ручных усилий, например, выравнивание иерархии продуктов в регионах для согласованной глобальной отчетности).

 

Во многих случаях качество и тип данных, которыми располагает компания, можно улучшить с помощью процесса, называемого "обогащением данных". Вы можете использовать несколько способов улучшения имеющихся данных, например, привлекая внешние источники или добавляя новые источники данных (например, датчики, веб-сайты). Обогащение данных происходит постоянно. На практике это означает, что ваши бизнес и функциональные руководители должны отчитываться о своих планах по улучшению активов данных с течением времени и делать необходимые инвестиции. Хорошая идея - сделать такую отчетность частью ежегодного планирования.

 

Разработка дорожной карты данных

После определения приоритетного набора данных и их текущей готовности следующий шаг - создание дорожной карты данных. По сути, это план последовательности работ, необходимых для того, чтобы данные могли поддерживать цифровые решения, определенные в стратегической "дорожной карте". Эта работа имеет решающее значение для определения и выделения необходимых ресурсов для подготовки данных.

 

По нашему опыту, вы будете работать на трех разных уровнях параллельно:

 

Уровень 1 сосредоточен на создании капсул данных, которые будут выполнять конкретную работу по обеспечению готовности приоритетных элементов данных и созданию путей потребления этих данных (подробнее об этом в следующей главе).

Второй уровень посвящен разработке архитектуры каналов передачи и хранения данных, которые будут обслуживать ваши приоритетные домены данных и последующие (см. главу 26).

 

Уровень 3 закладывает основу для здорового управления данными, чтобы все ваши усилия по очистке и обработке данных не пропали даром, обеспечивая правильный сбор будущих данных (см. главу 27).

 

Примечание

1. AI4DQ - это продукт компании QuantumBlack AI by McKinsey.

 

Глава 25.

Продукты для работы с данными: Многоразовые строительные блоки для масштабирования

 

Данные - ценная вещь, и они прослужат дольше, чем сами системы.

-Тим Бернерс-Ли

 

Перейти на страницу:

Похожие книги