Каждая архитектура, описанная в этой главе, включает в себя набор необходимых возможностей, таких как потоковая передача событий, хранилища данных и API данных, которые позволяют данным эффективно "перетекать" из места их получения (в нижней части рис. 26.2) в место их использования (в верхней части рис. 26.2). Какие именно возможности работы с данными вам нужны, зависит от сценариев использования. Проблема заключается в том, что существуют буквально сотни технологий обработки данных, которые помогают создавать и эксплуатировать архитектуру данных. Такая ситуация отражает быстрые темпы инноваций в этой области, но она также усложняет выбор и интеграцию этих технологий данных.
Обычно организации рассматривают внедрение архитектуры данных как многолетний проект "водопада", в котором каждый этап, от создания озера данных и конвейеров до внедрения инструментов потребления данных, рассматривается только после завершения предыдущих. Вы можете добиться более быстрых результатов, если будете руководствоваться подходом, основанным на вашей цифровой дорожной карте, и примете эталонную архитектуру - набор технологий, доказавших, что они хорошо работают вместе для реализации выбранного вами архетипа.
При таком подходе ваш ведущий архитектор данных сначала разработает высокоуровневый план необходимых возможностей данных - вариант рисунка 26.2, - ориентированный на создание "минимально жизнеспособной архитектуры данных" для удовлетворения потребностей ваших приоритетных цифровых решений (включая решения, требующие как BI, так и искусственного интеллекта). Эта карта возможностей данных поможет добиться согласованности действий и станет хорошей базой для сравнения при анализе архитектуры текущего состояния. Хотя ведущим архитектором данных и проводится эта оценка, очень важен вклад специалистов по работе с данными, менеджеров/администраторов данных, а также владельцев продуктов и приложений данных, которые могут рассказать о необходимых технических возможностях.
Возможности данных
ПОТОК ДАННЫХ
каталог, мониторинг моделей и
Качество данных, наблюдаемость и централизованность
ПОТРЕБЛЕНИЕ ДАННЫХ
АНАЛИТИКА ADVANCED ПРИМЕНЕНИЯ
(BI и отчетность) АНАЛИТИКА (Операционные системы)
Разработка BI иDSВнутренняя операционная
Визуализация Окружающая среда системы
Специальный анализ SQLПроизводство моделейМобильные и веб-приложения
Окружающая среда приложения
ДАННЫЕ СЕРВИСЫ
Конечные точки API данных Публикация/Метрика и функция и API подпискиКонечные точки Хранилища(например, Transform, Management (RESTstore , serve, monitor, and and/or GraphQL). Аналитика управление многократно используемыми функциями
оптимизированные данные для BI и искусственного интеллекта)
(например, Parquet) в федерации данных и конечных точках SQL, уточненная зона и/или виртуализация
(JDBC и/или ODBC) DS Sandbox
ХРАНИЛИЩА ДАННЫХОБРАБОТКА ОБЪЕКТОВХРАНИЛИЩА ДАННЫХ ИИ/МЛ
(структурированный или неструктурированный)
Реляционные (например, SQL) Обучение и оптимизация
DS Sandbox Сервер, Oracle, ML-модели (например,
(для Analytics/ML) Postgres) Распределенный
NoSQL (например, KVS, обучение, БД документов, графооптимизация , БД GPU) вычисления)
Хранилище данных STREAM
(например, магазин ПРОЦЕССИНГ
структурированный, интегрированный
Хранение данных на дешевых, надежных носителях для поддержки BIT-трансформации и "бесконечно" масштабируемых медиаактивностей , аналитика) анализ данных
в режиме реального времени
ВЛИВАНИЕ ДАННЫХ
БАТЧ СОБЫТИЕ ЧУВСТВИТЕЛЬНЫЙ ПАКЕТНЫЙ ПРИЕМ ПОТОКОВАЯ ПЕРЕДАЧА ДАННЫХ ОБРАБОТКА ДАННЫХ ОБРАБОТКА
Ввод в системуВвод в систему в режиме реального времениУправление ПИИОчистка , планирование Потоки данных (например, обнаружение, преобразование и пакеты) Изменение данныхСохранение и обогащение данных в
Захватывайте потоки, управлять чувствительными партии,
датчики, трансак-данные ) обычно ежедневные данные о событиях)
СОЗДАНИЕ КОНВЕЙЕРОВ ДАННЫХ Создание конвейеров данных с помощью Планирование процессов обработки данных в
И ОРКЕСТРОВКА SQL или код (например, Python) надежный и интеллектуальный способ
Управление моделью Master DataML: Модель Управление данными: Каталог, Линейка данных,
GOVERNANCE (MDM) централизованные метаданные для MLOpsметаданные для DataOps
Защита данных: Авторизация, расширенные инструменты: Контроль доступа к данным, аутентификация, шифрование и аудит Предотвращение потерь, конфиденциальность данных, сохранение данных и др.
Инфраструктура как код (IaC), DevOps и автоматизация, администрирование, ведение журналов, мониторинг
БЕЗОПАСНОСТЬ ДАННЫХ
ИНФРАКРАСНЫЕ РАБОТЫ
ИСТОЧНИКИ ДАННЫХ
Структурированные данные
Транзакционные и событийные данные
Структурированные основные и справочные данные