Каждая архитектура, описанная в этой главе, включает в себя набор необходимых возможностей, таких как потоковая передача событий, хранилища данных и API данных, которые позволяют данным эффективно "перетекать" из места их получения (в нижней части рис. 26.2) в место их использования (в верхней части рис. 26.2). Какие именно возможности работы с данными вам нужны, зависит от сценариев использования. Проблема заключается в том, что существуют буквально сотни технологий обработки данных, которые помогают создавать и эксплуатировать архитектуру данных. Такая ситуация отражает быстрые темпы инноваций в этой области, но она также усложняет выбор и интеграцию этих технологий данных.

 

Обычно организации рассматривают внедрение архитектуры данных как многолетний проект "водопада", в котором каждый этап, от создания озера данных и конвейеров до внедрения инструментов потребления данных, рассматривается только после завершения предыдущих. Вы можете добиться более быстрых результатов, если будете руководствоваться подходом, основанным на вашей цифровой дорожной карте, и примете эталонную архитектуру - набор технологий, доказавших, что они хорошо работают вместе для реализации выбранного вами архетипа.

 

При таком подходе ваш ведущий архитектор данных сначала разработает высокоуровневый план необходимых возможностей данных - вариант рисунка 26.2, - ориентированный на создание "минимально жизнеспособной архитектуры данных" для удовлетворения потребностей ваших приоритетных цифровых решений (включая решения, требующие как BI, так и искусственного интеллекта). Эта карта возможностей данных поможет добиться согласованности действий и станет хорошей базой для сравнения при анализе архитектуры текущего состояния. Хотя ведущим архитектором данных и проводится эта оценка, очень важен вклад специалистов по работе с данными, менеджеров/администраторов данных, а также владельцев продуктов и приложений данных, которые могут рассказать о необходимых технических возможностях.

 

 

Возможности данных

ПОТОК ДАННЫХ

каталог, мониторинг моделей и

Качество данных, наблюдаемость и централизованность

 

ПОТРЕБЛЕНИЕ ДАННЫХ

АНАЛИТИКА      ADVANCED      ПРИМЕНЕНИЯ

(BI и отчетность)      АНАЛИТИКА      (Операционные системы)

Разработка BI иDSВнутренняя операционная

Визуализация      Окружающая среда      системы

Специальный анализ       SQLПроизводство моделейМобильные и веб-приложения

Окружающая среда      приложения

 

ДАННЫЕ СЕРВИСЫ

 

Конечные точки API данных       Публикация/Метрика       и функция и API       подпискиКонечные точки      Хранилища(например, Transform, Management (RESTstore            , serve, monitor, and and/or GraphQL).      Аналитика      управление многократно используемыми функциями

оптимизированные данные      для BI и искусственного интеллекта)

(например, Parquet) в       федерации данных и конечных точках       SQL, уточненная       зона       и/или виртуализация      

(JDBC и/или ODBC)      DS Sandbox

 

ХРАНИЛИЩА             ДАННЫХОБРАБОТКА ОБЪЕКТОВХРАНИЛИЩА ДАННЫХ             ИИ/МЛ

(структурированный или неструктурированный)

Реляционные (например, SQL)      Обучение и оптимизация

DS Sandbox      Сервер, Oracle,      ML-модели (например,

(для Analytics/ML)      Postgres)      Распределенный

NoSQL (например, KVS,       обучение, БД документов, графооптимизация      , БД GPU)      вычисления)

Хранилище данных      STREAM

(например, магазин      ПРОЦЕССИНГ

структурированный, интегрированный

Хранение данных на дешевых, надежных носителях       для поддержки       BIT-трансформации и "бесконечно" масштабируемых медиаактивностей      , аналитика)      анализ данных

в режиме реального времени

ВЛИВАНИЕ ДАННЫХ

БАТЧ      СОБЫТИЕ      ЧУВСТВИТЕЛЬНЫЙ      ПАКЕТНЫЙ ПРИЕМ ПОТОКОВАЯ ПЕРЕДАЧА ДАННЫХ       ОБРАБОТКА ДАННЫХ ОБРАБОТКА      

Ввод в системуВвод в систему в       режиме       реального       времениУправление ПИИОчистка      , планирование      Потоки данных       (например,       обнаружение,       преобразование и пакеты)      Изменение данныхСохранение       и обогащение       данных в

Захватывайте потоки,      управлять чувствительными      партии,

датчики, трансак-данные      )      обычно ежедневные данные о событиях)

СОЗДАНИЕ КОНВЕЙЕРОВ ДАННЫХ      Создание конвейеров данных с помощью      Планирование процессов обработки данных в

И ОРКЕСТРОВКА      SQL или код (например, Python)      надежный и интеллектуальный способ

 

Управление моделью Master       DataML: Модель      Управление данными: Каталог, Линейка данных,

GOVERNANCE      (MDM)      централизованные метаданные для       MLOpsметаданные для DataOps

Защита данных: Авторизация,       расширенные инструменты: Контроль доступа к данным, аутентификация, шифрование и аудит        Предотвращение потерь, конфиденциальность данных, сохранение данных и др.

Инфраструктура как код (IaC), DevOps и автоматизация, администрирование, ведение журналов, мониторинг

 

БЕЗОПАСНОСТЬ ДАННЫХ

ИНФРАКРАСНЫЕ РАБОТЫ

ИСТОЧНИКИ ДАННЫХ

Структурированные данные

Транзакционные и событийные данные

 

Структурированные основные и справочные данные

 

Перейти на страницу:

Похожие книги