Если представить данные как воду, то архитектура данных - это система "труб", по которым вода доставляется от места хранения к месту использования. Архитектура данных - это основная среда для управления хранением, преобразованием, анализом и потреблением данных пользователями или приложениями. Без продуманной архитектуры данных компаниям приходится нелегко, поскольку данные часто разбросаны и заперты в десятках информационных силосов (например, в унаследованных базовых системах).

 

При правильной реализации архитектура данных позволяет быстрее создавать многократно используемые и высококачественные продукты данных.

 

Обеспечьте доступность данных для команд. Это приводит к улучшению результатов при принятии решений, повышению интеллектуальности приложений, ориентированных на клиентов, и улучшению внутреннего доступа к данным и контроля над ними.

 

По их словам: Платформа данных для обеспечения гибкости

Для большинства компаний традиционный подход к управлению ИТ заключается в формировании бюджета на основе крупных проектов по созданию приложений. Большинство заказчиков осознают, что им необходимо перейти к более гибкой модели, при которой разрабатываемые приложения будут модульными и более компактными. Переходу к гибкой модели очень способствует наличие платформы данных, которая может поддерживать различные приложения.

Создав независимую платформу данных, вы сможете сделать разработку приложений гораздо более гибкой. Платформа должна быть основана на метаданных, чтобы вы могли понять и иметь настоящий каталог данных. Она не должна хранить все данные. Это просто место, где данные обрабатываются в нужных приложениях. Это создает слой абстракции.

Подумайте о том, что данные поступают из внутренних систем и старых систем, которые могут двигаться очень быстро. А потребление данных меняется гораздо быстрее. Создавая уровень абстракции с помощью платформы данных, вы позволяете новым приложениям двигаться гораздо быстрее без необходимости создавать соединения "точка-точка".

-Анил Чакраварти, президент подразделения Digital Experience Business, Adobe

 

Архетипы архитектуры данных

Существует пять архетипических архитектур данных для создания современной платформы данных (см. Рисунок 26.1). Каждая из них построена на базе облачного масштабируемого хранилища, предлагаемого ведущими поставщиками облачных услуг, но базы данных и технологии доступа к данным, построенные на их основе, отличаются друг от друга.

 

Платформа данных должна удовлетворять потребности цифровых решений на основе искусственного интеллекта, которые вы планируете создать, но она также должна отвечать потребностям бизнес-аналитики (BI), например, создавать управленческие отчеты и контролировать операции. Эта двойственность по-прежнему находит свое отражение в том, как компании строят свою платформу данных, используя как озеро данных

 

Архетипы архитектуры данных

ОБЛАЧНОЕ НАТИВНОЕ ОЗЕРО ДАННЫХ

 

 

Централизованная бессерверная архитектура, использующая объектное хранилище и вычисления, которые могут масштабироваться независимо друг от друга

Оптимизирован для (очень) крупномасштабных карт данных для SQL-аналитики и современных приложений AI/ML

Гибкая основа для добавления возможностей (например, DWH,

в режиме реального времени), но начинает рассматриваться как "унаследованная" архитектура

 

 

ОБЛАЧНОЕ ХРАНИЛИЩЕ ДАННЫХ

 

 

Высокомасштабируемая и гибкая платформа на базе SQL с независимо масштабируемыми системами хранения и вычислений

Реализует современное преобразование данных с помощью SQL или

Ориентированные на пользовательский интерфейс инструменты ETL (например, dbt, Matillion)

Очень хорошая производительность в подавляющем большинстве корпоративных аналитических нагрузок

Очень хорошо поддерживается инструментальными средствами, а необходимые навыки работы с SQL имеются у пользователей данных, аналитиков и экспертов по данным.

 

 

LAKEHOUSE

 

Сочетает в себе преимущества

Использование nextgen

Справляется с самыми

Менее развитая инструментальная база, но

Озеро данных и DWH

технологии хранения

сложные пакетные данные

быстрые темпы технического прогресса

в интегрированную платформу для аналитики (например, BI, SQL) и использования AI/ML

(например, Delta Lake или Iceberg), поддерживающие ACID-транзакции поверх объектных хранилищ.

задания и большие объемы потоковых данных (например, IoT).

инновации

ДАННАЯ СРЕДА

 

 

 

 

Возникающий архетип;

 

Децентрализованный

 

Продукты данных

 

Создание продуктов данных

фундаментальное отступление

архитектурный подход

проверено на качество,

используя любой из

от централизованных ИТ и

сосредоточен на данных

каталогизированы, и

архитектура данных

функции данных

продукты, полностью принадлежащие бизнес-доменам

доступ через четко определенные службы данных

архетипы, определенные выше

ДАННАЯ ТКАНЬ

 

 

 

 

Новая стратегия для

 

Ткань сшита

 

Предназначен для решения

 

Отсутствие существующей оснастки

создание единой системы данных

вместе через

многооблачные сценарии

В настоящее время позволяет использовать истинный

среда по всему

метаданные в защищенном виде,

для неоднородных

Перейти на страницу:

Похожие книги