Data Fabric, он должен
Ландшафт данных предприятия
унифицированный уровень управления данными
источники данных и инфраструктура
лучше строить своими силами
ПРИЛОЖЕНИЕ 26.1
сосуществуют архетип (для искусственного интеллекта) и архетип облачного хранилища данных (для BI). Это были два доминирующих архетипа для
в последнее десятилетие. В начале 2020-х годов появился новый архетип - "дом у озера", который стремится объединить технологический стек данных для обслуживания как BI, так и AI.
Последние два архетипа, перечисленные на предыдущей иллюстрации, появились недавно в связи с тенденцией к децентрализации управления данными (data mesh) и потребностью крупных корпораций в управлении данными в многооблачных средах (data fabric).
Ниже мы опишем, для чего лучше всего подходит каждый архетип и каковы его ограничения:
Озеро данных - это самый простой архетип, который имеет хорошо понятные эталонные архитектуры, доступные на всех основных облачных платформах. Оно лучше всего подходит для рабочих нагрузок, связанных с наукой о данных, особенно для работы с неструктурированными данными, и является хорошей отправной точкой для организаций, которые только начинают погружаться в передовую аналитику и AI/ ML, и поэтому нуждаются в простой архитектуре, способной масштабироваться в соответствии с их потребностями.
До недавнего времени озера данных располагались в локальных сетях в виде сложной платформы Hadoop. Облако изменило ситуацию: основные возможности Hadoop предоставляются через масштабируемые и надежные сервисы данных, управляемые облачным провайдером в виде объектного хранилища (например, S3, ADLS), Spark (например, AWS Glue, Azure Synapse Analytics) и распределенного механизма запросов (например, Amazon Athena, BigQuery).
Недостатком этой архитектуры является то, что она не подходит для типичных SQL-нагрузок BI-аналитики, требует больших затрат на проектирование и приводит к централизации данных, что в конечном итоге может стать узким местом в организации.
Облачное хранилище данных (например, Snowflake, Synapse, BigQuery) - это доминирующий дизайн для создания BI для оперативной и управленческой отчетности, а также пользовательских BI-отчетов. Эта архитектура радикально упрощает технологический стек для быстрого предоставления сложных возможностей бизнес-анализа и аналитики. Эта конструкция ставит SQL в центр работы по проектированию данных, которые все еще могут быть организованы в современные, хорошо протестированные конвейеры данных, используя DBT, инструмент для преобразования данных. Эта архитектура особенно привлекательна для организаций, ориентированных на облачные технологии, и крупных организаций, переходящих на облачные технологии.
Главный недостаток этой архитектуры в том, что она пока не очень хорошо поддерживает продвинутую аналитику и разработку AI/ML. SQL также не всегда является наиболее эффективным подходом для работы с данными высокой сложности. И наконец, простота использования может привести к взрыву любительского использования, которое, если его тщательно не регулировать, может в итоге замедлить создание стоимости, а не ускорить его.
Lakehouse - это инновационная разработка компании Databricks, которая объединяет возможности озера данных и хранилища данных в единую интегрированную платформу. Она представляет собой значительный шаг вперед по сравнению с озером данных, особенно при работе с крупными структурированными данными, без ущерба для возможностей работы с неструктурированными данными (например, транзакций ACID2, поддержки реального времени, версионирования данных, управления данными, поддержки SQL).
Несмотря на расширенный набор возможностей, он требует значительных инженерных навыков для разработки и эффективного управления. Наибольший финансовый смысл она имеет для больших массивов данных (100+ ГБ). Все крупные облачные провайдеры и новые нишевые игроки, такие как Tabular (Apache Iceberg), Onehouse (Apache Hudi) и Dremio (Arctic), продвигают архетип Lakehouse, подтверждая, что Lakehouse - это современный паттерн архитектуры данных, а не просто собственная разработка одного вендора.
Сетка данных - это децентрализованный подход к данным, который призван открыть следующую фазу роста для крупных организаций, достигших высокой степени зрелости в своих возможностях работы с данными и пытающихся удовлетворить растущий спрос.