Межотраслевой стандартный процесс, определяющий жизненный цикл проекта исследования данных. Часто используется в науке о данных.

Пирамида DIKW (DIKW Pyramid)

Модель структурных отношений между данными, информацией, знаниями и мудростью. В пирамиде DIKW данные предшествуют информации, которая предшествует знаниям, которые предшествуют мудрости.

Hadoop

Платформа с открытым исходным кодом, разработанная Apache Software Foundation, предназначенная для обработки больших данных. Использует распределенное хранение и обработку по кластерам аппаратного обеспечения.

OLAP — интерактивная аналитическая обработка

Операции OLAP генерируют сводки исторических данных и включают агрегирование данных из нескольких источников. Они предназначены для генерации сводок по типам отчетов и позволяют пользователям раcпределять, фрагментировать и переворачивать данные в хранилище, используя предопределенный набор атрибутов, например продажи по магазинам, продажи по кварталам.

SQL — язык структурированных запросов

Международный стандарт для определения запросов к базе данных.

Анализ данных (Data Analysis)

Общий термин, используемый для описания любого процесса извлечения полезной информации из данных. Типы анализа данных включают визуализацию, сводную статистику, корреляционный анализ и моделирование с использованием машинного обучения.

Аналитическая базовая таблица (Analytics Base Table, ABT)

Таблица, в которой каждая строка содержит данные, относящиеся к конкретному объекту, а каждый столбец — параметры определенного атрибута объектов в таблице. Это основной способ ввода информации для глубинного анализа данных и алгоритмов машинного обучения.

Атрибут (Attribute)

Каждый объект набора данных описывается рядом атрибутов (также называемых признаками или переменными). Атрибут фиксирует один фрагмент данных, относящихся к объекту. Атрибут может быть базовым или производным.

База данных (Database)

Центральное хранилище данных. Наиболее распространена реляционная структура базы данных, которая хранит данные в таблицах, где каждая строка отведена одному объекту, а каждый столбец — одному атрибуту. Это представление идеально подходит для хранения данных с четкой структурой, которые могут быть разложены на базовые атрибуты.

Большие данные (Big Data)

Большие данные часто определяют как «3V»: экстремальный объем (Volume), разнообразие типов (Variety) и скорость обработки данных (Velocity).

Высокопроизводительные вычисления (High Performance Computing, или HPC)

Нацелены на разработку и реализацию моделей для объединения большого количества компьютеров в кластер, способный эффективно хранить и обрабатывать большие объемы данных.

Выхлопные данные (Exhaust Data)

Данные, являющиеся побочным продуктом процесса, основной целью которого является нечто иное, чем сбор данных. Например, для каждого перепоста, ретвита или лайка в соцсетях создается ряд «выхлопных данных»: кто поделился, кто просмотрел, какое устройство использовалось, какое время суток и т. д. (В отличие от намеренно собранных данных.)

Выявление аномалий (Anomaly Detection)

Включает поиск и идентификацию экземпляров данных, которые являются нетипичными в наборе. Эти отклонения часто называют аномалиями или выбросами. Часто применяется при анализе финансовых транзакций для обнаружения потенциальных мошеннических действий и запуска расследований.

Глубинный анализ данных (Data Mining)

Процесс выявления в наборах данных полезных закономерностей для решения конкретной проблемы. CRISP-DM определяет стандартный жизненный цикл проекта глубинного анализа данных. Тесно связан с наукой о данных, но охватывает меньший круг задач.

Глубокое обучение (Deep Learning)

Модель глубокого обучения — это нейронная сеть, которая имеет несколько (больше двух) слоев скрытых элементов (или нейронов). Глубокие сети являются глубокими именно в смысле количества слоев нейронов. Сегодня большинство глубоких сетей имеют от 10 до 100 слоев. Сила глубокого обучения состоит в том, что на более поздних уровнях нейроны способны изучать производные атрибуты, составляя их из атрибутов, изученных нейронами на более ранних уровнях.

Данные (Data)

В самом общем смысле данные — это набор характеристик (или измерение) некоей реальной сущности (человека, объекта или события).

Дерево решений (Decision Tree)

Перейти на страницу:

Похожие книги