Многие крупные компании считают, что все их данные берутся из внутреннего источника. Например, компания, использующая данные о рабочей силе (то есть данные, основанные на результатах опросов сотрудников и другой соответствующей информации), на самом деле может использовать данные, собранные третьей стороной и принадлежащие ей. Потребление этих данных может происходить через портал компании. Это может создать иллюзию того, что данные были собраны компанией и принадлежат ей, даже если это не так.

Мы хотим, чтобы вы точно определили того, кто собирал данные. Как главный по данным, вы должны убедиться в том, что полученные извне данные надежны и имеют отношение к поставленной бизнес-задаче. Большую часть данных, полученных из сторонних источников, довольно трудно использовать в том формате, в котором они предоставляются. Вам или кому-то из вашей команды придется преобразовать данные, полученные от третьей стороны, в нужный формат и придать им необходимую структуру, чтобы привести их в соответствие с уникальными информационными активами вашей компании.

<p><emphasis>Как собирались эти данные?</emphasis></p>

Вам также необходимо выяснить, как собирались данные. Этот вопрос поможет вам выявить возможные недопустимые выводы, сделанные об этих данных, а также этические проблемы, связанные с процессом их сбора.

Напомним, что существуют два основных метода сбора данных – наблюдение и эксперимент.

Наблюдение – это пассивный способ сбора данных. Примерами данных наблюдений могут быть количество посетителей веб-сайтов, посещаемость занятий и объем продаж. Экспериментальные данные собираются в условиях эксперимента при участии групп активного воздействия и принятии проверенных временем мер предосторожности, позволяющих обеспечить целостность и избежать искажения результатов из-за смешивающихся переменных. Экспериментальные данные – это золотой стандарт. Благодаря тщательному планированию эксперимента, направленному на обеспечение надежности результатов, эти данные позволяют выявлять причинно-следственные связи. Например, экспериментальные данные могут помочь ответить на следующие вопросы[29]:

– Если мы дадим пациенту новое лекарство, поможет ли это вылечить его?

– Если мы дадим 15 %-ную скидку на наш продукт, приведет ли это к росту продаж в следующем квартале?

Однако большая часть бизнес-данных относится к данным наблюдений. Для установления причинно-следственных связей не стоит использовать исключительно данные наблюдений[30]. Поскольку такие данные не были собраны в ходе тщательно продуманного эксперимента, их полезность и основанные на них результаты должны оцениваться в соответствующем контексте. Любые утверждения о причинно-следственной связи, основанные на данных наблюдений, следует воспринимать скептически.

Задав вопрос о способе сбора данных, вы сможете понять, насколько обоснован вывод о наличии причинно-следственной связи. На самом деле некорректное установление причинности – весьма существенная проблема, к которой нам еще не раз предстоит вернуться в следующих главах книги.

Казалось бы, для решения этой проблемы достаточно как можно чаще использовать экспериментальные данные. Однако их сбор не всегда возможен, финансово оправдан и даже этичен. Например, если бы вам поручили изучить влияние «вейпинга» (курения электронных сигарет) на подростков, вы не смогли бы случайным образом разделить испытуемых на экспериментальную и контрольную группы и заставить участников первой группы курить электронные сигареты во имя науки. Это было бы неэтично.

Как главный по данным, вы должны работать с имеющимися у вас данными, одновременно опосредуя их способность влиять на принимаемые бизнес-решения. У некоторых компаний и отделов есть ресурсы, позволяющие проверить многообещающие данные наблюдений с помощью серьезных экспериментов. Однако далеко не все бизнес-проблемы поддаются экспериментальному анализу.

<p>Являются ли данные репрезентативными?</p>

Вы должны убедиться в том, что имеющиеся у вас данные отражают характеристики интересующей вас совокупности. Если вас интересуют покупательские привычки американских подростков, то ваш набор данных должен отражать покупательские привычки всех подростков, живущих в США.

Индуктивная статистика существует именно потому, что у нас редко (если вообще когда-либо) есть все данные, необходимые для решения стоящей перед нами проблемы. Мы вынуждены опираться на выборки[31]. Однако если выборка нерепрезентативна, то выводы, сделанные на ее основе, не будут отражать реальные характеристики генеральной совокупности. Чтобы убедиться в репрезентативности данных, задайте следующие вопросы:

– Имеет ли место предвзятость выборки?

– Что вы сделали с выбросами?

<p><emphasis>Имеет ли место предвзятость выборки?</emphasis></p>
Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги