Несмотря на всю мощь «больших данных», кое-что им все же не удается, и нет никаких оснований считать, что ситуация изменится к лучшему в обозримом будущем. Лично я не вижу в развитии «больших данных» ничего способного опровергнуть старый трюизм о том, что машины хорошо умеют делать то, что люди считают сложным (например, работать по 24 часа без остановки или быстро решать сложную математическую задачу), а люди, напротив, могут то, что неподвластно машинам (заниматься творчеством или глубоко понимать социальный и культурный контекст).

Журналист The New York Times Дэвид Брукс указал на то, что данные сами по себе неспособны проанализировать социальные аспекты взаимодействия или разобраться в контексте происходящего: «Люди умеют отлично рассказывать истории, позволяющие сплетать воедино несколько сюжетов. Анализ данных не умеет создавать повествования и неспособен к быстрому мышлению. Он не может пояснить сути даже самого посредственного художественного произведения»[52].

Стоит помнить и о том, что хотя анализ больших наборов данных способен сделать почти идеальный машинный перевод, параллельно с этим он будет плодить еще большее количество неверных и случайных вариантов. Чем больше наборы данных, тем больше в них будет совпадений, как верных, так и ошибочных. Кроме того, большинство серьезных программ по обработке данных не умеет распознавать более или менее ошибочные совпадения. Использование «больших данных» для выводов и оценки часто уступает место их использованию для действий в режиме реального времени – будь то сделка на фондовой бирже, оптимизация цепочки поставок или принятие решения о найме на работу того или иного кандидата. Однако далеко не все тенденции, которые находят программы, связаны с реальностью – или с переменными, которыми описывается эта реальность. Вследствие этого все прогнозы, составленные при анализе данных, должны иметь так называемую планку погрешности, визуальное представление того, насколько неверным может оказаться прогноз из-за ложной корреляции.

Из разговоров с руководителями компаний и инвесторами я регулярно узнаю, что они либо игнорируют саму идею «планок погрешности», либо почему-то считают, что и алгоритмы обработки данных были созданы чуть ли не божественными существами. Но это не так. Они были созданы людьми и поэтому могут содержать ошибки. «Большие данные» не смогли предсказать вспышку вируса Эбола в 2014 году, а затем, после того как она произошла, совершенно неправильно предсказали ее масштаб. Во многом неудача была связана с тем, что данные об Эболе приходили из Западной Африки на языках, с которыми не умели работать мониторинговые программы. Проект Гарвардского университета HealthMap по мониторингу «больших данных» сообщил об этой новости[53], лишь когда в его базу попал телекс на французском языке (то есть информация из медиа старого типа). Кроме того, сообщение вышло уже после того, как правительство Гвинеи уведомило о проблеме Всемирную организацию здравоохранения. Но затем, как только стало понятно, что заболеваемость Эболой достигла порога эпидемии, в статистическом прогнозе, опубликованном Центром по контролю над заболеваниями, было рассчитано, что к концу января 2015 года в Либерии и Сьерра-Леоне заболеют около 1,4 миллиона человек[54]. Реальное количество заболевших составило менее 25 тысяч[55]. «Большие данные» заставляют совершать большие ошибки.

Действия людей с результатами «больших данных» могут также представлять собой своеобразный тест ценностей. Когда данные переходят из неструктурированного вида в структурированный, они базируются на ценностях и предрассудках, существовавших на момент формулирования алгоритмов. К примеру, в будущем мы сможем создать программы для профессионалов в области человеческих ресурсов, позволяющие устанавливать связь между показателями здоровья и ценностью человека для работодателя. Стоит ли в таких случаях использовать прогнозный анализ для выявления потенциальных работников, предрасположенных к определенным болезням, но пока не заболевших? Это, вполне естественно, кажется нам своего рода дискриминацией. Но даже если вы не принимаете во внимание сами факторы риска, связанные с болезнью, ваше представление все равно может быть искажено даже при изучении традиционных факторов. Если менеджер по работе с кадрами в крупной организации оценивает кандидатов на основании одних лишь традиционных критериев, таких как прогнозируемый срок удержания сотрудника или его вклад в общую работу, у него будет складываться предубеждение против людей, предрасположенных к заболеваниям, а также другие довольно спорные предубеждения, например против женщин в детородном возрасте.

Перейти на страницу:

Поиск

Похожие книги