– Доступ через интерфейс программирования приложений (API; англ. application programming interface). Данный способ является, наверное, самым сложным и менее законным относительно других. По сути это «перехват» данных государственных структур.
Может показаться, что процесс сбора информации в журналистике данных является наиболее трудоемким, но это не так. Куда сложнее и кропотливее работа по очистке данных. Отчистка данных требует от журналиста очень глубоких знаний, которыми могут обладать только специально обученные работники ведомств. Дело в том, что в большинстве случаев, в таблицах и документах используются индексы и коды. Более того, эти индексы и коды могут отличаться как в рамках одного ведомства, так и в рамках одной базы. Журналист должен владеть соответствующими знаниями, чтобы суметь привести все данные к общему знаменателю. Но, как уже было сказано, журналисты стараются максимально облегчить себе работу, поэтому в очистке данных часто используется бесплатный сервис Google Refine, который в основном исправляет технические ошибки в таблицах. Именно на этапе очистке данных от журналиста требуется знание и умение работать с языками программирования.
В век мультимедиа журналист не ограничен в том, в каком виде представить результат своих исследований: это может быть статья, инфографика, видео, подкаст и прочее. Но куда важнее всего этого сделать правильные выводы и верно трактовать информацию. При работе с данными журналисту часто приходится делать выбор между наглядностью и считываемостью информации и объективностью, и полнотой. В таких случаях исследователи часто пренебрегают простотой подачи информации, обращаясь пусть к более сложной информации, но раскрывающей тему глубже.
Важным является и вопрос обнародования источников. Журналисты, занимающиеся дата-журналистикой, уверены, что они обязаны ссылаться не на исходные данные, полученные первоначально, а именно на финальную версию данных, которая уже прошла стадии обработки и очистки.
Особенности подготовки контента с помощью метаданных выявляются на всех этапах технологического цикла его создания. Журналист должен обладать аналитическим складом ума, быть уверенным пользователем технических инструментов, а также он должен понимать возможности визуализации данных [7]. Под визуализацией имеется в виду как обычная работа с текстом и таблицами в стандартных программах, так и использование специализированных сервисов, в том числе сервисов для создания мультимедийных презентаций и инфографики. Из-за того, что дата-журналистика занимает пограничное место между гуманитарным знанием и техническим знанием, журналист, который ею занимается, должен иметь формально-логический и ассоциативно-образный склад ума [7]. При этом нельзя забывать, что в журналистике данных именно данные являются инфоповодом, то есть дата-журналист еще должен уметь представлять данные в виде готовой новости. В его навыки входит не только анализ информации, но и планирование материала от замысла до публикации.
Аудитории дата-журналистика дает возможность получить наглядную информацию, которая опирается на совершенно реальные факты. Более этого журналистика данных позволяет читателю или зрителю проанализировать данные самостоятельно, не опираясь на мнение журналиста. Примером качественной работы с данными можно назвать публикацию The Guardian и Лондонской Школы Экономики. Журналисты совместно с учеными проанализировали массовые беспорядки, происходившие на территории Англии в 2011 году. В течение исследования журналистами была создана интерактивная карта, на которой в режиме реального времени можно было посмотреть очаги протестов в Англии. Журналисты также анализировали изменения в хештегах в социальных медиа, пытаясь предсказать опасные районы на основе активности пользователей. После завершения беспорядков журналисты приступили к анализу всех полученных данных. Тогда была сделана визуализация распространения информации и слухов в Twitter о беспорядках. Масштабное исследование, проведенное The Guardian и Лондонской Школой Экономики, не только помогло сделать выводы об определенных событиях, но также стало алгоритмом для сбора и обработки информации в сходных условиях на будущее [14].
Вместе с тем дата-журналистику как одно из самых объективных направлений, не обошла проблема субъективности. Журналист, анализирующий огромные массивы информации, обязан знать, как трактовать полученную информацию. В дата-журналистике есть этические стороны: журналист может (но не должен) проигнорировать одни данные и построить свое исследование на неполных данных, что приведет, конечно же, к совершенно другим результатам. В такой ситуации главное не забывать, что дата-журналист все еще журналист, который должен качественно и честно выполнять свою работу.
Но нельзя не отметить, что, к огромному сожалению, недобросовестная работа с открытыми данными может быть пропагандистским или манипулятивным приемом. Нечестный журналист имеет огромное пространство для «недоговаривания» действительных данных: