Применение искусственного интеллекта требует большого количества данных для обучения. Чем бы человечество ни занималось, оно постоянно их генерирует. В доэлектронную эпоху собирать данные было сложно, а потому и систематизировать тоже, но все же анализ проводился, путь неосознанно, в локализованной форме. Что самое интересное, те, кто им занимался, даже не знали, чем именно занимаются. Например, в доэлектронный век человек шел на рынок, и информация о том, какие овощи и по какой цене он купил, и была данными. Их никто не оцифровывал, но кое-кто все же собирал и систематизировал – сообразительные продавцы овощей подозревали, что предпочтения покупателя очень важны, и потому на рынке всегда находилось несколько прилавков, которые пользовались особым вниманием клиентов. Часто успешные торговцы неплохо разбирались в анализе данных, но еще чаще даже не осознавали этого. Еще один хороший пример – случай с водителем такси. Водитель подвозил предпринимателя и попутно решил поболтать с ним о своем бизнес-опыте. Не будем здесь вдаваться в подробности, если читателям интересно, они могут поискать в Интернете статью под названием «Курс MBA от водителя такси». Суть заключается в анализе данных. Встречать людей в аэропорту, забирать в определенном месте, где можно хорошо навариться… Водители, способные внимательно наблюдать и оценивать ситуацию, будут продуктивнее и заработают больше денег, чем конкуренты. Конечно, для простого бизнеса такого уровня анализа достаточно. В результате, при среднем доходе таксиста в три тысячи юаней, догадливый водитель получал больше восьми тысяч – поразительная эффективность.
Эти два примера нужны для того, чтобы показать: люди довольно часто занимаются анализом данных, просто в доэлектронную эпоху собирать их было трудно, и, поскольку их корректность ставилась под вопрос, естественно, не возникало отдельной научной отрасли.
С наступлением электронного века, особенно в эпоху мобильного Интернета, сбор данных упростился. В будущем Интернет вещей будет включать в себя все виды данных независимо от размера, и их анализ станет насущной необходимостью. Информационная эпоха также породила новый термин – «большие данные».
Специфика больших данных состоит, во-первых, в огромном объеме, а во-вторых, в многообразии источников. Инженеры используют для этого статистическое программное обеспечение. Однако анализировать большие данные человеческими силами неэффективно и дорого, большой объем информации накапливается, но не используется.