Новостной журнал U.S. News & World Report как-то опубликовал статью, в которой приводилось соотношение демократов и республиканцев начиная с 1930-х годов. Проблема в том, что за это время принципиально поменялась сама процедура формирования выборки. В 1930-х и 1940-х респондентов отбирали в личном разговоре, а также с помощью адресных списков, созданных на основе телефонных справочников. К 1970-м опросы стали делать исключительно по телефону. В начале XX века при формировании выборки скорее учитывали тех, у кого был стационарный телефон, то есть людей с достатком, а они – во всяком случае, в то время – имели обыкновение голосовать за республиканцев. К 2000-м перешли на мобильные телефоны, из-за чего произошел явный перекос в сторону молодежи, отдававшей свои голоса, как правило, за демократов. Мы на самом деле не знаем, изменилась ли пропорция демократов и республиканцев с 1930-х годов, так как выборки не поддаются никакому сравнению. Нам кажется, мы изучаем одно, а на самом деле – другое.
Похожая проблема возникает, когда говорят о снижении уровня смертности в результате мотоциклетных аварий по сравнению с тем, что было три десятилетия назад. Сейчас в сводках упоминается больше трехколесных мотоциклов, а в прошлом столетии доминировали двухколесные модели; можно вспомнить тот факт, что когда-то шлемы были не обязательны, сейчас же их наличие в большинстве штатов оговаривается законом.
Остерегайтесь меняющихся выборок, когда делаете выводы! Журнал U.S. News & World Report (да, снова он) сообщил, что за прошедший 20-летний период увеличилось число врачей, при этом средняя зарплата значительно снизилась[68]. Что же из этого следует? Вы можете сделать вывод, что сейчас не лучшее время, чтобы обучаться профессии врача, потому что их теперь пруд пруди (а избыточное предложение на рынке стало причиной снижения зарплаты). Возможно, это и так, но в защиту этого утверждения нет ни одного доказательства.
Вполне правдоподобно звучит заявление, что благодаря сужению специализации и росту технологий, наблюдаемым на протяжении последних 20 лет, у врачей появилось больше профессиональных возможностей – как следствие, на рынке стало больше доступных вакансий, особенно на фоне увеличения общего числа врачей. Так что же насчет снижения зарплаты? Возможно, дело в увольнении пожилых специалистов, которых заменили более молодые, согласные – в силу отсутствия опыта – на более низкую зарплату. Но и таких доказательств тоже нет. Важная составляющая статистической грамотности – понимать, что некоторые данные, подобно тем, что мы рассмотрели в этом примере, просто нельзя интерпретировать.
Иногда вот такая путаница с котлетами и мухами происходит от сравнения противоречивых подвыборок – потому что вы проигнорировали какую-то деталь, сочтя ее неважной. Например, отбирая пробы кукурузы на поле, обработанном новым удобрением, вы можете не обратить внимания на то, что некоторые початки получали больше солнца, а некоторые – больше воды. Или при исследовании влияния потока машин на частоту проведения ремонтных работ от вашего внимания может ускользнуть тот факт, что на определенных улицах больше водостоков, чем на других, и потому там чаще возникает необходимость ремонтировать асфальтовое покрытие.
Говорят, что происходит объединение выборок, когда данные о разнородных объектах соединяют в одну категорию, как в случае с яблоками и грушами. Если вас интересует количество шестеренок, выпущенных с дефектом, можно объединить данные по разным их видам и получить необходимые вам цифры в зависимости от того, какую цель вы преследуете.
Допустим, вам интересно сравнить сексуальное поведение детей в возрасте 10–12 лет и подростков постарше. То, каким образом вы объедините данные, может существенно повлиять на то, как люди их потом воспримут. Если перед вами стоит задача найти деньги на создание образовательных и консультационных центров, можно заявить нечто вроде: «70 % школьников в возрасте от 10 до 18 лет ведут половую жизнь». Нас не удивляет, что в этой категории 17- или 18-летние школьники, – но десятилетки! Такие заявления могут повергнуть в шок их бабушек и дедушек, которых придется отпаивать валерьянкой. Но ведь понятно же, что в общей категории, к которой отнесли и десятилетних детей, и 18-летних подростков, оказались и те, кто ведет половую жизнь, и те, кто нет. Гораздо правильнее было разбить всех участников исследовании на группы, объединив по возрасту и имеющемуся у них жизненному опыту: например, 10–11 лет, 12–13, 14–15, 16–18.
Но и это не единственная проблема. Что вообще имеется в виду под словосочетанием «вести половую жизнь»? Какой конкретно вопрос задавали школьникам?
И вообще, действительно ли опрашивали школьников? Может статься, на все эти вопросы отвечали родители. На полученные данные могли повлиять разные факторы. Слова «вести половую жизнь» можно понимать по-разному. И ответы могут разниться в зависимости от того, как понимать вопрос. Ну и, конечно, респонденты не обязательно говорили правду.