Взаимозависимость входящих в выборку данных может стать причиной серьезных ошибок. В 1936 году ныне забытый журнал «Literary Digest» предпринял опрос для предсказания исхода борьбы между кандидатами в президенты Франклином Рузвельтом и Альфредом Лэндоном. Редакция разослала лицам, отобранным с использованием телефонной книги и данных о регистрации автомобилей, около десяти миллионов опросных листов в виде открыток с оплаченным возвратом. Подсчет возвращенных открыток показал, что за Лэндона собираются голосовать 59% избирателей, а за Рузвельта только 41%. Однако в ходе выборов Лэндон получил 19% голосов, .в то время как за Рузвельта проголосовали 61% избирателей. Дело в том, что в середине 30-х годов владельцы автомобилей и телефонов не составляли типичной выборки американских избирателей: их избирательные предпочтения были обусловлены их уровнем жизни, который был тогда не по карману большинству населения.

***

По-настоящему независимые наблюдения дают богатую информацию о вероятностях. Возьмем для примера кости.

Все шесть сторон костяного кубика могут выпасть с равной вероятностью. Если графически представить вероятность получить каждое из шести возможных значений, мы получим горизонтальную прямую на уровне 1/6. График не будет иметь ничего общего с нормальной кривой, как выборка, состоящая из одного броска, ничего не скажет о шансах ожидания того или иного значения кости. Мы окажемся в состоянии слепых, ощупывающих слона.

Бросим теперь кость шесть раз и посмотрим, что получится. (Я моделировал этот опыт на моем компьютере, чтобы быть уверенным в том, что в результате получаются случайные числа.) Первая серия из шести бросков дала четыре пятерки, одну шестерку и одну четверку, в среднем ровно 5,0. Во второй серии получилась смесь из трех шестерок, двух четверок и одной двойки, в среднем 4,7. Информации не намного больше.

После десяти испытаний по шесть бросков каждый средние результаты по шести броскам стали группироваться около значения 3,5, являющегося средним числом очков на поверхности кости: (1 + 2 + + 3 + 4 + 5 + 6):6 = 3,5 — и ровно половиной величины математического ожидания при бросании двух костей. Шесть моих средних были ниже 3,5 и четыре превышали это число. Вторая серия из десяти бросков дала следующие результаты: четыре раза среднее значение было ниже 3,0, четыре раза оно превышало 4,0, было также по одному значению выше 4,5 и ниже 2,5.

Следующим шагом было определение среднего значения первых десяти испытаний по шесть бросков каждый. В то время как распределение в каждом из этих испытаний, рассматриваемых по отдельности, само по себе мало о чем говорило, среднее от средних оказалось равным 3,48! Теперь среднее уточнилось, но среднее квадратичное отклонение оказалось равным 0,82 — значительно большим, чем хотелось бы{2}.

Иными словами, в семи из десяти испытаний среднее значение оказалось в пределах 3,48 + 0,82 и 3,48 - 0,82, или между 4,30 и 2,66; в остальных трех испытаниях разброс результатов был еще большим.

Тогда я заставил компьютер выполнить 256 испытаний по шесть бросков каждое. Первые 256 испытаний дали близкую к ожидаемому значению величину 3,49 со средним квадратичным отклонением 0,69, то есть две трети результатов оказались в интервале между 4,18 и 2,80. Только в 10% испытаний средние значения были меньше 2,5 или больше 4,5, в то время как больше половины значений попало в интервал от 3,0 до 4,0.

Продолжая насиловать компьютер, я повторил серию из 256 испытаний десять раз. Усреднив результаты, полученные в каждой из десяти выборок, я затем усреднил эти средние и получил 3,499 (я привожу результат с точностью до трех знаков после запятой, чтобы показать степень приближения к 3,5). Впечатляющим оказалось уменьшение величины среднего квадратичного отклонения до 0,044. При этом пять средних оказались ниже 3,5 и пять выше, а семь из десяти выборок по 256 испытаний дали значение в пределах от 3,455 до 3,543. Это неплохая точность.

Как выяснил Якоб Бернулли, количества важны. Это он обратил внимание на то, что среднее от средних значений отдельных выборок удивительным образом снижает дисперсию вокруг основного среднего значения, — утверждение, известное как центральная предельная теорема. Эта теорема была впервые сформулирована Лапласом в 1809 году в работе, которую он закончил и опубликовал перед тем, как в 1810 году ознакомился с «Theoria Motus» Гаусса.

Среднее от средних интересно еще и с другой стороны. Мы начали эксперименты с бросанием шестигранной кости, каждая грань которой имеет равные шансы выпасть. Распределение получалось плоским, не имеющим ничего общего с нормальным. По мере того как компьютер моделировал все большее и большее число бросков, накапливая число выборок, мы получали всё больше и больше информации о свойствах кости.

Перейти на страницу:

Поиск

Похожие книги