Бернулли вообразил образцовый мир с урной, содержащей сотни черных и белых плашек. Если выбрать среди них десять случайным образом и если шесть из десяти окажутся белыми, что мы узнаем о соотношении белых и черных плашек во всей урне? Иными словами, какие пропорции я получу, продолжая вынимать плашки из урны? Верно ли предполагать, что около 60 процентов плашек – белые? Бернулли математически доказал, что чем больше выборка, тем ближе она к основному распределению. Это «закон больших чисел», интуитивно понятный всякому, ведь в конечном счете выборка будет включать каждую плашку в урне, и тогда она станет соответствовать основному распределению. Менее очевиден другой вывод – что возможно получить довольно точную оценку соотношения белых и черных плашек задолго до того, как подсчитаны все плашки в урне. Вообще близость выборки к основному распределению зависит не от размеров совокупности (тут потребуются обширные выборки для очень больших совокупностей), а от размера самой выборки. На этот замечательный результат опирается большинство статистических форм, в которых анализируются по ограниченным выборкам крупные совокупности280.

Обратная вероятность обнажает математическую логику древней идеи случайного выбора. Случайные выборки снабжают нас ограниченные знания о мире, но социологи знают, что выборка по нескольким сотням или нескольким тысячам образцов способна выдать достаточно точные прогнозы. Конечно, выборки должны производиться как можно более случайным образом, если нужно, чтобы они соответствовали математическим моделям. (Не выбирайте участников политических интервью из состава группы, в которой все носят значки одной и той же политической партии!) Сегодня идея обратной вероятности наиболее широко используется в байесовской статистике. Как мы видели в главе 3, все начинается с исходной, зачастую крайне субъективной оценки формы возможного пространства выборки, а далее эта оценка обновляется по мере поступления новой информации281.

В восемнадцатом столетии другие математики, скажем, Лаплас, показали, что можно оценивать математически степень близости выборки к реальному распределению. Можно строить математические модели изменения случайных выборок, которые позволят установить, насколько близка та или иная выборка к основному распределению. Например, многие образцы реального мира как будто изменяются в соответствии с закономерностью, часто именуемой нормальным распределением (или, вследствие своеобразной формы, колоколообразной кривой). Нормальное распределение наблюдается, если взять варианты выпадения аверса и реверса во многих играх с монетами, количество новобранцев в армии или количество экстремально жарких или холодных дней в году. При нормальном распределении большинство результатов группируется вокруг среднего значения, или медианы. Количество результатов уменьшается по мере удаления от среднего, причем способами, которые можно смоделировать математически. При нормальном распределении среднее отклонение среднего значения выборки от среднего значения общей совокупности измеряется стандартным отклонением. В образцовом мире 68,2 % всех средних значений выборки нормального распределения для всех возможных средних будет находиться в пределах одного стандартного отклонения общей совокупности, а 95,4 % значений – в пределах двух стандартных отклонений. С учетом этого можно утверждать наличие 68,7-процентной вероятности того, что среднее значение для конкретной выборки находится в пределах одного стандартного отклонения от среднего значения для всей совокупности.

Насколько хорошо реальный мир соответствует этим аккуратным образцовым распределениям? Что ж, достаточно хорошо для того, чтобы такие модели оказались крайне полезными. На приведенной ниже диаграмме отражены измерения роста 36 658 восемнадцатилетних новобранцев британской армии в 1880–1884 годах282. Распределение искажено, поскольку новобранцы ростом ниже 65 дюймов обычно не принимались в расчет, хотя некоторые все-таки проскользнули через этот фильтр. Без указанного искажения распределение еще сильнее походило бы на стандартную нормальную кривую. Средний рост для этой группы составляет 64,7 дюйма, а стандартное отклонение – 2,34 дюйма, что позволяет сказать следующее: рост немногим более 68 процентов новобранцев находился в пределах 2,34 дюйма от среднего, а рост чуть более 95 процентов – в пределах 4,68 дюйма. Диаграмма показывает, в какой уродливой форме реальные распределения имитируют распределения образцовые. Вот причина, почему так хочется спроецировать нормальное распределение на будущее, например, чтобы предсказать вероятный диапазон роста новобранцев спустя несколько лет.

Рис. 7.1. Распределение новобранцев в британской армии по росту, 1880–1884 гг.

Источник: Rosenbaum, 100 Years of Heights and Weights.

Перейти на страницу:

Похожие книги