Конечно, Шеннона больше интересовали слова и предложения, а не подбрасывание монеты. Самое длинное слово, встречающееся в основных словарях английского языка, — pneumonoultramicroscopicsilicovolcanoconiosis. Это термин для заболевания легких, вызванного вдыханием вулканического кремнезема после извержения. Не идеальная судьба, но, надо полагать, лучше, чем взорвавшаяся голова. Нас интересует, сколько информации содержится в самом этом слове. Поскольку в английском алфавите 26 букв, мы могли бы сказать, что каждая буква — один из 26 возможных исходов. Поскольку это число находится между 16 = 24 и 32 = 25, мы получаем оценку: в каждой букве содержится от 4 до 5 бит информации. Более точный подсчет дает величину 4,7 бита информации[68]. Все наше слово состоит из впечатляющих сорока пяти букв, так что получаем 211,5 бита. Хотя это разумная оценка общего объема информации, содержащейся в нашем слове, в реальности она завышена. В английском языке, как и в любом другом, есть определенные закономерности и правила. Например, рассмотрим слово quicquidlibet, которое буквально означает
Такие тонкости говорят нам о том, что вычислять информацию сложнее, чем просто смотреть на возможные исходы: нужно учитывать еще и вероятности. Например, если вы пять раз подбросите симметричную монету, вы действительно получите пять бит информации. А если монета несимметрична и всегда падает орлом? Можете ли вы утверждать, что получили какую-то информацию, увидев, как пять раз подряд выпал орел? Конечно, нет.
Шеннон придумал формулу для информации, которая все это учитывает. Согласно ей, если вы подбросите монету, у которой с вероятностью
Но как насчет более сложных вещей, которые действительно интересовали Шеннона, например букв, слов или даже предложений? Как измерить информацию, содержащуюся в них? Что ж, предположим, у вас есть первые несколько букв какого-то неизвестного слова: CHE. Сколько информации содержится в следующей букве, когда она станет известной? Если бы все буквы были равновероятными, мы бы сказали: 4,7 бита. Однако мы знаем, что это неверно. Попробуйте ввести буквы CHE, набирая сообщение на мобильном телефоне. Какие слова появляются в качестве подсказки? Вот некоторые из наиболее вероятных.
CHEERS
CHEAT
CHECK
Это заставляет предположить, что любая из букв Е, А и С имеет более высокую вероятность появления, чем, скажем, В. Если условиться, что буква А встречается с вероятностью
Как обычно, она измеряется в битах. Шеннон проверял способности носителей английского языка угадывать следующую букву в слове. Его эксперименты показали, что в среднем каждая буква содержит от 0,6 до 1,3 бита информации. Может показаться, что это немного, но именно поэтому письменный английский хорош для общения. Если какая-нибудь буква пропущена или введена неправильно, вы не потеряете слишком много информации и, скорее всего, сможете расшифровать th mxssage (или, в случае русского языка, эт сожбщение).
Самое примечательное свойство формулы Шеннона — ее сходство с другой формулой, которую более полувека назад вывел физик Джозайя Уиллард Гиббс. Мы коротко упомянули этого ученого в главе «Гугол», когда отправились на поиски двойников — в экспедицию, которая во многом опиралась на понятие энтропии. Тогда мы отметили, что энтропия подсчитывает микросостояния, но это подразумевало некоторое упрощение: такой метод верен только тогда, когда все микросостояния равновероятны. Именно Гиббс показал, как поступать в более общем случае. Если первое микросостояние имеет вероятность