Комментарий 135
к комментируемому месту / к оглавлению: диалогическому, хронологическому, монологическому
Автор: M
Дата: 21/04/2006 05:19
Резюме: Непредсказуемость и энтропия

Логарифм вероятности угадать один элемент последовательности -- это энтропия по Шеннону [Shan48] или, что то же самое, количество информации на элемент (букву, слово и т.д.). Если бы речь шла об одном элементе, на этом можно было бы остановиться. Но мы работаем со средними величинами, а усреднять можно по-разному: либо усреднить вероятность угадать слово и взять логарифм от среднего, либо усреднять логарифмы вероятности по каждому слову. Результат получится разный, поскольку логарифм суммы не равен сумме логарифмов.

Теоретически правильный способ -- второй, когда усредняются логарифмы вероятностей. В самом деле, количество бит, необходимых для того, чтобы передать элемент текста, равно (в идеале) логарифму вероятности его угадать. Чтобы передать два элемента, нужно передать один, а потом другой: количество бит складывается, значит, нужно складывать логарифмы вероятностей.

Однако здесь возникает большая трудность: многие слова не угадываются вовсе, по крайней мере в ограниченном экспериментальном материале. Поскольку вероятности нам не известны (и не могут быть известны), вместо них мы используем частоты, а частота угадывания слова, которое никто еще не угадал, равна нулю. Но логарифм нуля -- (отрицательная) бесконечность; в слове, которое нельзя угадать, формально бесконечно много информации; в тексте, где есть одно такое слово, тоже бесконечно много информации -- в результате сравнение текстов по энтропии теряет смысл или, по крайней мере, экспериментально неосуществимо.

Ситуация становится проще, когда речь идет об угадывании букв, поскольку их ограниченное количество. Во-первых, количество информации в неугаданной букве конечно, не выше логарифма объема алфавита, а во-вторых, можно заставить респондента угадывать до успеха (что и сделал Шеннон [Shan51]). Слов же, хотя и конечное, но очень большое число, а если учесть имена собственные и окказиональные образования, то... совсем большое (все же конечное, поскольку конечна возможная длина слова).

В нашем случае для преодоления этой неприятности можно пойти по такому пути: условно приписать ни разу не угаданным словам какую-нибудь более или менее разумную ненулевую оценку вероятности их угадать. Я посчитал два варианта: 3 и 10 бит на неугадываемое слово. Первый соответствует нижней оценке (вероятность угадать -- один шанс из восьми), второй -- верхней (тысяча равно подходящих вариантов на замещение данной вакансии). Оказывается, получающаяся при таком вычислении величина энтропии на слово для нашего материала практически пропорциональна непредсказуемости, посчитанной как логарифм средней вероятности угадать слово. Иначе говоря, нет принципиальной разницы, использовать ли энтропию или непредсказуемость.

Тем не менее, полезно помнить, что непредсказуемость в 1 у-бит на слово не означает энтропии в 1 бит на слово. Такая непредсказуемость получится, если половина слов угадывается однозначно, а другая половина, скажем, один раз на тысячу. Энтропия такого текста в расчете на слово была бы около 5 бит (1000 ~ 210, значит, половина слов содержит по 0 бит, а другая -- по 10 бит, в среднем -- 5).  


Чтобы добавить комментарий к любому предложению этого текста, щелкните мышью по точке, которой оно оканчивается