Комментарий 133
к комментируемому месту / к оглавлению: диалогическому, хронологическому, монологическому
Автор: М
Дата: 08/04/2006 03:22
Резюме: Колмогоров и Лотман об "остаточной энтропии"

Колмогоровские идеи по применению теории информации в поэтике были им изложены в нескольких докладах 1961 г., тексты которых, по-видимому, не сохранились. Во всяком случае, все что мне удалось найти -- это изложения, сделанные другими. В.А.Успенский [Усп-НЛО] ссылается на хроникальные заметки [Рев-ВЯ] и итоговую статью [Рев-СТИ] И.И.Ревзина.

Утверждается, что Колмогоров предложил представлять полную энтропию (энтропия по Шеннону -- это количество информации на знак) текста в виде суммы двух составляющих. Цитирую Ревзина по Успенскому:

В этом докладе 'Колмогоров говорил о том, что энтропия есть мера, показывающая, сколько разных текстов данной длины можно построить в определённом языке. Возникает возможность количественно оценить те ограничения, которые налагают требования метра, ритма, рифмы и т. д. Оказалось, что эти ограничения весьма существенны, и если поэт может в пределах данных ограничений выразить нужную мысль, то это объясняется тем, что бOльшая доля разнообразия расходуется в языке не на передачу разного содержания, а на гибкость выражения, т. е. [на] создание разных форм выражения одного и того же содержания. В связи с этим А.Н. Колмогоров предложил разложить энтропию языка на две составляющие: а) меру разнообразия, расходуемую на передачу внеязыковой (семантической) информации, и б) собственно лингвистическую энтропию' ([Рев-ВЯ], с. 162]). И. И. Ревзин приводит следующие величины этих составляющих, предложенные Колмогоровым: для общего значения энтропии, равного 1 [...], первое и второе составляющие равны, соответственно, 0,4 и 0,6 (см. [Рев-СТИ], с. 289).

Энтропия тут понимается в смысле комбинаторном: по Колмогорову [Колм65], если имеется множество из N объектов, то для выбора одного из них требуется log2N бит информации. Если объекты -- произвольные последовательности букв русского алфавита, то энтропия будет 5 бит на букву. Если ограничиться грамматически правильными осмысленными текстами (при всей расплывчатости обоих понятий), она уменьшится, предположительно до 1-2 бит на букву. Далее, по Колмогорову, если разбить все тексты на классы эквивалентности по смыслу (т.е. на группы синонимичных текстов), то количество таких классов определит содержательную часть энтропии, а среднее количество текстов внутри каждого класса -- "остаточную". Только наличие такой текстовой синоними позволяет писать стихи, выбирая из всех текстов, выражающих данное содержание, те, которые еще и удовлетворяют формальным ограничениям, т.е. рифмованные и ритмические. Колмогоров оценивал остаточную энтропию в 0,4, а содержательную в 0,6 бит на букву.

Лотман в [Лот-СХТ] вежливо, но решительно критикует это представление. Во-первых, стихи -- это не просто рифмованная ритмизованная проза. Во-вторых, тогда стихи должны были бы нести меньше информации, чем проза (меньше генеральная совокупность, меньше энтропия), а это не то, чего мы хотим. По Лотману, художественный текст воспринимается читателем как единственно возможное выражение данного содержания ("из песни слова не выкинешь", -- цитирует Лотман), что означает, что энтропия выражения ("остаточная") без остатка превращается в энтропию содержания, и последняя таким образом возрастает. Мне кажется, что Колмогоров и сам был впоследствии неудовлетворен этой идеей, из чего, возможно, и выросла к 1965-му году алгоритмическая теория сложности [Колм65] и из-за чего никаких публикаций по остаточной энтропии не последовало.

Но и у Лотмана остается непонятным, каким именно образом энтропия выражения превращается в энтропию содержания, почему у нехудожественных текстов синонимия есть, а у художественных -- нет. На этот вопрос едва ли можно ответить, если по-прежнему полагать, что художественные тексты выбираются из той же генеральной совокупности (грамматически правильных осмысленных текстов), что и нехудожественные. Потому что тогда их заведомо меньше, а значит, их энтропия тоже ниже, а не выше.

И вот тут наши результаты оказываются имеющими прямое отношение к делу. Полная непредсказуемость стихов и прозы, вспомним, в среднем одинаковая, но у стихов она слагается из пониженной метрической и повышенной неметрической частей. Пониженная метрическая часть означает как раз то сужение множества потенциальных текстов (генеральной совокупности) за счет наложения формальных ограничений, о котором говорил Колмогоров. Но повышенная неметрическая часть означает компенсаторное расширение генеральной совокупности за счет ослабления семантических и синтаксических ограничений! Стихи не являются в некотором смысле "грамматически правильными осмысленными текстами".   Именно поэтому их чтение требует некоторой, когда незначительной, а когда и доступной только филологам, расшифровки. Когда общие правила "правильной речи" неприменимы или применимы ограниченно, текстовая синонимия ослабевает или пропадает вовсе, каждый художественный текст становится уникальным. А фомальные ограничения служат понижению энтропии обратно до общеязыкового уровня. Если этого не делать, получается что-то вроде "Людей в пейзаже" Лившица. Любопытно было бы переложить их стихами и посмотреть, получится ли "понятнее".  


Чтобы добавить комментарий к любому предложению этого текста, щелкните мышью по точке, которой оно оканчивается