Литература

Аннотированный рабочий список литературы по смежным вопросам.
[Лот-СХТ] Ю.М.Лотман Структура художественного текста. В сб. Лотман Ю.М. Об искусстве. СТб., 1998. С. 14--288. (http://www.ruthenia.ru/lotman/papers/sht/index.html)
В главе 1, "Искусство как язык" (с. 19--42) обсуждается взгляд Колмогорова на энтропию естественного языка как состоящую из суммы энтропии содержания и энтропии выражения. Грубо говоря, по Колмогорову поэт выбирает среди потенциальных равнозначных (имеющих одинаковое содержание) текстов тот, который дополнительно удовлетворяет формальным ограничениям. Это и нереалистично, и приводит к парадоксу: художественный текст тогда должен был бы угадываться легче и соответственно нести меньше информации. По Лотману, художественный текст воспринимается читателем как единственно возможное выражение данного содержания ("из песни слова не выкинешь", -- цитирует Лотман), что означает, что энтропия выражения без остатка превращается в энтропию содержания, и последняя таким образом возрастает. (Далее он рассматривает 4 случая соответствующих разному восприятию текста автором и читателем, но это нас сейчас не так интересует.) Это привлекательная позиция, но остается непонятным, за счет чего происходит чудесное превращение формы в содержание. Попытку ответа с учетом наших данных см. в комментарии 133.
[Колм65] А.Н. Колмогоров. Три подхода к определению понятия "количество информации" // Проблемы передачи информации. - 1965. - Т. 1. - N 1 - С. 3--11. (Перепечатано в [Колм87], с. 213--223)
@Article{Kolm65,
  author =      "{Kolmogorov, A.}",
  title =       "Three Approaches to the Quantitative Definition of
                 Information",
  journal =     "Problems Inform. Transmission",
  volume =      "1",
  pages =       "1--7",
  year =        "1965",
}
Основополагающая статья, с которой началась теория колмогоровской сложности. Доказательство основной теоремы (длина минимальной программы, вычисляющей объект, с точностью до константы не зависит от системы программирования). "Три подхода" -- комбинаторный, вероятностный и алгоритмический, подчеркивается независимость и полезность первого. Энтропия как верхняя оценка сложности.

Список литературы из двух пунктов, один из которых -- учебник.

Но вот еще что интересно. В разделе про вероятностный подход читаем:

Но какой реальный смысл имеет, например, говорить о "количестве информации", содержащемся в тексте "Войны и мира"? Можно ли включить разумным образом этот роман в совокупность "возможных романов" да еще постулировать наличие в этой совокупности некоторого распределения вероятностей? Или следует считать отдельные сцены "Войны и мира" образующими случайную последовательность с достаточно быстро затухающими на расстоянии нескольких страниц "стохастическими связями"?
А далее, в разделе про алгоритмический подход (т.е. то, что и стало называться КС) с явным удовлетворением:
Поэтому такие величины, как "сложность" текста романа "Война и мир", можно считать определенными с практической однозначностью.
Трудно отделаться от ощущения, что внутренняя мотивация введения КС была вовсе не собственно математической, т.е. что Колмогоров придумал ее специально для того, чтобы иметь возможность осмысленно говорить о количестве информации в тексте "ВиМ".

Наконец, там же Колмогоров упоминает и об экспериментах типа Шеннона [Shan51]:

Эксперименты по угадыванию продолжений литературных текстов позволяют оценить сверху условную сложность при заданном запасе "априорной информации" (о языке, стиле, содержании текста), которой располагает угадывающий. В опытах, проводившихся на кафедре теории вероятностей Московского государственного университета, такие оценки сверху колебались между 0,9 и 1,4. Оценки порядка 0,9--1.1, получившиеся у Н.Г.Рычковой, вызвали у менее удачливых угадчиков разговоры о ее телепатической связи с авторами текстов.
[КолмРук] А.Н. Колмогоров. О возможном применении простейших представлений теории информации к исследованию стиха, художественной прозы, техники перевода.
Текст: http://ygrec.msk.ru/kl/literature/Kolmogorov-iz-usp.pdf

Рукопись в 3 машинописные страницы, впервые опубликованная В.А.Успенским в [УспНемат] (т.2, стр. 743--745), к сожалению, недатированная. По сравнению с изложением Успенского и Ревзина имеется оговорка о том, что "В стихах допускается несколько более свободное пользование необычным в прозе расположением слов, что несколько увеличивает показатель β" (энтропия гибкости выражения).

[КР] А.Н.Колмогоров, Н.Г.Рычкова. Russian Poetry Rhythm Analysis and Probability Theory. // Theory of Probability and its Applications (перевод ТВП). Vol. 44, No. 2, pp. 375--385.
[Колм87] А.Н. Колмогоров. Теория информации и теория алгоритмов / Отв. ред. акад. Ю. В. Прохоров. - М.: Наука, 1987. 304 с.
[КР] А.Н.Колмогоров, Н.Г.Рычкова. Russian Poetry Rhythm Analysis and Probability Theory. // Theory of Probability and its Applications (перевод ТВП). Vol. 44, No. 2, pp. 375--385.
Статья, написанная, вероятно, в 1962-м и переданная в редакцию Вяч. Вс. Ивановым в 1998-м. Работа посвящена ритму четырехстопного ямба. Рассматриваются подсчеты Андрея Белого по распределению неполноударных форм четырехстопного ямба (по тому, на каких стопах пропущены ударения), показано, что пропуски ударения на стопах статистически независимы друг от друга. Далее рассматриваются работы Шенгели и Томашевского по статистике словоразделов на третьей стопе, когда на ней пропущено ударение. Показано, что оба автора допустили ошибки в вычислении теоретических значений (на основании распределения слов с различным ритмическим рисунком в прозе), приводятся исправленные подсчеты, из которых следует, что распределение лишь незначительно отличается от теоретического.

Пафос работы в основном методический: подчеркивается, что осмысленные результаты можно получить, если сравнивать статистику реальных текстов с теоретической, вычисленной в предположении об отсутствии некоторых корреляций. Только при обнаружении значимых расхождений можно делать из них содержательные выводы.

[Кондр63] А.М.Кондратов. Теория информации и поэтика (Энтропия ритма в русском языке) // Проблемы кибернетики, 1963, N9, с. 279--286.
Ссылаются [CK78]. Надо прочитать
[ППР62] А.А.Пиотровская, Р.Г.Пиотровский, К.А.Разживин. Энтропия русского языка // Вопросы языкознания, 1962, N6, с. 115--130
Ссылаются [CK78]. Надо прочитать
[Рев-ВЯ] И.И.Ревзин. Научное совещание, посвященное применению математических методов при изучении языка художественных произведений. Вопросы языкознания. 1962. N 1. С. 161--165.
Следует прочитать
[Рев-СТИ] И.И.Ревзин. Совещание в г. Горьком, посвященное применению математических методов к изучению языка художественной литературы. В сб. Структурно-типологические исследования. Отв. ред. Т.Н.Молошная. Академия наук СССР, Институт славяноведения. М.: Изд. АН СССР, 1962. С. 89--98.
Следует прочитать
[Усп-НЛО] В.А.Успенский. Предварение для читателей "Нового литературного обозрения к семиотическим посланиям Андрея Николаевича Колмогорова. НЛО, N 24, 1997 (http://www.kolmogorov.pms.ru/uspensky-predvarenie.html)
По-видимому, самый авторитетный источник по теме "Колмогоров и филология".

Примечание 68 (по [УспНемат]) к п.4.2 посвящено вопросу о том, что такое грамматически правильный, осмысленный, литературный текст и критике представления о том, что эти три категории вкладываются друг в друга в этом порядке. В частности, приводится пример "дыр-бул-щыл" Крученыха в качестве примера литературного, но не грамматически правильного и не осмысленного текста (сам текст, как водится, перевран).

[УспНемат] В.А.Успенский. Труды по нематематике. М.: ОГИ, 2002.
Включает [Усп-НЛО] с дополнениями. Первопубликация [КолмРук].
[Abernathy] R.Abernathy. Mathematical Linguistics and Poetics // Poetics. Poetyka. Поэтика. Warszawa, 1961, p. 564--569.
"Лингвистика относится к поэзии так же, как органическия химия к биологии." "В последние годы лингвисты стали осознавать, что недавно созданная теория информации может привести к существенному улучшению методов как описательной, так и сравнительной лингвистики". Излагаются на качественном уровне определение и смысл энтропии. Приводятся цитаты (Кольридж, Вордсворт, Данте) в пользу представления об отсеивании поэтом художественных высказываний из множества всех высказываний. "Не все высказывания суть поэзия. Столь прямолинейная формулировка звучит довольно тривиально в сравнении с более весомыми терминами, обычно используемыми в литературной критике, чтобы выразить тот же самый факт. Но это не тривиальное утверждение; напротив отправляясь от этого простого наблюдения, мы можем придти к чрезвычайно важным выводам."

Далее отмечается, что "поэзия использует сокращенный и обедненный по сравнению с повседневной речью язык" (благодаря формальным ограничениям) и признается, что это -- парадокс. Его предлагается разрешить, приписывая субъективные вероятности высказываниям и постулируя, что поэтические высказывания обладают сильно пониженной вероятностью. (Заметим, что сильно пониженная вероятность означает слабую принадлежность к базовому множеству всех высказываний, понимаемего как нечеткое множество, так что это решение либо неправильное, если настаивать на такой принадлежности, либо же правильное, но отрицающее предпосылку о принадлежности поэтических высказываний множеству всех высказываний.)

Указывается, что избыточность поэтического языка (в смысле меньшего количества текстов) была полезна в дописьменных обществах: поэтическая условность как мнемоническое средство. Тогда повышение энтропии при пониженной избыточности кажется парадоксом, но может указывать на происхождение современного чисто-поэтического языка из более древней формы с более прагматической функции.

Далее обсуждается 4 возможности для подмножества поэтических высказываний: оно может быть ограничено по энтропии сверху, снизу, с обеих сторон и никак. Вторая возможность сопоставляется с романтической парадигмой, третья (а не первая) -- с классицистической.

[BrownEtAl92] P.F.Brown, V.J.Della Pietra, R.L.Mercer, S.A.Della Pietra, J.C.Lai. An estimate of an upper bound for the entropy of English. Computational Linguistics, Volume 18, Issue 1 (March 1992), p. 31--40
@article{BrownEtAl92,
 author = {Peter F. Brown and Vincent J. Della Pietra and Robert
 L. Mercer and Stephen A. Della Pietra and Jennifer C. Lai},
 title = {An estimate of an upper bound for the entropy of English},
 journal = {Comput. Linguist.},
 volume = {18},
 number = {1},
 year = {1992},
 issn = {0891-2017},
 pages = {31--40},
 publisher = {MIT Press},
 address = {Cambridge, MA, USA},
 }
Оригинал платный, http://portal.acm.org/citation.cfm?id=146680.146685 (но выставлен на http://www.cs.mu.oz.au/acl/J/J92/J92-1002.pdf). Аннотация:
We present an estimate of an upper bound of 1.75 bits for the entropy of characters in printed English, obtained by constructing a word trigram model and then computing the cross-entropy between this model and a balanced sample of English text. We suggest the well-known and widely available Brown Corpus of printed English as a standard against which to measure progress in language modeling and offer our bound as the first of what we hope will be a series of steadily decreasing bounds.
Очень аккуратный тест трехсловной статистики для предсказания следующего слова. Тексты не сводятся к 27-буквенному алфавиту, используются все 95 отображаемых символов ASCII. Модель трехслойная: сначала предсказывается "слово" (в расширительном смысле, так, конец предложения считается специальным "словом"), затем оно оформляется заглавными буквами и знаками препинания. Используется взвешенная сумма четырех предикторов: вероятность по двум предыдущим словам, одному, априорная, плюс постоянный (не зависящий от предсказываемого слова) член. Модель тренировали на тексте в 583 миллиона слов: газеты, две энциклопедии, собрание романов и статей для слепых, рассказы о Шерлоке Холмсе, прения канадского парламента, конторская корреспонденция IBM и Amoco, словарь цитат, Чикагское руководство по стилистике, Мировой альманах. Дополнительно использовались списки географических названий из переписи населения США и списки личных имен, извлеченные из двух коммерческих списков рассылки. Модель тестировалась на Brown corpus и показала результат в 1.75 бит на знак.

Этот результат предлагается как точка отсчета для занимающихся вычислительной лингвистикой. Отмечается, что трехсловная модель "проста до идиотизма" (is almost moronic). Предполагается, что модель заведомо можно существенно улучшить. Концовка полна пафоса: "Предлагая этот стандартный тест, мы рассчитываем вызвать могучую бурю творческой конкуренции, которая со временем заарканит того дикого и необузданного зверя, которого мы знаем под именем английского языка."

[BurLick55] N.G.Burton, J.C.R.Licklider. Long-range constraints in the statistical structure of printed English. American Journal of Psychology, Vol. 68, No. 4 (Dec., 1955), pp. 650-653.
Платный текст и бесплатная первая страница на http://links.jstor.org/sici?sici=0002-9556(195512)68%3A4%3C650%3ALCITSS%3E2.0.CO%3B2-Y

Согласно [Moradi98], бралось по 10 отрывков из 10 романов (одинаковой трудности) 10 разных длин (0, 1, 2, 4, ... , 128, 1000 символов). Вывод о том, что после 32 символов длина не влияет на угадывание в противоположность Шеннону.

[ChurchMercer93] K.W.Church, R.L.Mercer. Introduction to the special issue on computational linguistics using large corpora // Computational Linguistics archive, Vol. 19, Issue 1 (March 1993), pp. 1--24.
@article{ChurchMercer93,
 author = {Kenneth W. Church and Robert L. Mercer},
 title = {Introduction to the special issue on computational
 linguistics using large corpora},
 journal = {Comput. Linguist.},
 volume = {19},
 number = {1},
 year = {1993},
 issn = {0891-2017},
 pages = {1--24},
 publisher = {MIT Press},
 address = {Cambridge, MA, USA},
 }
Библиографические данные на http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=972452, полный текст на http://acl.ldc.upenn.edu/J/J93/J93-1001.pdf

Обзор достижений в области распознавания текста и речи, разметки частей речи, энтропийного анализа, машинного перевода, лексикографии и т.п. Отмечается ренессанс эмпирического подхода, возникшего в 50-х и сменившегося аналитическим под влиянием Хомского (грамматики) и Минского (критика нейронных сетей). Ренессанс связан с отсутствием прогресса в аналитических методах и ростом вычислительных мощностей и баз данных по текстам.

В связи с распознаванием речи отмечается (с. 12), что трехсловная статистика лучше предсказывает короткие частотные слова, чем длинные знаменательные, что удобно для приложений (именно эти слова плохо распознаются), и что может быть связано с естественной эволюцией языка в сторону помехоустойчивости -- ср. наш Комментарий 115 по поводу линейного роста непредсказуемости с длиной слова.

[CK78] T.M.Cover, R.C.King. A Convergent Gambling Estimate of the Entropy of English.
@Article{CK78,
  author =  {T.M.Cover and R.C.King},
  title =    {A Convergent Gambling Estimate of the Entropy of English},
  journal = {Information Theory, IEEE Transactions on},
  year =   {1978},
  volume =   {24},
  number =    {4},
  pages =      {413--421},
  month =       {jul},
}
Согласно [Mahoney] (неопубл.), авторы усовершенствовали методику Шеннона [Shan51], оформив угадывание букв в виде азартной игры и оценивая вероятности по делаемым ставкам. Предполагалось, что это даст более точные оценки, но энтропия получилась в пределах от 1.3 до 1.7 бит на букву, т.е. выше, а не ниже, чем в опытах Шеннона.

Аннотация на http://ieeexplore.ieee.org/xpl/abs_free.jsp?arNumber=1055912, полный текст платный.

Обширнейшая библиография, включая эксперименты по определению энтропии разных языков от армянского до румынского.

[Ebeling94] W.Ebeling, T.Pöschel. Entropy and Long Range correlations in literary English // Europhys. Lett., 26 (2), pp. 241 (1994)
р Ерундовая работа, не стоит цитирования.
[Fon] I.Fònogy. Informationsgehalt von Wort und Laut in der Dichtung. Poetics. Poetyka. Поэтика. Warszawa ..........
Работа, многократно цитировавшаяся в филологической литературе, вероятно, с легкой руки Лотмана. Цитируется обычно только вывод о том, что "в стихах 60% фонем не угадывались, в то время как в газетной статье только 33%, а в разговоре двух девушек -- 29%". Вывод этот находится на первой из 15 страниц. Начинается статья с цитаты из Роберта Фроста: "Поэт свободен лишь до тех пор, пока не взялся за перо. Первая же стопа задает метрический образ стиха, каждое новое слово все сильнее сужает выбор следующих слов, пока поэт, вконец запутавшись в сплетенных им самим сетях, не оказывается вынужден позволить стиху самому определять свою судьбу." Далее следует ссылка на Якобсона: "Структуру стиха можно подробнейшим образом описать и интерпретировать в терминах цепных вероятностей". (При всей моей любви к Якобсону с последним согласиться никак не могу.)

Все это быстро приводит к эксперименту типа Шеннона [Shan51] с угадыванием следующей буквы. Объем текстов -- 10 стихотворных строк в стихах, 10 предложений в статье и разговоре. Отмечается, что низкая избыточность обследованных стихов наблюдается несмотря на ритм и рифму. Делается предположение, что причина этого -- нешаблонность определительных и обстоятельственных конструкций. В подтверждение приводятся данные по "информации атрибута", числу ошибочных ответов при угадывании букв в прилагательном, сколько я могу судить. Далее рассуждения о взаимодействии между стремлением усложнить текст за счет нешаблонных словосочетаний и упростить (в смысле энтропии) за счет упорядочения фоники (ассонанс, аллитерация, рифма), см. выводы. Приводятся диаграммы, смысл которых в том, что звучание вносит вклад в содержание не только через посредство слов, как в нехудожественном тексте, но и прямо.

В конце статьи выводы:

  1. В противоположность предположению о том, что вследствие метрических, стилистических ограничений свобода выбора поэта сильно стеснена, наши эксперименты свидетельствуют в пользу повышенной семантической [?? -- ДМ] энтропии исследованного венгерского стиха по сравнению с газетным языком или повседневным разговором.
  2. Звуковой образ стиха, напротив, ввиду его природы более предсказуем, поскольку распределение звуков в известной мере обусловлено настроением стиха. В агрессивном стихе преобладают "жесткие" согласные (/к/, /т/, /р/), а в нежном, наоборот "мягкие" (/м/, /л/). [Объем материала здесь такой: 33320 фонем из Шандора Петефи по-венгерски, 30585 фонем из Рюкерта по-немецки, 52653 фонем из Гюго по-французски -- ДМ]
  3. Эти две на первый взгляд противоположные и противоречивые тенденции сводятся к одному и тому же принципу экономии выразительных среств. Две базовые тенденции поэтического формообразования ведут с одной стороны к понижению избыточности словесного строения, а с другой -- к двоякой [дополнительной? -- ДМ] роли звукового знака, способствующего непрямому употреблению слов и грамматических категорий, отчего возникает дополнительная семантика [букв: семантическая прибавочная стоимость -- ДМ]
  4. Само давление повтора, который несомненно занимает в стихе важное место и в метрическом устройстве стихотворной строки, в повторении звуков и групп звуков приобретает большое значение, подчинено принципу экономии. [Под принципом экономии тут, очевидно, понимается стремление к повышению энтропии, т.е. "информативности". Не могу не отметить, что энтропию повысить очень просто: вставить произвольное слово или даже бессмысленную последовательность звуков. Ясно, что одним стремлением к ее повышению ничего объяснить нельзя. Чтобы текст оставался текстом, его энтропия не может быть слишком велика, и именно это противоречие и делает задачу поэта трудной. -- ДМ]
  5. Стремление к экономии в стихе -- не самоцель. В порыве к (Drang nach) энтропии отражается стремление поэтов насколько возможно подлинно передать свое переживание. Двойная роль звуковой инструментовки, непрямое, метафорическое употребление слов и грамматических категорий, выявление музыкальности в словесных выражениях, т.е. единство понятийного и до-понятийного [?? "begrifflich und vorbegrifflich"] способов коммуникации позволяет поэту добиться содержания высокой сложности, где перемешаны логические высказывания с противоречивыми чувствами и фантазиями.
  6. Наши выводы относятся к европейской литературе последнего столетия; сохраняют ли они силу в более широкой области, подлежит дальнейшему исследованию.
[Konto96] I.Kontoyiannis. The Complexity and Entropy of Literary Styles. NSF Technical Report No. 97, Dept. of Statistics, Stanford U., June 1996/October 1997
Курсовая работа студента T. Cover (автора [CK78]). Приводится "частное сообщение" руководителя: "Когда компьютеры смогут сжимать текст лучше, чем человек, мы сможем сказать, что они понимают текст". Описывается метод оценки энтропии, родственный LZ77: максимальная длина подстроки, не встречавшейся прежде, растет как логарифм длины просмотренного текста, деленный на энтропию. Опробован на текстах Библии (0.92 бит), романов Дж. Остин (1.77 бит), Дж. Джойса (2.15 бит на символ).
[Moradi98] H. Moradi, J.W.Grzymala-Busse, J.A.Roberts. Entropy of English Text: Experiments with humans and a machine learning system based on rough sets. Information Sciences, An International Journal, 104(1998), 31-47.
Аннотация: "Цель настоящей работы -- продемонстрировать зависимость измеренной энтропии английского текста от субъекта эксперимента, типа английского текста и методологии, используемой для оценки энтропии". Обширное введение, описываются эксперименты Шеннона [Shan51], подчеркивается, что в них качество предсказания повышается с увеличением длины предъявляемого текста, вплоть до 100 букв. Ссылки на теоретические работы, посв. формулам Шеннона. Ссылка на [CK78] и на Ягломов.

Описание результатов [BurLick55]: по 10 отрывков из 10 романов (одинаковой трудности) 10 разных длин (0, 1, 2, 4, ... , 128, 1000 символов). Вывод о том, что после 32 символов длина не влияет на угадывание в противоположность Шеннону.

Авторы делают следующий шаг: по 100 фрагментов в 64 символа длиной из двух книг (учебник "Цифровая обработка сигналов" и роман Джудит Кранц [Judith Krantz]), приведенный к 27-символьному алфавиту (буквы и пробел), угадывались все буквы по очереди, как у Шеннона. Оказывается, что энтропия убывает только до длины в 31 символ.

Далее к текстам добавлены "101 далматинец" (детская книга) и "Справочные руководства для федеральной авиации Соединенных Штатов" (правительственный документ). По 100 отрывков по 32 буквы, угадывается только 32-я, методика -- Шеннона (до угадывания), 8 субъектов. Результаты не очень уверенные, значения энтропии относительно высокие (1.6 -- 2.3 бит на букву), наименьшая энтропия у технической книги, затем у детскоей, затем у романа, наибольшая -- у правительственного документа.

Наконец, приводятся результаты эксперимента, в котором методика сжатия текста по Шеннону (с использованием идентичных близнецов) реализована с помощью симообучающейся экспертной системы (обученной по тройкам букв), энтропия 2.46. Ср. [Mahoney].

[Paisley66] W.J.Paisley. The effects of authorship, topic structure, and time of composition on letter redundancy in English text. J. Verbal. Behav. 1966, 5, 28--34.
Согласно [Moradi98], брались английские переводы 9 греческих текстов (2528 символов из каждого), всего 39 переводов 3 эпох, 18 авторов, на 9 тем (очевидно, темой считался оригинальный греческий текст). Вычислялись оценки однобуквенной и двухбуквенной энтропии. Обнаружено, что она зависит от всех трех факторов (время написания, тема, автор).
[PereiraNGrams96] F.C.N.Pereira, Y.Singer, N.Tishby. Beyond Word N-Grams // eprint arXiv:cmp-lg/9607016 (1996) (http://arxiv.org/abs/cmp-lg/9607016)
Описывается алгоритм (Prediction Suffix Trees, PST), предсказывающий следующее слово на основании дерева, строящегося при тренировке модели. Грубо говоря, для часто встречающиеся последовательностей слов учитывается большая длина контекста. Результаты приводятся в терминах "растерянности" (perplexity), т.е. 2(энтропия на слово). В пересчете на энтропию на знак (считая ср. длину английского слова в 4.5 знака) получается: 1.15 для Библии (очень хороший результат), 1.7 для "Потерянного рая" Мильтона и 1.62 для Brown Corpus.
[Shan48] C.E.Shannon. A Mathematical Theory of Communication. 1948. Bell Systems Technical Journal, 27, 623--656.
@Article{Shan48,
  author =      "C. E. Shannon",
  key =         "Shannon",
  year =        "1948",
  title =       "A Mathematical Theory of Communication",
  pages =       "379--423",
  journal =     "The Bell System Technical Journal",
  volume =      "27",
  number =      "3",
}
Работа, заложившая основы теории информации. Определение энтропии, основные теоремы, рассуждения о естественном языке. В качестве примера низкой избыточности (интуитивно) приводится проза Джойса в противоположность "Basic English".
[Shan51] C.E.Shannon. Prediction and Entropy of Printed English. 1951. Bell Systems Technical Journal, 30, 50-64. (http://www.cs.yorku.ca/course/4441/Shannon-1951.pdf)
@Article{Shan51,
  author =      "C. E. Shannon",
  title =       "Prediction and Entropy of Printed English",
  journal =     "Bell System Technical Journal",
  volume =	"30",
  pages =	"50--64",
  year =        "1951",
  month =       jan,
}
Аннотация:
Описан новый метод оценивания энтропии и избыточности языка. Этот метод использует знания о статистике языка, которыми обладают его носители [боюсь, что тут покривлено душой: очевидно, что коль скоро речь идет о настоящем тексте, а не о марковском псевдотексте, то гораздо важнее знания об описываемой языком реальности, а затем об условностях соответствующего стиля; то и другое может быть в принципе выражено в вероятностных терминах, но к статистике собственно языка никак не сводится -- ДМ], и основан на экспериментах по предсказанию следующей буквы, когда предшествующий текст известен. Приводятся результаты эксперимента и выводятся некоторые свойства идеального предиктора.
Ссылка на [Shan48]: определение энтропии и избыточности, оценка в 2.3 бита на букву исходя из статистики букв. Анонс результата: ок. 1 бита на букву "при учете дальнодействующих (на расстояниях до 100 букв) статистических эффектов". Вычисления энтропии по n-граммам; по словам с использованием закона Ципфа (2.62 бит на букву). Два варианта эксперимента: одна попытка на букву или до угадывания. Метод сжатия с помощью идентичных предикторов.

Исследование зависимости предсказуемости от длины предшествующего текста: 100 случайных отрывков по 15 букв, плюс сколько-то стобуквенных фрагментов. Проверочный эксперимент с угадыванием предыдущей буквы (субъективно труднее, но результаты почти такие же). Обработка результатов: показывается, что из них можно извлечь как верхнюю, так и нижнюю оценки для энтропии. Обе оценки убывают с ростом длины фрагмента. Получается примерно от 1 до 2 бит на букву для 15-буквенных и от 0.6 до 1.3 бит на букву для 100-буквенных фрагментов.

Тексты для эксперимента брались из романа Дюма Малоуна "Джефферсон из Вирджинии" (классическая биография президента Джефферсона). Любопытно, что приводя пример результатов угадывания (79%), Шеннон говорит: "Результаты такого порядка типичны для обыкновенного литературного английского. Газетные тексты, научные статьи и стихи обычно приводят к несколько худшим результатам." К сожалению, подробностей он не приводит. Интересно, чем вызвана такая разница между газетными текстами Шеннона и Фонодя [Fon].

[SG96] T.Shürmann, P.Grassberger. Entropy estimation of symbol sequences // Chaos: An Interdisciplinary Journal of Nonlinear Science, Volume 6, Issue 3, September 1996, pp.414-427 (тж. arXiv:cond-mat/0203436, http://arxiv.org/pdf/cond-mat/0203436)
@Article{Schrmann96,
  author =      "T. Sch{\"u}rmann and P. Grassberger",
  title =       "Entropy Estimation of Symbol Sequences",
  journal =     "Chaos",
  volume =      "6",
  number =      "3",
  pages =       "414--427",
  year =        "1996",
  keywords =    "symbolic dynamics, data compression, Henon map",
}
Деревянные модели описываются и применяются к разным примерам временных рядов, включая тексты на естественном языке (как цепочки символов, а не слов). Использовались собрание сочинений Шекспира, LOB corpus (газетные тексты) и Библия, примерно по полмиллиона знаков каждый. Оценки энтропии на знак получились (после экстраполяции, поскльку длина текста недостаточна для выхода на предел): 1.7 для Шекспира, 1.25 для газет; для Библии эестраполяция ненадежна из-за неоднородности текста, но значение не выше 1.5.

Интересны графики энтропии на знак для первой, второй и т.д буквы слова: примерно 4 для первой, 2 для второй, 1.7 для третьей, 1 для четвертой, а с 5-й до 14-й практически постоянно 0.5. Это значит, что если посчитать энтропию на слово в зависимости от длины слова, она будет примерно 6.5 + 0.5*len при len>=5, где len -- длина слова. Сравнение с нашими результатами, где непредсказуемость примерно пропорциональна длине слова, затруднено, но интересно. Примечательно, что качество предсказания практически одно и то же для оригинального текста и текста, в котором слова перемешаны в случайном порядке. Это значит, что почти вся предсказуемость получена за счет достраивания слова по первым буквам.

[Teahan96] Teahan, W.J. Cleary, J.G. The entropy of English using PPM-based models. In: Data Compression Conference, 1996. DCC '96. Proceedings, p53--62.
The purpose of this paper is to show that the difference between the best machine models and human models is smaller than might be indicated by the previous results. This follows from a number of observations: firstly, the original human experiments used only 27 character English (letters plus space) against full 128 character ASCII text for most computer experiments; secondly, using large amounts of priming text substantially improves the PPM's performance; and thirdly, the PPM algorithm can be modified to perform better for English text. The result of this is a machine performance down to 1.46 bit per character. The problem of estimating the entropy of English is discussed. The importance of training text for PPM is demonstrated, showing that its performance can be improved by .adjusting. the alphabet used. The results based on these improvements are then given, with compression down to 1.46 bpc

PPM -- это Prediction by Partial Matching, статистические модели типа буквенных и словесных n-грамм. Аннотация на http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=488310, полный текст платный.

[GaspSkulVersibre] М.Л. Гаспаров, Т.В. Скулачева Ритм и синтаксис в свободном стихе. В кн.: Статьи о лингвистике стиха, М.: Языки славянской культуры, 2004. Стр. 170--201
[Стр. 172] Метр -- это такая последовательность организующих признаков стиха, которая делает предсказуемым очередное проявление каждого из них; понятно, что такая предсказуемость возможна лишь при однородности этих признаков.
[Заключение]
В "Александрийских песнях", на первых порах становления русского верлибра, верлибра, утрата метра и рифмы компенсируется средствани синтаксическими: имено они призваны поддрежать целостность стиха. Избегаются анжамбманы, строки более синтаксически замкнуты, чем в классической силлаботонике. Синтаксические структуры внутри строк в основном сохраняются те же, что и в классическом стихе. Отклонения от этого служат лишь тому, чтобы усилить синтаксическое единство строки, помешать ей распасться на части. В двухсловных строках этой опасности практически еще нет. В трехсловных она невелика, и для ее преодоления достаточно синтаксиса классического стиха. Четыркхсловный стих уже грозит распасться на два двусловия, и во избежание этого верлибр усиливает синтаксическую связь на середине строки. В пятисловном стихе эта угроза еще реальнее и для ее отстранения верлибр не только усиливает синтаксическую связь на традиционном месте цезуры, но и создает новую, отвлекающую, хотя и слабее проявленную синтаксическую цезуру, сдвинутую н аодно слово к концу.
[GaspPervoPere] М.Л. Гаспаров Первочтение и перечтение. В кн.: Избранные труды, т. 2, М.: Языки русской культуры, 1997. Стр. 460--467
[Стр. 466] Тынянов несколько раз касается вопроса о свободном стихе, верлибре. Он определяет его как стих, в котором каждая строка имеет "динамически-сукцессивную метрическую изготовку", но не имеет "динамически-симультанного метрического завершения", т.е. в котором после каждой строки вновь и вновь возникает ожидание, что следующая строка будет ей ритмически подобна, и каждый раз это ожидание обманывается. Спрашивается, сколько может длиться это безнадежное ожидание? Сейчас, как известно, свободный стих -- одна из самых дискуссионных вопросов русского (и не олько русского) стиховедения, и два противоположных ответа на этот вопрос зависят от установок на первочтение и перечтение. Один ответ (А_Л_Жовтис, О.А.Овчаренко): свободный стих -- это стих со свободной сменой мер повтора (в отличие от классического с постоянной сменой мер повтора -- стопой и пр.); это, по существу, повторение тыняновского определения, исходящего из неустанно напряженного ожидающего первочтения. Другой ответ (Ю.Б.Орлицкий, В.С.Баевский): свободный стих -- это стих вовсе без мер повтора, отличающийся от прозы только делением на строки, т.е. чисто тонический стих без равноударности и без рифмы; это ответ с точки зрения читателя, который устал ждать, отбросил всякую метрическую изготовку и исходит из спокойно-констатирующего перечтения.
[GaspPervoPere] М.Л. Гаспаров Антиномичность поэтики русского модернизма. В кн.: Избранные труды, т. 2, М.: Языки русской культуры, 1997. Стр. 434--455.
[Стр. 454] В принципе любое сочетание случайных строк и слов может быть так или иначе осмыслено; поэтому не мсключено, что некоторые стихотворения Д.Бурлюка (Ор. N 38: "Темный злоба головатый Серо глазое пила Утомленный родила Звезд желательное латы") или А.Крученых представляли собой именно такие упражнения на изобретательность читателя.
[OrlitskyArion] Ю. Орлицкий Русский верлибр: мифы и мнения. Арион, 1995, N3. http://magazines.russ.ru/arion/1995/3/monolog1.html
Немного истории и много высказываний поэтов о верлибре. Подчеркивается трудность верлибра, необходимость точности, "абсолютного слуха".
[Burns98] Gordon Burns Mysterious Music: Rhythm and Free Verse. Stanford University Press, 1998
[p. 10]: But when we get [...] into the various types of poetry known as"free verse", it is harder to make elegant generalizations [about the rhythm -- DM]. There's little agreement about what makes this verse metrical, or rhythmic, or what makes it poetry at all. [p. 11]: On the other hand, some postmodern critics, like Stanley Fish, argue that the distinction between prose and poetry as texts is specious, that there is no internal, textual differenct and that these two terms only denote two different ways of reading. Others — critics like Charles Hartman and linguistic anthropologists likee DllHymes and Joel Sherzer &mdahs; suggest that the division of language into lines is thedefining characteristic of poetry, and that the poet's manipulation of line division is the primary versificational device of free verse.
[...]
Poets who write free verse, however, though they may indeed believe that a poet can learn from porse models, may even recast parts of texts that were once prose as poetry, and certainly do devote some thought to line division, nevertheless usually want to insist that free verse is not the same thing as prose chopped up into lines, and that at least part of this difference is rhythmic or musical. [p.12] Poetry tends to be more compressed, and to have more regular alternation, than other forms of discourse. This is just as true of free verse as of traditional meters.
[KupriyanovVerlibr] Вячеслав Куприянов. Замкнутый круг свободного стиха. Междуннародый литературный журнал "Крещатик", вып. 34 (2006), http://kreschatik.nm.ru/34/30.htm
Острополемическая статья: верлибр -- не проза и не стихи, а третий вид.
В верлибре и стихах узыка речи веедт смысл, в верлибре и прозе смысловые качества ведут узыкальные, в стиховой и нестиховой речи обязателен вымысел (автор развлекает читателя), что не обязательно в верлибре ("Отче наш") не призван развлекать, верлибр Бурича "точен"). Так различаются между собою три жанра (или вида) художественной речи, дополняя друг друга.
[AndreevaBrodskijVerlibr] А. Андреева. Бродский и верлибр. Доклад на конференции "Поэтика и компаративистика 5" (май 2002 г.). Кафедра литературы Коломенского гос. пед. института. http://gosha-p.narod.ru/Poetica/A_Andreeva.htm
Со ссылкой на: Вайль П., Бродский И. Комментарии к стихотворениям // Вайль П. "Пересеченная местность". М., 1995
говоря о стихотворении "Сан-Пьетро" (1977), поэт пояснял: "Стихотворение написано верлибром, а когда пишешь верлибром, должен быть какой-то организующий принцип. Тут - двойчатки по концам строф: либо буквальные, либо психологические. Вот: "не терракота и охра впитывает в себя сырость, но сырость впитывает охру и терракоту". Или: "в пиджаке на голое тело, в туфлях на босу ногу". Или двойчатка в виде рифмы: "чугунная кобыла Виктора-Эммануила". Это знаю я, но больше никто не знает. И такого там много внутри..."
[SukhovejVerlibr] Дарья Суховей. Феномен верлибра-комментария в русской поэзии 2000-х годов. Опубликовано на сайте Александра Левина, http://www.levin.rinet.ru/FRIENDS/SUHOVEI/Articles/article1.html
Мы рассмотрели несколько верлибров, которые в разной степени и по разным основаниям можно считать комментариями; в них по-разному проявляет себя метатекст. К каждому стихотворению необходимо примерять свои подходы, и рассмотрение текста без учёта его смысла невозможно, потому что, по отказе от других способов организации стиха, смысл сообщённой в стихотворении информации занимает всё большее место в ряду средств стиховой организации, и именно метатекстовые сигналы указывают на формальные границы. Но, попадая в пространство стихотворного текста, метатекст перестаёт быть метатекстом как таковым - служебным средством стилистической организации обиходной речи, и обретает дополнительные свойства - уже как стилистический компонент речи поэтической.
[FishFork] Stanley Fish. What is stylistics and why are they saying such terrible things about it? in: Essays in Modern Stylistsics, ed. Donald C. Freeman, pp. 53--78.
Stylistics, in short, is an attempt to put criticism ona scientific basis. [...]

My interest is primarily in what is done with the data after they have been gathered. [...]

When a text is run through Halliday's machine, its parts are first disassembled, then labeled, and finally recombined into their original form. The procedure is a complicated one, and it requires a great many operations, but the critic who performs them has finally done nothing at all.

Halliday, however, is determined to do somehting, and what he is determined to do is confer a value on the formal distinctions his machine reads out. His text is William Golding's The Inheritors [...]

Here, of course, is where the sleight of hand begins. To label a verb 'active' is simply to locate it in a system of formal differences and relationships within a grammar; to call it 'dynamic' is to semanticize the lael and even, as we see when the description continues, to moralize it [...]
Halliday's interpretation precedes his gathering and evaluation of the data, and it, rather than any ability of the syntax to embody a conceptual orientation, is responsible for the way in which the data are read. [...]

Behind their theory, which is reflected in their foal which authorizes their procedures, is a desire and a fear: the desire to be relieved of the burden of interpretation by handing it over to an algorithm, and the fear of being left alone with the self2renewing and unquantifiable power of human signifying.[...]

they produce interpretations which are either circular -- mechanical reshufflings of the data -- or arbitrary -- readings of the data that are unconstrained by anything in their machinery.


Главное, что его интересует -- значение, смысл текста, а также ценности. Ясно, что интерпретацию автоматизировать невозможно, и даже не очень понятно, зачем было сломано столько копий.