Дистрибутивный анализ

Материал из Юнциклопедии
(перенаправлено с «ДИСТРИБУТИВНЫЙ АНАЛИЗ»)
Перейти к: навигация, поиск

Так кончается небольшой набор знаков на кусочке старого пергамента, случайно попавшегося на глаза Леграну, герою рассказа Эдгара По «Золотой жук»:

528806* 81 (#9;48;(88;4(# ?34;48)4#; 161; :188;# ?

Большой любитель головоломок, Легран с уверенностью берется за раскрытие тайны. Прежде всего, он подсчитывает частоту каждого значка. Самым частым оказывается 8. Легран уже знает, что текст написан пиратом Кидом и написан он по-английски, а в английских текстах чаще всего попадается буква е. Может быть, цифра 8 передает букву е? Эта догадка подтверждается, когда в тексте мы неоднократно находим комбинацию двух восьмерок, соответствующую обычному английскому буквосочетанию ее. Следующий шаг — поиск самого частого английского слова — определенного артикля the. В нашей строке два раза встречается последовательность трех знаков — «; 48», вероятно, «;» передает t, а 4 — h. Подобные рассуждения приводят Леграна к полной дешифровке текста (приводим строку уже развитой на слова): a bee line from the tree through the shot fifty feet out — «прямая от дерева через выстрел 50 футов наружу» Анализируя последовательность отдельных значков, их взаиморасположение, Легран опирается на дистрибутивные критерии (как сказали бы современные лингвисты).

Что же такое дистрибутивные критерии? Что такое дистрибутивный анализ?

Любые элементы языка, употребленные в речи, появляются друг за другом Лингвист изучает как собственные свойства языкового элемента, так и возможности его сочетаемости с другими элементами в речи, иными словами, дистрибутивные свойства элемента Мы можем, например, исследовать особенности артикуляции и акустические свойства русского звука [в], но одновременно и анализировать дистрибутивные свойства этого звука При этом мы установим, что он может следовать за любыми гласными и согласными, но не может предшествовать глухим согласным, не может появляться в конце высказывания (перед паузой). Одной фразой мы охарактеризовали все возможные окружения звука [в]: сумма всех окружений элемента называется его дистрибуцией Имея текст, мы можем изучать дистрибутивные свойства элемента, даже не зная толком его собственных свойств — не зная, как точно произносится звук, обозначаемый такой-то буквой, не зная точно, что означает такая-то последовательность букв. Поэтому опора на дистрибуцию выгодна в тех случаях, когда наши предварительные знания языка слишком недостаточны.

Идея дистрибутивного анализа как особого метода лингвистики широко использовалась американскими языковедами 1930—1940-х гг. (Л. Блумфилдом и его последователями: Б. Блоком, Ч. Хоккетом, 3. Харрисом и др.), которые стремились к выработке твердых объективных методов описания языка. Больше всего боялись они субъективности исследователя, как личной, так и коллективной, навязанной старой традицией. В практике работы над неописанными языками эти лингвисты старались больше полагаться на дистрибутивные критерии. Получая данные от информанта (носителя языка), они стремились как можно реже спрашивать его о смысле сказанного.

При описании языка дескриптивист сначала постарается зафиксировать как можно больше высказываний информантов (связных текстов — монологов и диалогов, отдельных реплик, сопровождающих бытовые ситуации). Далее лингвист с помощью транскрипционных значков передаст звучание на бумаге Вот здесь и вступает в ход дистрибутивный анализ Первая задача — переписать наши тексты в виде последовательности фонем (а не просто звуков) Решение задачи заключается в анализе дистрибуции звуков Сравнивая дистрибу цию двух звуков, мы должны установить, представляют ли они одну фонему или относятся к разным фонемам Три правила помогут нам в этой задаче

1. Если два звука имеют одинаковую дистрибуцию, но не различают смысла высказываний, они являются свободными вариантами одной фонемы Так, русские звуки [г] и [у] встречаются практически в одних и тех же окружениях (Второй звук, звонкий, щелевой, заднеязычный, характерен для юга России, встречается он и в литературном языке, например в словах бога, ага). Поскольку смысл высказываний не меняется, произнесем ли мы [дуга] или [дуγа], два звука считаются представителями одной фонемы.

2. Если два звука могут встречаться в одном и том же окружении и при этом различают смысл высказываний, они являются представителями разных фонем. (Это — общее правило фонологии, лишь записанное в терминах дистрибутивного анализа.) Раз в русском языке встречаются пары рук и лук, мор и мол, болт и борт, значит, этот язык обладает двумя разными фонемами — <л> и <р>.

3. Если два звука никогда не встречаются в одном окружении (случай «дополнительной дистрибуции»), они принадлежат одной фонеме; они — аллофоны (представители одной фонемы). В литературном корейском языке звуки [л] и [р] иллюстрируют это правило. Звук [р] встречается между гласными и перед звуком [h],звук [л] появляется во всех остальных случаях. В положении перед гласным конечный согласный корня звучит как [р], если же гласного далее нет, то корень кончается звуком [л]. В корейском языке тол («камень»), соединяясь с умул («колодец»), дает сложное слово торумул («колодец, выложенный камнем»). Аналогично кул («пещера») + умул = курумул («глубокий колодец»); пол («щека») + умул = порумул («ямочка на щеке»). Корейские [л] и [р] не встречаются в одном окружении, следовательно, они — аллофоны одной и той же фонемы, а не разные фонемы.

Точно такие же правила применяются при выделении морфем. И здесь кандидаты в морфемы (последовательности фонем) проверяются на сходство дистрибуции. Результат может быть трояким: 1) два кандидата — свободные варианты одной морфемы (калош-а и галош-а); 2) кандидаты — разные морфемы (би- в бить и пи- в пить); 3) они — алломорфы одной морфемы ([би] и [6j] в словах бить и бью: первый встречается перед согласными, второй — перед гласными).

Вслед за выделением подлинных лингвистических единиц (например, фонем или морфем) наступает черед объединения их в дистрибутивные классы. Теперь уже тремя правилами не обойтись. Общий принцип таков: единицы языка, сходные в своей дистрибуции, объединяются в один дистрибутивный класс. Так, английские существительные (boy, book, dog, street, war, peace и т. п.) выделяются в особый класс не потому, что они могут обозначать предмет (это был бы семантический принцип, к тому же приложимый лишь к части существительных), а потому, что в тексте им могут предшествовать слова из класса детерминативов: a, the, my, this, some и т. п., сами же они предшествуют словам из класса глаголов (is, has, looks, сап и т. д.).