ПЕРЕВОД АВТОМАТИЧЕСКИЙ

Материал из Юнциклопедии
Перейти к: навигация, поиск

Впервые идея машинного перевода была выска зана в 1933 г советским инженером П П Тро янским Однако прошло более 20 лет, прежде чем был осуществлен эксперимент по переводу с помощью ЭВМ это произошло в 1954 г в Джоржтаунском университете (США), где машина перевела несколько фраз с русского языка на английский Этот год и считается началом работ в области машинного перевода (позже его стали называть также автоматическим).

Лингвисты и математики, взявшиеся за эту работу, прежде всего задались вопросом что значит научить машину переводить с одного языка на другой' Ведь переводчик-человек, переводя текст, скажем, с английского языка на русский, использует свое знание этих языков умеет выбирать слова с нужными значениями, строить из них предложения, может отличить точный перевод от неточного или неправильного Кроме того, он обращается и к неязыковым знаниям: например, о той области науки и техники, к которой относится текст, о жизни той страны, которой принадлежит язык, о ее культуре и т. п.

Очевидно, что всему этому машину научить невозможно. Но, может быть, ей доступно понимание хотя бы только языка — его словаря и грамматики?

И словари, и грамматики разных языков существуют. Однако оказалось, что они не пригодны для непосредственного ввода в ЭВМ: они описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок).

Как только начали появляться формальные описания различных областей языка — прежде всего морфологии и синтаксиса, — наметился прогресс и в разработке систем автоматического перевода.

Правда, первые системы были очень несовершенны. Они умели делать лишь грубый перевод, без детального анализа грамматических связей слов в предложении. Конечно, и подобный перевод — большое подспорье для человека, не знакомого с иностранными языками, но лишь в простых случаях. А случаев непростых в языке гораздо больше. Поэтому необходим автоматический перевод, дающий грамматически правильную фразу, в которой слова связаны друг с другом синтаксически (как в обычной речи).

Синтаксический анализ, которому надо научить машину, можно сравнить с грамматическим разбором предложения, который делают на уроках русского языка в школе. При таком разборе ученик находит члены предложения, определяет, какие слова зависят от других, как выражается эта зависимость в облике слов (например, в окончаниях).

В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций — и грамматического разбора, и обращения к смыслу слов — задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штеко будланула бокра и кудрячит бокрёнка.

Бессмысленная фраза? Как будто да: в русском языке нет слов, из которых она состоит (кроме союза и). И все же в какой-то степени мы ее понимаем: «куздра» — это существительное (мы даже можем предположить, что оно обозначает какое-то животное), «глокая» — определение к нему, «будланула» — глагол-сказуемое (похожий на толканула, боднула), «штеко» — скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» — это прямое дополнение («будланула» кого? — «бокра») и т. д.

Смотрите: не зная ни одного слова, мы смогли не только грамматически разобрать фразу Щербы, но и уловить в ней некоторый смысл.

Синтаксический анализ, который осуществляет машина,— это грамматический разбор предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах.

В результате синтаксического анализа возникает синтаксическая структура. Она изображается в виде так называемого дерева зависимостей. «Корнем» такого дерева является сказуемое, а «ветвями» — синтаксические отношения его с зависимыми словами (см. Математика и язык). Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.

Теперь полученную синтаксическую структуру необходимо преобразовать в структуру предложения того языка, на который осуществляется перевод.

На первый взгляд кажется, что такое преобразование сделать очень просто: заменить русские слова, стоящие в «узлах» дерева, их переводами (скажем, английскими или французскими эквивалентами). Однако синтаксис каждого языка устроен на свой лад: то, что в русском предложении — подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом И т. д.

Так, при переводе русской фразы У меня была интересная книга на английский язык глагол быть надо перевести глаголом to have — «иметь», сочетание у меня — преобразовать в подлежащее I («я»), а слово книга, которое в русском языке — подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»).

Выходит, что преобразование синтаксических структур — это отдельная и совсем не простая операция, которой необходимо научить машину. Для этого в машинную память, помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

Кроме грамматических правил в ЭВМ «вкладываются» и словари, которые содержат разнообразные сведения — о значении слова, его грамматических характеристиках, о сочетаемости с другими словами и т. п.

Системы автоматического перевода, содержащие перечисленные компоненты, либо уже существуют и действуют (правда, экспериментально, не в промышленных масштабах), либо находятся в стадии разработки. Это, например, системы французско-русского перевода, созданные в Институте прикладной математики АН СССР и в московском институте «Информэлектро», системы англо-французского, русско-французского и франко-английского перевода, разработанные в Гренобльском (Франция) и Монреальском (Канада) университетах. Исследования в области автоматического перевода и работа по созданию действующих систем продолжаются: совершенствуются старые системы, разрабатываются новые, в которых используется более богатая информация о языке. Все эти системы ориентированы на перевод научно-технических текстов.