Г. Москва. К вопросу истории машинного перевода
К вопросу истории машинного перевода Проблема МП находится на стыке теоретической и прикладной лингвистики (в том числе структурной и статистической лингвистики), математической лингвистики, теории и практики программирования и автоматического программирования для вычислительных машин, информатики. Параллельно с МП развивалась автоматизация лингвистических исследований. Методы МП, разработанные для естественных языков, находят применение в задачах, связанных с искусственными языками (языки автоматического программирования, языки информационные). МП, автоматический перевод, перевод текстов с одного языка на другой с помощью автоматических устройств. Различают два направления исследований по МП: 1) прикладное (промышленная реализация МП научно-технических текстов, автоматизация информационного дела и т.п.), 2) теоретическое (моделирование речевой деятельности людей как один из методов её исследования; разработка математических формализмов для лингвистических описаний; поиск алгоритмов переработки языковых объектов; исследование соотношения между человеческих мышлением и машинами и т.п.). Система МП обычно состоит из лингвистического описания входного и выходного языков (то есть автоматических словарей и грамматик формальных всех уровней) и алгоритма (то есть инструкции по использованию этих словарей и грамматик, ориентированной только на их форму), на основе которого выполняется сам перевод. Полный процесс МП состоит из следующих основных этапов: 1) анализ текста на входном языке (поиск слов в словаре, морфологический и синтаксический анализ – моделируется понимание текста); 2) преобразование (переход от структуры текста на входном языке к структуре текста на выходном языке); 3) синтез текста на выходном языке (синтаксическое и морфологическое оформление текста – моделируется построение текста). В реальных системах МП все эти этапы могут тесно переплетаться, а некоторые из них отсутствовать. Алгоритм МП обычно выполняется универсальной цифровой вычислительной машиной. Полученный в результате МП текст может редактироваться человеком – «постредактором», который устраняет ошибки и неоднозначности в переводе. Вот как выглядит в общих чертах пример перевода с английского языка на русский предложения He was seen at 6 o’clock по указанным этапам. На этапе анализа устанавливается, что he – подлежащее, was seen – сказуемое (глагол see в Past Indefinite изъявительного наклонения пассивного залога), а at 6 o’clock – обстоятельство времени. На этапе преобразования английским словам и словосочетаниям ставятся в соответствие русские переводы: he – «он», see – «видеть», 6 o’clock – «шесть часов»; поскольку глагол «видеть» не употребляется в страдательном залоге, английская пассивная конструкция преобразуется в русскую неопределенно-личную конструкцию: «он» становится прямым дополнением («его») к сказуемому – глаголу «видеть» несовершенного вида изъявительного наклонения действительного залога в прошедшем времени и множественном числе. На этапе синтеза вырабатываются падежные и предложные показатели синтаксических связей между словами, в частности предлог at получает перевод «в + винительный падеж» как показатель обстоятельства времени, «он» как прямое дополнение получает признак «винительный падеж» и т.п. Затем определяется порядок слов, после чего образуются нужные формы слов, так что получается «Его видели в 6 часов». Если в исходном предложении вместо he было бы местоимение it, то при переводе (без учёта предыдущих предложений) возникла бы неоднозначность: «Его видели в 6 часов» (если it – это, например, rocket – «самолёт»), «Её видели в 6 часов» (если it – это, например, rocket – «ракета»), «Это видели в 6 часов» (если it – некоторое событие или явление). Человек-постредактор может выбрать из этих вариантов один – правильный. Морфологические и многие синтаксические проблемы МП в рамках изолированного предложения в основном решены. Главные трудности при создании полностью автоматизированных систем высококачественного перевода связаны с недостаточным уровнем разработанности семантической теории языков, с помощью которой можно было бы точно сформулировать правила обработки смысла и значений предложений языка. МП, выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Современный машинный, или автоматический перевод осуществляется с помощью человека: пред-редактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интер-редактора, который участвует в процессе перевода, или пост-редактора, который исправляет ошибки и недочеты в переведенном машиной тексте. Для осуществления МП в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Система МП включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы МП, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе МП: 1.На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы. 2.Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения. 3.Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, при том что в оригинале может быть и единственное число). 4.Синтез выходных словоформ и предложения в целом на выходном языке. В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках). Действующие системы МП ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество МП зависим от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме. Впервые идея МП была высказана французским изобретателем Ж. Арцруни и независимо советским изобретателем П.П. Смирновым-Троянским в 1933. С появлением в 40-50-х годах электронных вычислительных машин работы по МП начались в США и СССР. В 1954 в Джорджтаунском университете (Вашингтон, США) был проведён первый эксперимент по МП с русского языка на английский. В СССР первые опыты МП были проведены в 1955-56 (англо-русский и французско-русский МП). В дальнейшем исследования по МП развернулись во многих других странах. Главные входные языки – английский, русский, французский; выходные – те же, а также немецкий, японский, чешский, вьетнамский и некоторые другие. Начальный период работ над проблемами МП (примерно до 1961) характеризовался повышенным вниманием к техническим и программистским вопросам; ориентацией на конкретные пары языков (так называемый бинарный перевод), разработкой лишь морфологических и синтаксических правил перевода; формулировкой правил перевода сразу в виде алгоритмических предписаний; выдачей, как правило, только одного варианта перевода для каждого предложения. В дальнейшем при разработке МП стали существенно использоваться результаты современной структурной и математической лингвистики. Основное внимание стало обращаться на разработку и совершенствование общих схем МП, пригодных для самых различных языков. Правила обработки текста для конкретных языков стали формулироваться большей частью не как алгоритмического предписания, а как условия, налагаемые на правильный результат обработки. Процесс МП реализуется алгоритмом достаточно универсального типа, который выявляет и осуществляет все возможные способы обработки текста на данном этапе, приводящие к допустимым (по указанным правилам) результатам (многовариантная обработка); на последующих этапах лишние и неправильные варианты отбрасываются (метод фильтров). Мысль использовать ЭВМ для перевода была высказана в 1946 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация МП (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР. К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода: MARK (в Департаменте иностранной техники ВВС США); GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия. Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике. Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т.п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
Литература 1. Ахманова О.С. Словарь лингвистических терминов. 2-е изд. – М., 1969. 2. Блумфилд Л. Язык. Пер. с англ. – М., 1968. 3. Будагов Р.А. Введение в науку о языке. 3-е изд. - М., 2003. 4. Гак В.Г. Языковые преобразования. – М., 1998. 5. Гумбольдт В. Избранные труды по языкознанию. – М., 1984. 6. Дурново Н.Н. Грамматический словарь (грамматические и лингвистические термины). – М., Пг., 1924. 7. Есперсен О. Философия грамматики. Пер. с англ. – М., 1958. 8. Журинский А.Н. Лингвистика в задачах. – М., 1995. 9. Лайонз Дж. Введение в теоретическую лингвистику. Пер. с англ. М., 1978. 10. Лингвистические задачи. – М., 1983. 11. Марузо Ж. Словарь лингвистических терминов. М., 1960. 12. Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М., 1978. 13. Пауль Г. Принципы истории языка. Пер. с нем. – М., 1960. 14. Сепир Э. Язык. / Э. Сепир. – М. - Л., 1934. - Переиздано в кн.: Э. Сепир Избранные труды по языкознанию и культурологии. – М.: 1993. 15. Соссюр Ф. де. Труды по языкознанию. – М., 1977. 16. Трубецкой Н.С. Избранные труды по филологии. – М., 1987. 17. Хэмп Э. Словарь американской лингвистической терминологии. – М., 1964. 18. Шайкевич А.Я. Введение в лингвистику. – М., 2005. 19. Языковедение. Введение в науку о языках. – М., 2003.
Ганюшина М.А.
|