Студопедия — Г. Москва. К вопросу истории машинного перевода
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Г. Москва. К вопросу истории машинного перевода






К вопросу истории машинного перевода

Проблема МП находится на стыке теоретической и прикладной лингвистики (в том числе структурной и статистической лингвистики), математической лингвистики, теории и практики программирования и автоматического программирования для вычислительных машин, информатики. Параллельно с МП развивалась автоматизация лингвистических исследований. Методы МП, разработанные для естественных языков, находят применение в задачах, связанных с искусственными языками (языки автоматического программирования, языки информационные).

МП, автоматический перевод, перевод текстов с одного языка на другой с помощью автоматических устройств. Различают два направления исследований по МП: 1) прикладное (промышленная реализация МП научно-технических текстов, автоматизация информационного дела и т.п.), 2) теоретическое (моделирование речевой деятельности людей как один из методов её исследования; разработка математических формализмов для лингвистических описаний; поиск алгоритмов переработки языковых объектов; исследование соотношения между человеческих мышлением и машинами и т.п.).

Система МП обычно состоит из лингвистического описания входного и выходного языков (то есть автоматических словарей и грамматик формальных всех уровней) и алгоритма (то есть инструкции по использованию этих словарей и грамматик, ориентированной только на их форму), на основе которого выполняется сам перевод. Полный процесс МП состоит из следующих основных этапов: 1) анализ текста на входном языке (поиск слов в словаре, морфологический и синтаксический анализ – моделируется понимание текста); 2) преобразование (переход от структуры текста на входном языке к структуре текста на выходном языке); 3) синтез текста на выходном языке (синтаксическое и морфологическое оформление текста – моделируется построение текста). В реальных системах МП все эти этапы могут тесно переплетаться, а некоторые из них отсутствовать.

Алгоритм МП обычно выполняется универсальной цифровой вычислительной машиной. Полученный в результате МП текст может редактироваться человеком – «постредактором», который устраняет ошибки и неоднозначности в переводе. Вот как выглядит в общих чертах пример перевода с английского языка на русский предложения He was seen at 6 o’clock по указанным этапам. На этапе анализа устанавливается, что he – подлежащее, was seen – сказуемое (глагол see в Past Indefinite изъявительного наклонения пассивного залога), а at 6 o’clock – обстоятельство времени. На этапе преобразования английским словам и словосочетаниям ставятся в соответствие русские переводы: he – «он», see – «видеть», 6 o’clock – «шесть часов»; поскольку глагол «видеть» не употребляется в страдательном залоге, английская пассивная конструкция преобразуется в русскую неопределенно-личную конструкцию: «он» становится прямым дополнением («его») к сказуемому – глаголу «видеть» несовершенного вида изъявительного наклонения действительного залога в прошедшем времени и множественном числе. На этапе синтеза вырабатываются падежные и предложные показатели синтаксических связей между словами, в частности предлог at получает перевод «в + винительный падеж» как показатель обстоятельства времени, «он» как прямое дополнение получает признак «винительный падеж» и т.п. Затем определяется порядок слов, после чего образуются нужные формы слов, так что получается «Его видели в 6 часов». Если в исходном предложении вместо he было бы местоимение it, то при переводе (без учёта предыдущих предложений) возникла бы неоднозначность: «Его видели в 6 часов» (если it – это, например, rocket – «самолёт»), «Её видели в 6 часов» (если it – это, например, rocket – «ракета»), «Это видели в 6 часов» (если it – некоторое событие или явление). Человек-постредактор может выбрать из этих вариантов один – правильный.

Морфологические и многие синтаксические проблемы МП в рамках изолированного предложения в основном решены. Главные трудности при создании полностью автоматизированных систем высококачественного перевода связаны с недостаточным уровнем разработанности семантической теории языков, с помощью которой можно было бы точно сформулировать правила обработки смысла и значений предложений языка.

МП, выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Современный машинный, или автоматический перевод осуществляется с помощью человека: пред-редактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интер-редактора, который участвует в процессе перевода, или пост-редактора, который исправляет ошибки и недочеты в переведенном машиной тексте.

Для осуществления МП в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Система МП включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы МП, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе МП:

1.На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.

2.Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3.Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, при том что в оригинале может быть и единственное число).

4.Синтез выходных словоформ и предложения в целом на выходном языке.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Действующие системы МП ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество МП зависим от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

Впервые идея МП была высказана французским изобретателем Ж. Арцруни и независимо советским изобретателем П.П. Смирновым-Троянским в 1933. С появлением в 40-50-х годах электронных вычислительных машин работы по МП начались в США и СССР. В 1954 в Джорджтаунском университете (Вашингтон, США) был проведён первый эксперимент по МП с русского языка на английский. В СССР первые опыты МП были проведены в 1955-56 (англо-русский и французско-русский МП). В дальнейшем исследования по МП развернулись во многих других странах. Главные входные языки – английский, русский, французский; выходные – те же, а также немецкий, японский, чешский, вьетнамский и некоторые другие. Начальный период работ над проблемами МП (примерно до 1961) характеризовался повышенным вниманием к техническим и программистским вопросам; ориентацией на конкретные пары языков (так называемый бинарный перевод), разработкой лишь морфологических и синтаксических правил перевода; формулировкой правил перевода сразу в виде алгоритмических предписаний; выдачей, как правило, только одного варианта перевода для каждого предложения. В дальнейшем при разработке МП стали существенно использоваться результаты современной структурной и математической лингвистики. Основное внимание стало обращаться на разработку и совершенствование общих схем МП, пригодных для самых различных языков. Правила обработки текста для конкретных языков стали формулироваться большей частью не как алгоритмического предписания, а как условия, налагаемые на правильный результат обработки. Процесс МП реализуется алгоритмом достаточно универсального типа, который выявляет и осуществляет все возможные способы обработки текста на данном этапе, приводящие к допустимым (по указанным правилам) результатам (многовариантная обработка); на последующих этапах лишние и неправильные варианты отбрасываются (метод фильтров).

Мысль использовать ЭВМ для перевода была высказана в 1946 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация МП (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

MARK (в Департаменте иностранной техники ВВС США);

GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия.

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т.п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

 

Литература

1. Ахманова О.С. Словарь лингвистических терминов. 2-е изд. – М., 1969.

2. Блумфилд Л. Язык. Пер. с англ. – М., 1968.

3. Будагов Р.А. Введение в науку о языке. 3-е изд. - М., 2003.

4. Гак В.Г. Языковые преобразования. – М., 1998.

5. Гумбольдт В. Избранные труды по языкознанию. – М., 1984.

6. Дурново Н.Н. Грамматический словарь (грамматические и лингвистические термины). – М., Пг., 1924.

7. Есперсен О. Философия грамматики. Пер. с англ. – М., 1958.

8. Журинский А.Н. Лингвистика в задачах. – М., 1995.

9. Лайонз Дж. Введение в теоретическую лингвистику. Пер. с англ. М., 1978.

10. Лингвистические задачи. – М., 1983.

11. Марузо Ж. Словарь лингвистических терминов. М., 1960.

12. Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М., 1978.

13. Пауль Г. Принципы истории языка. Пер. с нем. – М., 1960.

14. Сепир Э. Язык. / Э. Сепир. – М. - Л., 1934. - Переиздано в кн.: Э. Сепир Избранные труды по языкознанию и культурологии. – М.: 1993.

15. Соссюр Ф. де. Труды по языкознанию. – М., 1977.

16. Трубецкой Н.С. Избранные труды по филологии. – М., 1987.

17. Хэмп Э. Словарь американской лингвистической терминологии. – М., 1964.

18. Шайкевич А.Я. Введение в лингвистику. – М., 2005.

19. Языковедение. Введение в науку о языках. – М., 2003.

 

 

Ганюшина М.А.







Дата добавления: 2015-04-16; просмотров: 1989. Нарушение авторских прав; Мы поможем в написании вашей работы!



Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Трамадол (Маброн, Плазадол, Трамал, Трамалин) Групповая принадлежность · Наркотический анальгетик со смешанным механизмом действия, агонист опиоидных рецепторов...

Мелоксикам (Мовалис) Групповая принадлежность · Нестероидное противовоспалительное средство, преимущественно селективный обратимый ингибитор циклооксигеназы (ЦОГ-2)...

Менадиона натрия бисульфит (Викасол) Групповая принадлежность •Синтетический аналог витамина K, жирорастворимый, коагулянт...

Весы настольные циферблатные Весы настольные циферблатные РН-10Ц13 (рис.3.1) выпускаются с наибольшими пределами взвешивания 2...

Хронометражно-табличная методика определения суточного расхода энергии студента Цель: познакомиться с хронометражно-табличным методом опреде­ления суточного расхода энергии...

ОЧАГОВЫЕ ТЕНИ В ЛЕГКОМ Очаговыми легочными инфильтратами проявляют себя различные по этиологии заболевания, в основе которых лежит бронхо-нодулярный процесс, который при рентгенологическом исследовании дает очагового характера тень, размерами не более 1 см в диаметре...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия