Машинный перевод
Машинный перевод — это автоматический перевод текстов с одного языка на другой (например, пословный перевод научно-технической информации, патентов, документов, инструкций, перевод программ ЭВМ с алгоритмического языка на машинный язык), а также научное направление, охватывающее круг проблем, которые возникают при автоматизации перевода. Система машинного перевода обычно содержит лингвистические описания входного и выходного языков, т.е. языков исходного текста и текста, полученного в результате перевода, и алгоритм, на основе которого выполняется данный перевод. Машинный перевод как самостоятельное научное направление сформировался с 50-х гг. 20-го века на стыке таких наук, как математика, кибернетика, лингвистика и программирование. Первые системы машинного перевода были двуязычными, перевод шел с одного определенного ("иностранного") языка на другой определенный ("родной") язык. В основном так переводились научно-технические статьи и патенты. Позже появились системы машинного перевода с "родного" языка на "иностранный", применяемые для перевода рекламы за рубежом и оформления документации, сопровождающей экспортируемые изделия. В 80-х гг. получили распространение многоязычные системы, в которых чаще встречается комбинация: один входной язык — несколько выходных, реже — несколько входных и один выходной или группа языков с переводом с любого на любой. Существующие системы машинного перевода ориентированы преимущественно на работу с письменными текстами. Машинный перевод устной речи пока не получил распространения, главным образом, потому, что в этом случае система машинного перевода помимо собственно перевода с одного языка на другой должна уметь распознавать переводимую устную речь (что само по себе непростая проблема) и воспроизводить ее (при помощи синтезатора речи), но уже на другом языке. Развитые системы машинного перевода работают по многоэтажной схеме, состоящей из двух главных частей: анализа переводимого текста и синтеза перевода. Перевод осуществляется обычно пофразно. Этапы анализа таковы: ввод фразы в ЭВМ; лексический анализ (на уровне слов и частей речи); поверхностный синтаксический анализ (на уровне членов предложения); глубинный синтаксический анализ (учитывающий смысловые связи между словами). В результате анализа возникает внутреннее представление фразы, отражающее ее смысл. Начальный этап синтеза обеспечивает оснащение внутреннего представления фразы словами выходного языка. На последующих этапах осуществляется расстановка слов в нужном порядке (с последующим извлечением из словаря их внешней лексической формы) и формирование окончательного вида переведенной фразы. Неавтоматизированный перевод определяется схемой: входной (переводимый) текст — переводчик — сырой перевод — редактор — выходной (переведенный) текст. По аналогии с этой схемой строились и первые системы машинного перевода: входной текст — ввод в ЭВМ — анализ/синтез промежуточного текста — редактор — выходной текст. Поскольку ныне многие редакторы работают за пультом дисплея, на экране которого отображается переводимый текст, общая схема выглядит так: входной текст — ввод в ЭВМ — (анализ/синтез промежуточного текста) — (редактор + дисплей) — выходной текст. При переводе со своего языка на чужой используется также перевод с предредактированием, когда редактор до ввода в ЭВМ обрабатывает текст, убирает трудно переводимые конструкции или делает разметку. Текст редактируют и после перевода. В первых системах машинного перевода человек не вмешивался в работу системы. Но затем появились системы с интерредактированием, когда в процессе перевода человек и переводческая система взаимодействуют. Система спрашивает человека в трудных для нее случаях. Такой перевод не является машинным в полном смысле этого слова, о нем говорят как о человеко-машинном или частично автоматизированном переводе. Здесь возникают многие проблемы диалогового характера. Система перевода требует три уровня обеспечения: лингвистический, математико-алгоритмический и программный. Иногда к ним добавляются информационный и логический уровни обеспечения. Лингвистическое обеспечение — это словари и грамматики для языков, участвующих в переводе. Математико-алгоритмическое обеспечение включает в себя формальные модели для представления данных и алгоритмы переработки данных. Программное обеспечение — это программы, реализующие алгоритмы перевода, и разного рода обслуживающие программы. Информационное обеспечение — это база знаний о некоторой предметной области, к которой относятся переводимые тексты. Логическое обеспечение — это правила логического вывода, позволяющие использовать знания о предметной области при анализе и синтезе текста. Действия переводчика в самых общих чертах можно описать так: он читает очередную фразу текста, уясняет себе ее смысл и передает этот смысл на другом языке, сохраняя определенные структурные особенности текста (иначе это будет пересказ, а не перевод). При этом он использует лингвистические данные обоих языков и сведения из той области знания, к которой относится текст (базу знаний), а также по мере перевода сведения о предшествующих частях текста. Понимание переводимой части текста (анализ текста) — это переход от его обычной словесной записи к некоторому внутреннему представлению в сознании человека. Синтез переведенного текста — переход от внутреннего представления к словесному выражению на другом языке. Первые системы машинного перевода производили переход от языка к языку без проникновения в смысл предложения. Для переводимого предложения делался только его морфологический анализ (МАн): для каждой словоформы устанавливалось, какой формой, от какого слова она является. Это очень важно, так как, например, словоформа "стекло" может оказаться существительным "стекло" или формой глагола "стекать". Результат МАн называют морфологическим представлением предложения. В ранних переводческих системах оно непосредственно перерабатывалось в морфологическое представление выходного предложения. Такие системы машинного перевода называют системами первого поколения или прямого перевода (П–системами). Сложнее устроены так называемые Т–системы (от англ. transfer — специального вида преобразование) — системы второго поколения. В них после МАн следует синтаксический анализ (САн), при котором строится синтаксическая структура предложения, обычно имеющая вид размеченного дерева. Узлы дерева — это либо словоформы (в дереве зависимостей), либо как словоформы, так и группы словоформ (в дереве составляющих). Ветви дерева соответствуют синтаксическим связям). Процесс перевода в Т –системах складывается из трех основных фаз: анализа (МАн + САн), трансфера (преобразование дерева входной фразы в дерево выходной, т.е. реализующее переход к другому языку), синтеза, который делится на синтаксический синтез — ССинт (переход от синтаксического дерева фразы к цепочке морфологический представлений словоформ) и морфологический синтез — МСинт — создание требуемых форм слов из основ и аффиксов. Известен еще третий тип систем — И–системы (от " интерлинговые"). Это системы, которые ориентированы на получение в результате анализа некоторого интерлингового (не зависящего от языка) представления. Иными словами, в них сделана попытка приблизиться к тому, как переводит человек. В наши дни (пока) наиболее распространены Т –системы. Из действующих систем машинного перевода долго была самой распространенной SYSTRAN (США) с версиями для 15 пар языков. Контрольные вопросы по разделу 2 1. Что относится к языковым средствам ИС? Естественные и искусственные языки. 2. Каковы базовые функции языка? 3. Классификация языков, классы, группы, признаки, происхождение. 4. Основные понятия семиотики – семиотика, синтактика, семантика, знак, семантический треугольник. 5. Что такое прагматика, субъект и адресат речи, отношения между участниками, ситуации общения. 6. Что такое онтология, логические формы, свойства и отношения вещей. 7. Что такое классификация, признаки, классификатор, тезаурус. Их назначение. 8. Каковы основные направления компьютерной лингвистики, анализ текстов на естественном языке. 9. Этапы машинного (автоматического) анализа текста. 10. Синтез текста на естественном языке. Глубинные падежи Гилмора. 11. Понимание и оживление текста. 12. Способы математической лингвистики для описания синтаксической структуры языка. 13. Закон проективности при построении предложений. Автоматическая обработка текста. Автоматический машинный перевод. 14. машинный перевод. Обеспечение машинного перевода – лингвистическое, математико-алгоритмическое, программное, информационное логическое. 15. Системы прямого, трансфёрного и интерлингового машинного перевода
|