Синтез текстов на естественном языке
Синтез – это объединение слов в предложения, предложений в текст по заданной на этапе анализа прагматической структуре. Задача синтеза может рассматриваться как обратная по отношению к анализу. Если заданы некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру текста. Ее надо декомпозировать в прагматические структуры отдельных предложений и для каждого предложения пройти все этапы анализа в обратном направлении. Сегодня здесь еще масса нерешенных проблем. Неизвестно, как генерировать прагматическую структуру текста из тех целей, которые стимулируют создание текста. Непонятно, как эту структуру разбить на прагматические структуры предложений и как от этих частных прагматических структур перейти к более глубинным семантическим структурам. Более известны методы дальнейшего продвижения по пути генерации текста. Один из возможных путей состоит в использовании актантов действий[8]. С каждым действием связан некоторый набор сопутствующих ему объектов и характеристик. Они, как правило, совпадают с глубинными падежами Филмора. Если, например, мы имеем дело с действием "идти", то с ним тесно связаны субъект, совершающий это действие, пункты начала и конца движения, цель движения и т.п. Это позволяет связать с глаголом "идти" некоторую структуру с набором пустых пока мест (так называемых слотов): Фрейм
Заглавными буквами в этой структуре (так называемом фрейме) обозначены некоторые имена. Первое имя конкретизируется глаголом «идти», а остальные имена пока остаются незаполненными. Эти остальные имена и определяют актанты глагола "идти". Примером заполнения может служить структура: Фрейм
Ей соответствует фраза: "Петр идет за молоком". Наличие актантных структур действий позволяет представить процесс синтеза текстов в виде ряда следующих друг за другом шагов: 1) На первом шаге генерируется нужная последовательность глаголов-действий, напр., идти, любить, кушать, читать и т.п. 2) На следующем шаге заполняются их актантные структуры (подлежащее, обстоятельства места, времени и т.п.), что приводит к появлению глубинной семантической структуры отдельных предложений – "ехали медведи на велосипеде…". 3) Затем эти структуры связываются с учетом общих действующих субъектов и используемых объектов, а также иных связывающих параметров в единый текст. 4) Последний шаг — образование синтаксически правильных конструкций в предложениях по правилам языка – приёмника — в настоящее время не представляет труда, так как теоретически изучен почти досконально. Таким образом, работает, например, автоматическая система создания текстов волшебных сказок TALE (сказка), созданная в начале 70-х гг. На первом шаге она выдает тексты примерно такого вида: "Жил-был X. Не было у X желаемого Y. Стал просить X Бога. Бог обещал. Появился Y. Вырос Y. Ушел раз X и не велел Y делать Z. Вернулся X – Y-ка нет. Понял X, что Y сделал Z. Пошел X искать Y...". В памяти системы TALE хранятся данные для заполнения актантов, а одинаковые переменные показывают, что на эти места всюду надо поставить одни и те же заполнители. Так возникает текст: "Жил-был царь. Не было у царя желаемого наследника. Стал просить царь Бога. Бог обещал. Появился наследник. Вырос наследник..." и т.д. "У попа была собака, поп её любил. Она съела кусок мяса – он её убил". Рассмотрен лишь один из возможных путей построения текстов, да и то не с самого начала. При этом не объяснена генерация последовательности глаголов в использованном для примера тексте. Для случаев текстов такого типа (типа волшебных сказок) используются специальные формальные грамматики Проппа, созданные впервые советским ученым В. Проппом в конце 20-х годов. Эти грамматики позволяют строить последовательности действий, не нарушающие логического порядка повествования (например, глагол "ушел X" относительно глагола "X отсутствует" возникнет раньше). В настоящее время в компьютерной лингвистике проблемы синтеза текстов находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.
|