ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ
Обычно под лингвистическим анализом понимают морфологический и синтаксический анализ. Цель морфологического анализа состоит в получении основ (путем отсечения окончаний) словоформ со значениями грамматических категорий (например, часть речи, род, число, падеж). Лингвистический анализ может быть точным и приближенным. Точные методы морфологического анализа базируются на использовании словаря основ слов или словоформ, приближенные – на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией. Использование словаря словоформ в точных методах позволяет легко преодолевать трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации. При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти выше, чем при использовании словаря основ. Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого – правильное выделение основы слова. В частности, для преодоления проблемы омонимии основ слов проверяется совместимость выделенной основы слова и его окончания. В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом: от конца слова последовательно отсоединяется по одной букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова – его основа. Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяются подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей. Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа. Источником грамматических знаний являются данные, полученные в результате морфологического анализа, а также различные таблицы, которые априорно заполнены стандартным образом и представляют собой результат эмпирической обработки текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического анализа. Основу таких таблиц составляют наборы валентностей – списки ЛЕ с указанием для каждой из них всех возможных вариантов связей с другими ЛЕ на ЕЯ (потенциальные связи).
|