Студопедия — Проблемы представления естественного языка в ДИПС
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Проблемы представления естественного языка в ДИПС






Естественный язык – это средства передачи информации между людьми.

С точки зрения машинной технологии естественный язык обладает существенными недостатками. Связанно это с многообразием средств передачи смысла:

1) контекст;

2) парадигма (связывает между собой слова);

3) ссылки на слова либо словосочетания.

Существует так же семантическая неоднозначность:

1) Синонимия – это тождественность или близость по значению слов;

2) Многозначность – неоднозначное понимание слов естественного языка;

3) Полисемия – совпадения названий различных предметов;

4) Омонимия – разные по значению, но одинаковые по написанию и звучанию единицы языка.

 

 


 

34. Обработка текстовой информации

Так как все документы, поступающие на вход ДИПС, представлены на естественном языке, их необходимо перевести на язык понятный системе. Такие языки называются – информационно-поисковыми языками (ИПЯ).

Перевод текста с естественного языка в ИПЯ называется – индексированием.

Если такой перевод делается с помощью рубрикатора (классификация, ранжирование, иерархия), то этот процесс называется – рубрицированием.

Он состоит из двух основных этапов:

1) Выделение смыслового содержания

2) Представления этого содержания в форме ИПЯ

 


 

35. Лингвистический анализ текста

 

 

Лингвистический анализ чего-то

 

Данный анализ состоит из двух этапов:

1. Морфологический;

2. Синтаксический.

Целью первого анализа является получение основ со значениями грамматических категорий. Это получение основывается на двух методах – приближенный метод (на основе экспериментально установленных связей) и точный метод (с использованием словарей).

Задача синтаксического анализа состоит в грамматическом разборе предложений на основе использования словарей. Здесь происходят выделения стиля предложений и указываются связи между ними в виде дерева зависимостей.

 

 


 

36. Поиск текстовой информации

 

Каждая модель представления и поиска характеризуется 4-мя параметрами:

1. структура представления документов и запросов;

2. критерии смыслового соответствия;

3. методы ранжирования конечных результатов;

4. обратная связь, обеспечивающей информацией о релевантности пользователя.

 

 


 

37. Булева модель представления знаний

 

Булева модель

Эта модель представляет документ с помощью набора терминов. Все термины в этой модели проиндексированы и имеют значения булевых переменных. При наличии термина в документе булева переменная принимает значение ИСТИНА. При присваивании терминов и их индексировании не допускается введение весовых коэффициентов. Запросы для поиска информации в такой системе представляются в виде стандартной булевой конструкции.

Мерой соответствия запроса документу служат значения релевантного статуса. Если он равен 1, то документ соответствует запросу.

Недостатки:

1) Со временем использования этой модели существенно разрастается объем хранилища.

2) Нельзя ранжировать результаты поиска

 


 

38. Модель "Нечеткие множества"

 

Нечеткие множества

Данная модель основана на теории, что каждый элемент может принадлежать более 1 множеству (если элемент принадлежит одному множеству, тогда работает булева модель).

 

Возьмем 3 множества: 5 курс, ОмГУПС, студенты.

В наших моделях представления возможны следующие элементы:

1. Студент 5 курса ОмГУПСа

2. Студент ОмГУПСа

3. Студент 5 курса

Достоинства:

1. С помощью этой модели легко решать и представлять задачи в ограниченной ситуации.

Недостатки:

1. Громоздкая система

 


 

39. Вероятностная модель представления знаний

 

Вероятностная модель

Эта модель базируется на двух основных параметрах:

1. Вероятность релевантности документа запроса

2. Вероятность нерелевантности документа запроса

Pрел=1-Pнерел

В этой модели применяется 2 стоймостных коэффициента: А1 и А2. Эти стоимостные коэффициенты дают вероятность пропуска релевантного документа и появление в результатах поиска нерелевантного докуента.

Достоинства метода:

1. Простота поиска и ранжирования документов

2. Сложность определения вероятности

 


 

40 Пространство-векторная модель

Пространственно-векторная модель

Эта модель основана на том, что совокупность документов можно представить набором векторов, определяемых базисом из M нормализованных векторов терминов. Значение первого компонента вектора отображает все термины в нем. Это значит, что есть пространство, заданное единичными векторами. Положение каждого объекта определяется векторной суммой. поиск по запросу в такой модели (его результат) определяется скалярным произведением вектора документа на вектор запроса. Если это произведение равно 1, то документ релевантен запросу.

Достоинства:

1. Простота представления

Недостаток:

Сложность формирования запроса

 

Пространственно-векторная модель – эта модель основана на том, что совокупность документов можно представить набором векторов, определяемом базисом из n-нормализованных векторов терминов. Значение первого компонента вектора отображает все термины в нем. Пример: имеется пространство, на нем отложены единичные векторы представления, допустим имеется документ «студент», его координаты определяется формулой: . Поиск по запросу в такой модели (его результат) определяется скалярным произведением вектора документа на вектор запроса. Если произведение равно 1, то документ релевантен запросу.

Достоинства модели – простота представления. Недостаток – сложность формирования запросов.

 

 


 

41 Метод перебора состояния на графе. Перебор в глубину.

 

 
 
 
 
 
 

В этом методе прежде всего раскрываются те вершины, которые были построены последними. Глубина вершин дерева определяется следующим образом: глубина корня в исходном состоянии равна 0, глубина вершины равна 1 + глубина вершины, ей предшествующая. Таким образом, вершина, имеющая наибольшую глубину должна быть раскрыта следующей.

 


 

42Метод перебора состояния на графе. Метод слепого перебора.

 
 
 
 
 
 

 


 

43 Семантическая сеть

Четкого определения семантической сети не существует. Под этим понятием понимают структуру данных в виде сети, узлы которой – это объект, а связи между узлами – это отношения между объектами. рассматриваются следующие отношения:

1. Отношение S «множество-подмножество».

2. Отношение Е «элемент-множество-подмножество».


 

44 Хуй знат куда

Представление задач в пространстве состояния

Чтобы построить корректное описание задач, очень важно выбрать некоторую форму описания состояния. Для этого могут быть использованы строки символов, векторы, двумерные массивы, деревья состояний и списки. Часто запись задач выполняется в форму, которая имеет некоторое физическое сходство с решаемой задачей.

Операторы, используемые для решения задач

В ЭС для решения задач иногда вводят понятия операторов. Оператор преобразует состояние пространства от начального к целевому, тем самым получая решение задач.

 

 

 

 

Знания и их представление

Весь спектр задач в информационном поле длится на:

Формализованные знания:

- вычисления

- сравнения

- анализ

-четкие процедуры и т.д.

Неформализованные задачи

- следствие действий естественного интеллекта – этот класс превышает первой и основной проблемой для решения задач этого класса является то что из всего класса из всего инф. поля необходимо выделять компоненты которые бы относились к знаниям. Для их обработки и накопления были предложены несколько способов представления знаний (модель представления)







Дата добавления: 2015-04-19; просмотров: 439. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Внешняя политика России 1894- 1917 гг. Внешнюю политику Николая II и первый период его царствования определяли, по меньшей мере три важных фактора...

Оценка качества Анализ документации. Имеющийся рецепт, паспорт письменного контроля и номер лекарственной формы соответствуют друг другу. Ингредиенты совместимы, расчеты сделаны верно, паспорт письменного контроля выписан верно. Правильность упаковки и оформления....

БИОХИМИЯ ТКАНЕЙ ЗУБА В составе зуба выделяют минерализованные и неминерализованные ткани...

В теории государства и права выделяют два пути возникновения государства: восточный и западный Восточный путь возникновения государства представляет собой плавный переход, перерастание первобытного общества в государство...

Закон Гука при растяжении и сжатии   Напряжения и деформации при растяжении и сжатии связаны между собой зависимостью, которая называется законом Гука, по имени установившего этот закон английского физика Роберта Гука в 1678 году...

Характерные черты официально-делового стиля Наиболее характерными чертами официально-делового стиля являются: • лаконичность...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия