Студопедия — Проблемы представления естественного языка в ДИПС
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Проблемы представления естественного языка в ДИПС






Естественный язык – это средства передачи информации между людьми.

С точки зрения машинной технологии естественный язык обладает существенными недостатками. Связанно это с многообразием средств передачи смысла:

1) контекст;

2) парадигма (связывает между собой слова);

3) ссылки на слова либо словосочетания.

Существует так же семантическая неоднозначность:

1) Синонимия – это тождественность или близость по значению слов;

2) Многозначность – неоднозначное понимание слов естественного языка;

3) Полисемия – совпадения названий различных предметов;

4) Омонимия – разные по значению, но одинаковые по написанию и звучанию единицы языка.

 

 


 

34. Обработка текстовой информации

Так как все документы, поступающие на вход ДИПС, представлены на естественном языке, их необходимо перевести на язык понятный системе. Такие языки называются – информационно-поисковыми языками (ИПЯ).

Перевод текста с естественного языка в ИПЯ называется – индексированием.

Если такой перевод делается с помощью рубрикатора (классификация, ранжирование, иерархия), то этот процесс называется – рубрицированием.

Он состоит из двух основных этапов:

1) Выделение смыслового содержания

2) Представления этого содержания в форме ИПЯ

 


 

35. Лингвистический анализ текста

 

 

Лингвистический анализ чего-то

 

Данный анализ состоит из двух этапов:

1. Морфологический;

2. Синтаксический.

Целью первого анализа является получение основ со значениями грамматических категорий. Это получение основывается на двух методах – приближенный метод (на основе экспериментально установленных связей) и точный метод (с использованием словарей).

Задача синтаксического анализа состоит в грамматическом разборе предложений на основе использования словарей. Здесь происходят выделения стиля предложений и указываются связи между ними в виде дерева зависимостей.

 

 


 

36. Поиск текстовой информации

 

Каждая модель представления и поиска характеризуется 4-мя параметрами:

1. структура представления документов и запросов;

2. критерии смыслового соответствия;

3. методы ранжирования конечных результатов;

4. обратная связь, обеспечивающей информацией о релевантности пользователя.

 

 


 

37. Булева модель представления знаний

 

Булева модель

Эта модель представляет документ с помощью набора терминов. Все термины в этой модели проиндексированы и имеют значения булевых переменных. При наличии термина в документе булева переменная принимает значение ИСТИНА. При присваивании терминов и их индексировании не допускается введение весовых коэффициентов. Запросы для поиска информации в такой системе представляются в виде стандартной булевой конструкции.

Мерой соответствия запроса документу служат значения релевантного статуса. Если он равен 1, то документ соответствует запросу.

Недостатки:

1) Со временем использования этой модели существенно разрастается объем хранилища.

2) Нельзя ранжировать результаты поиска

 


 

38. Модель "Нечеткие множества"

 

Нечеткие множества

Данная модель основана на теории, что каждый элемент может принадлежать более 1 множеству (если элемент принадлежит одному множеству, тогда работает булева модель).

 

Возьмем 3 множества: 5 курс, ОмГУПС, студенты.

В наших моделях представления возможны следующие элементы:

1. Студент 5 курса ОмГУПСа

2. Студент ОмГУПСа

3. Студент 5 курса

Достоинства:

1. С помощью этой модели легко решать и представлять задачи в ограниченной ситуации.

Недостатки:

1. Громоздкая система

 


 

39. Вероятностная модель представления знаний

 

Вероятностная модель

Эта модель базируется на двух основных параметрах:

1. Вероятность релевантности документа запроса

2. Вероятность нерелевантности документа запроса

Pрел=1-Pнерел

В этой модели применяется 2 стоймостных коэффициента: А1 и А2. Эти стоимостные коэффициенты дают вероятность пропуска релевантного документа и появление в результатах поиска нерелевантного докуента.

Достоинства метода:

1. Простота поиска и ранжирования документов

2. Сложность определения вероятности

 


 

40 Пространство-векторная модель

Пространственно-векторная модель

Эта модель основана на том, что совокупность документов можно представить набором векторов, определяемых базисом из M нормализованных векторов терминов. Значение первого компонента вектора отображает все термины в нем. Это значит, что есть пространство, заданное единичными векторами. Положение каждого объекта определяется векторной суммой. поиск по запросу в такой модели (его результат) определяется скалярным произведением вектора документа на вектор запроса. Если это произведение равно 1, то документ релевантен запросу.

Достоинства:

1. Простота представления

Недостаток:

Сложность формирования запроса

 

Пространственно-векторная модель – эта модель основана на том, что совокупность документов можно представить набором векторов, определяемом базисом из n-нормализованных векторов терминов. Значение первого компонента вектора отображает все термины в нем. Пример: имеется пространство, на нем отложены единичные векторы представления, допустим имеется документ «студент», его координаты определяется формулой: . Поиск по запросу в такой модели (его результат) определяется скалярным произведением вектора документа на вектор запроса. Если произведение равно 1, то документ релевантен запросу.

Достоинства модели – простота представления. Недостаток – сложность формирования запросов.

 

 


 

41 Метод перебора состояния на графе. Перебор в глубину.

 

 
 
 
 
 
 

В этом методе прежде всего раскрываются те вершины, которые были построены последними. Глубина вершин дерева определяется следующим образом: глубина корня в исходном состоянии равна 0, глубина вершины равна 1 + глубина вершины, ей предшествующая. Таким образом, вершина, имеющая наибольшую глубину должна быть раскрыта следующей.

 


 

42Метод перебора состояния на графе. Метод слепого перебора.

 
 
 
 
 
 

 


 

43 Семантическая сеть

Четкого определения семантической сети не существует. Под этим понятием понимают структуру данных в виде сети, узлы которой – это объект, а связи между узлами – это отношения между объектами. рассматриваются следующие отношения:

1. Отношение S «множество-подмножество».

2. Отношение Е «элемент-множество-подмножество».


 

44 Хуй знат куда

Представление задач в пространстве состояния

Чтобы построить корректное описание задач, очень важно выбрать некоторую форму описания состояния. Для этого могут быть использованы строки символов, векторы, двумерные массивы, деревья состояний и списки. Часто запись задач выполняется в форму, которая имеет некоторое физическое сходство с решаемой задачей.

Операторы, используемые для решения задач

В ЭС для решения задач иногда вводят понятия операторов. Оператор преобразует состояние пространства от начального к целевому, тем самым получая решение задач.

 

 

 

 

Знания и их представление

Весь спектр задач в информационном поле длится на:

Формализованные знания:

- вычисления

- сравнения

- анализ

-четкие процедуры и т.д.

Неформализованные задачи

- следствие действий естественного интеллекта – этот класс превышает первой и основной проблемой для решения задач этого класса является то что из всего класса из всего инф. поля необходимо выделять компоненты которые бы относились к знаниям. Для их обработки и накопления были предложены несколько способов представления знаний (модель представления)







Дата добавления: 2015-04-19; просмотров: 440. Нарушение авторских прав; Мы поможем в написании вашей работы!



Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Типовые примеры и методы их решения. Пример 2.5.1. На вклад начисляются сложные проценты: а) ежегодно; б) ежеквартально; в) ежемесячно Пример 2.5.1. На вклад начисляются сложные проценты: а) ежегодно; б) ежеквартально; в) ежемесячно. Какова должна быть годовая номинальная процентная ставка...

Выработка навыка зеркального письма (динамический стереотип) Цель работы: Проследить особенности образования любого навыка (динамического стереотипа) на примере выработки навыка зеркального письма...

Словарная работа в детском саду Словарная работа в детском саду — это планомерное расширение активного словаря детей за счет незнакомых или трудных слов, которое идет одновременно с ознакомлением с окружающей действительностью, воспитанием правильного отношения к окружающему...

Виды и жанры театрализованных представлений   Проживание бронируется и оплачивается слушателями самостоятельно...

Что происходит при встрече с близнецовым пламенем   Если встреча с родственной душой может произойти достаточно спокойно – то встреча с близнецовым пламенем всегда подобна вспышке...

Реостаты и резисторы силовой цепи. Реостаты и резисторы силовой цепи. Резисторы и реостаты предназначены для ограничения тока в электрических цепях. В зависимости от назначения различают пусковые...

Studopedia.info - Студопедия - 2014-2024 год . (0.013 сек.) русская версия | украинская версия