Студопедия — Системы автоматического аннотирования и реферирования текста
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Системы автоматического аннотирования и реферирования текста






Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме.

Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

1. 1)Подготовительный (чтение текста и осмысление документа в целом);

2. Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

3. Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

В качестве смысловых единиц реферата могут быть:

1) Полное (без изменений) ключевое предложение исходного текста;

2) Перефразированное ключевое предложение;

3) Предложение из ключевых слов и словосочетаний;

4) Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

1) Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами – заранее заготовленная фраза («тема состоит в том, что» и проч.);

2) Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

ПК должен уметь:

1) Находить в тексте ключевые слова, словосочетания, предложения;

2) Находить в тексте менее значимые единицы;

3) Составлять из текстовых единиц смысловые единицы реферата\аннотации.

Методы автоматического реферирования:

1. Статистический:

2. Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

a. Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовков\подзаголовков;

b. Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

3. Логико-семантические: исследуют структуру и семантику текста.

a. Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

b. Связь с левым и правым окружением;

c. Наличие в предложении семантически значимых слов;

d. Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

 


Вопрос 19.

Методы автоматического реферирования:

1) Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.

а) Задача: по формуле где
F – число повторений слова в тексте,
m – число абзацев, где есть это слово,
N – количество слов в тексте,
n – количество абзацев в тексте
составить алгоритм, позволяющий получить:

- аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;

- словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.

 

- Словоупотребление – цепочка символов, заключённых между двумя пробелами.

- Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б) Алгоритм решения задачи:

- ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

- Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

- Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

a. Удаляется служебная и общепринятая лексика;

b. Объединяются грамматические формы одного и того же слова;

c. Объединяются синонимы;

d. Удаляются слова, встреченные только в одном абзаце;

- Словарь потенциальных опорных слов делится (с помощью Кважн) на

a. Словарь главных опорных слов;

b. Словарь второстепенных опорных слов;

- Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.

 

 


Вопрос 20.







Дата добавления: 2015-09-15; просмотров: 1643. Нарушение авторских прав; Мы поможем в написании вашей работы!



Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Менадиона натрия бисульфит (Викасол) Групповая принадлежность •Синтетический аналог витамина K, жирорастворимый, коагулянт...

Разновидности сальников для насосов и правильный уход за ними   Сальники, используемые в насосном оборудовании, служат для герметизации пространства образованного кожухом и рабочим валом, выходящим через корпус наружу...

Дренирование желчных протоков Показаниями к дренированию желчных протоков являются декомпрессия на фоне внутрипротоковой гипертензии, интраоперационная холангиография, контроль за динамикой восстановления пассажа желчи в 12-перстную кишку...

Лечебно-охранительный режим, его элементы и значение.   Терапевтическое воздействие на пациента подразумевает не только использование всех видов лечения, но и применение лечебно-охранительного режима – соблюдение условий поведения, способствующих выздоровлению...

Тема: Кинематика поступательного и вращательного движения. 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью, проекция которой изменяется со временем 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью...

Условия приобретения статуса индивидуального предпринимателя. В соответствии с п. 1 ст. 23 ГК РФ гражданин вправе заниматься предпринимательской деятельностью без образования юридического лица с момента государственной регистрации в качестве индивидуального предпринимателя. Каковы же условия такой регистрации и...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия