Студопедия — Системы автоматического аннотирования и реферирования текста
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Системы автоматического аннотирования и реферирования текста






Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме.

Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

1. 1)Подготовительный (чтение текста и осмысление документа в целом);

2. Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

3. Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

В качестве смысловых единиц реферата могут быть:

1) Полное (без изменений) ключевое предложение исходного текста;

2) Перефразированное ключевое предложение;

3) Предложение из ключевых слов и словосочетаний;

4) Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

1) Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами – заранее заготовленная фраза («тема состоит в том, что» и проч.);

2) Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

ПК должен уметь:

1) Находить в тексте ключевые слова, словосочетания, предложения;

2) Находить в тексте менее значимые единицы;

3) Составлять из текстовых единиц смысловые единицы реферата\аннотации.

Методы автоматического реферирования:

1. Статистический:

2. Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

a. Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовков\подзаголовков;

b. Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

3. Логико-семантические: исследуют структуру и семантику текста.

a. Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

b. Связь с левым и правым окружением;

c. Наличие в предложении семантически значимых слов;

d. Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

 


Вопрос 19.

Методы автоматического реферирования:

1) Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.

а) Задача: по формуле где
F – число повторений слова в тексте,
m – число абзацев, где есть это слово,
N – количество слов в тексте,
n – количество абзацев в тексте
составить алгоритм, позволяющий получить:

- аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;

- словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.

 

- Словоупотребление – цепочка символов, заключённых между двумя пробелами.

- Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б) Алгоритм решения задачи:

- ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

- Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

- Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

a. Удаляется служебная и общепринятая лексика;

b. Объединяются грамматические формы одного и того же слова;

c. Объединяются синонимы;

d. Удаляются слова, встреченные только в одном абзаце;

- Словарь потенциальных опорных слов делится (с помощью Кважн) на

a. Словарь главных опорных слов;

b. Словарь второстепенных опорных слов;

- Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.

 

 


Вопрос 20.







Дата добавления: 2015-09-15; просмотров: 1642. Нарушение авторских прав; Мы поможем в написании вашей работы!



Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Ваготомия. Дренирующие операции Ваготомия – денервация зон желудка, секретирующих соляную кислоту, путем пересечения блуждающих нервов или их ветвей...

Билиодигестивные анастомозы Показания для наложения билиодигестивных анастомозов: 1. нарушения проходимости терминального отдела холедоха при доброкачественной патологии (стенозы и стриктуры холедоха) 2. опухоли большого дуоденального сосочка...

Сосудистый шов (ручной Карреля, механический шов). Операции при ранениях крупных сосудов 1912 г., Каррель – впервые предложил методику сосудистого шва. Сосудистый шов применяется для восстановления магистрального кровотока при лечении...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Интуитивное мышление Мышление — это пси­хический процесс, обеспечивающий познание сущности предме­тов и явлений и самого субъекта...

Studopedia.info - Студопедия - 2014-2024 год . (0.012 сек.) русская версия | украинская версия