Студопедия — Понятие информационного ресурса (ИР)
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Понятие информационного ресурса (ИР)






*Дополнительные индексы*

CLEAR

CLOSE tables all

? "1.Создание простого индекса по полю famp"

USE poshk

INDEX ON famp TO Poshk_f compact

list

WAIT

clear

? "2.Создание простого индекса по полю gord"

INDEX ON gord TO poshk_g compact

LIST

WAIT

clear

? "3.Создание составного индекса по простому выражению"

USE poshk exclusive

INDEX ON famp TAG tagfamp

SET ORDER TO tagfamp

LIST

WAIT

clear

? "4.Создание составного индекса по составному выражению"

Use poski exclusive

INDEX ON nomp+nomd+nomr+DTOC(data)Tag Poski_in

DISPLAY all

WAIT

CLEAR

? "5.Создание составного индекса с преобразованием типов данных:"

? "Мы преобразуем numeric в character"

USE poski EXCLUSIVE

INDEX ON nomp+STR(kolw,4) TAG Poski_nk

DISPLAY all

WAIT

CLEAR

? "6.Создание составного индекса с преобразованием типов данных:"

? "Мы преобразуем character в numeric"

USE poski EXCLUSIVE

INDEX ON kolw+VAL(nomp) TAG Poski_kn

DISPLAY all

WAIT

CLEAR

RETURN

 

Индексирование электронных информационных ресурсов

Понятие информационного ресурса (ИР)

Единицей обработки и хранения в репозитарии является информационный ресурс. Информационный ресурс – это файл или совокупность файлов, объединенных общей семантикой и имеющих текстовую аннотацию. В частном случае, информационный ресурс – это один или несколько текстовых файлов. Текст аннотации (или текст самого ресурса) однозначно отражает смысловое содержание данного ресурса. При кластеризации мы полагаемся на гипотезу о том, что смысловое содержание текста кодируется статистическим распределением слов. То есть, по частотному распределению слов, составляющих текст ресурса (или аннотации), мы можем определить его категорию

Индексирование документов является важнейшей операцией, обеспечивающей возможности информационного поиска. Сам процесс индексирования документа заключается в определении его центральной темы или предмета на информационно-поисковом языке.

В настоящее время наиболее популярными являются методы координатного (или векторного) индексирования, принцип которого заключается в том, что центральная тема документа с достаточной степенью точности может быть выражена виде некоторого перечня (или множества) дескрипторов естественного языка, содержащихся в индексируемом тексте. За информационную единицу текста (в литературе используются определения дескриптор, терм, синтаксическая единица) могут приниматься не только малые фрагменты текста (слово или словосочетание), но также целые предложения, абзацы, части документа и сам документ (в том случае если берется корпус документов – например книга в формате html).

В процессе координатного индексирования на информационно-поисковом языке (ИПЯ) определяется центральная тема или предмет ИР. Каждому ИР ставится в соответствие набор информационных признаков (также «набор информационных признаков» в [Воробьев] или «документообразующие признаки» в [Веревченко А.П.]). В [ГОСТ Р 51141-98] вводится понятие «внешние признаки документа» - признаки, отражающие форму и размер документа, носитель информации, способ записи, элементы оформления.

При индексировании ИР проводиться несколько этапов анализа текстовой информации [Толпегин]:

1. Лексический (графематический, фактографический или аттрибутивный). Данный этап заключается в определении дескрипторов, разделителей, фактографической информации. В тексте выделяются лексические метки по признакам специального формата или по признаку нахождения в определенных лингвистических отношения (объект-субъект, объект-отношение).

2. Морфологический и морфемный.

На этапе морфологического анализа для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте.

Существует три основных подхода к проведению морфологического анализа [Селезнев, ОС-12-2003]:

- «четкая» морфология основывается на использовании словаря (например, на основе словаря Зализняка). При таком подходе для проведения анализа слова необходимо найти его в словаре, где хранятся точные значения всех его морфологических характеристик. Применение «четкой» морфологии затрудняется тем, что поступающие на вход слова, могут не входить в словарь всех словоформ (ошибок ввода исходного текста, из-за наличия в тексте имен собственных и т.д.). В случае, когда метод не дает нужного результата применяется «нечеткая» морфология;

- «нечеткая» морфология основывается на применении системы нечетких правил;

- вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками. Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам. Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс. После этого вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова. Необходимо сделать два важных замечания. Во-первых, вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны. Во-вторых, если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.

Морфемный анализ проводит анализ состава слова: приставка, корень, суффикс, окончание. Как правило, применяется следующие подходы к проведению морфемного анализа [Селезнев, ОС-12-2003]:

- использование словаря (логика анализа совпадает с логикой «четкой» морфологии);

- использование правил стандартного строения слова: приставка-корень-суфикс-окончание – и множества всех суффиксов, приставок и окончаний.

3. Синтаксический. Результатом такого анализа является граф, узлами которого выступают слова предложения; при этом, если два слова связаны каким-либо образом, то соответствующие им вершины графа связаны дугой с определенной окраской. Возможные окраски дуг зависят от языка, на котором написано предложение, а также от выбранного способа представления синтаксической структуры предложения.

 

4. Семантический (или проблемный) анализ. Семантический анализ основывается на результатах работы предыдущих фаз обработки текста. Результаты анализа, произведенного на ранних стадиях, могут быть многозначны: для выходных параметров указывается не одно, а сразу несколько возможных значений (проблема синонимии и полисемии). В таких случаях последующие стадии должны выбирать наиболее вероятные значения результатов ранних стадий анализа и уже на их основе проводить дальнейший анализ текста [Селезнев, ОС-12-2003]. Большинство методов семантического анализа, так или иначе, работают со смыслом слов. Общей для всех методов анализа база, позволяющая выявлять семантические отношения между словами, является тезаурус языка. На математическом уровне он представляет собой ориентированный граф, узлами которого являются слова в их основной словоформе.

Для решения поставленных задач разработан ряд методов. Шенком [Селезнев, ОС-12-2003] предлагаются психолингвистический подход к анализу текстовой информации, основанный на двух идеях:

- во-первых, при анализе одного предложения не обязательно рассматривать все его слова: смысл предложения можно определить по «ключевым» словам и наличию связей между ними;

- во-вторых, представление результатов анализа текста в виде концептуальной сети, способно формально описать смысл, содержащийся в исходном тексте, являющийся семантической сетью с предопределенным набором типов узлов и дуг.

В [Фомичев, ИТ-10-2002], [Фомичев, ИТ-11-2002] предлагается математическая модель системы первичных единиц концептуального уровня. Данная модель предлагается как средство описания смысловой структуры сложных реальных текстов на ЕЯ из произвольных предметных областей для создания лингвистических процессоров. Отличительная особенность модели, предлагаемой в данной работе, заключается в предположении, что при помощи 10 операций на концептуальных структурах, описываемых моделью, можно построить семантическое представление сколь угодно сложного связного текста. Построенная модель является одной из центральных составляющих теории К-исчислений и К-языков, несколько расширяя данную теорию.







Дата добавления: 2015-08-29; просмотров: 389. Нарушение авторских прав; Мы поможем в написании вашей работы!



Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Неисправности автосцепки, с которыми запрещается постановка вагонов в поезд. Причины саморасцепов ЗАПРЕЩАЕТСЯ: постановка в поезда и следование в них вагонов, у которых автосцепное устройство имеет хотя бы одну из следующих неисправностей: - трещину в корпусе автосцепки, излом деталей механизма...

Понятие метода в психологии. Классификация методов психологии и их характеристика Метод – это путь, способ познания, посредством которого познается предмет науки (С...

ЛЕКАРСТВЕННЫЕ ФОРМЫ ДЛЯ ИНЪЕКЦИЙ К лекарственным формам для инъекций относятся водные, спиртовые и масляные растворы, суспензии, эмульсии, ново­галеновые препараты, жидкие органопрепараты и жидкие экс­тракты, а также порошки и таблетки для имплантации...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Интуитивное мышление Мышление — это пси­хический процесс, обеспечивающий познание сущности предме­тов и явлений и самого субъекта...

Объект, субъект, предмет, цели и задачи управления персоналом Социальная система организации делится на две основные подсистемы: управляющую и управляемую...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия