Понятие информационного ресурса (ИР)

12 Следующая ⇒

*Дополнительные индексы*

CLEAR

CLOSE tables all

? "1.Создание простого индекса по полю famp"

USE poshk

INDEX ON famp TO Poshk_f compact

list

WAIT

clear

? "2.Создание простого индекса по полю gord"

INDEX ON gord TO poshk_g compact

LIST

WAIT

clear

? "3.Создание составного индекса по простому выражению"

USE poshk exclusive

INDEX ON famp TAG tagfamp

SET ORDER TO tagfamp

LIST

WAIT

clear

? "4.Создание составного индекса по составному выражению"

Use poski exclusive

INDEX ON nomp+nomd+nomr+DTOC(data)Tag Poski_in

DISPLAY all

WAIT

CLEAR

? "5.Создание составного индекса с преобразованием типов данных:"

? "Мы преобразуем numeric в character"

USE poski EXCLUSIVE

INDEX ON nomp+STR(kolw,4) TAG Poski_nk

DISPLAY all

WAIT

CLEAR

? "6.Создание составного индекса с преобразованием типов данных:"

? "Мы преобразуем character в numeric"

USE poski EXCLUSIVE

INDEX ON kolw+VAL(nomp) TAG Poski_kn

DISPLAY all

WAIT

CLEAR

RETURN

Индексирование электронных информационных ресурсов

Понятие информационного ресурса (ИР)

Единицей обработки и хранения в репозитарии является информационный ресурс. Информационный ресурс – это файл или совокупность файлов, объединенных общей семантикой и имеющих текстовую аннотацию. В частном случае, информационный ресурс – это один или несколько текстовых файлов. Текст аннотации (или текст самого ресурса) однозначно отражает смысловое содержание данного ресурса. При кластеризации мы полагаемся на гипотезу о том, что смысловое содержание текста кодируется статистическим распределением слов. То есть, по частотному распределению слов, составляющих текст ресурса (или аннотации), мы можем определить его категорию

Индексирование документов является важнейшей операцией, обеспечивающей возможности информационного поиска. Сам процесс индексирования документа заключается в определении его центральной темы или предмета на информационно-поисковом языке.

В настоящее время наиболее популярными являются методы координатного (или векторного) индексирования, принцип которого заключается в том, что центральная тема документа с достаточной степенью точности может быть выражена виде некоторого перечня (или множества) дескрипторов естественного языка, содержащихся в индексируемом тексте. За информационную единицу текста (в литературе используются определения дескриптор, терм, синтаксическая единица) могут приниматься не только малые фрагменты текста (слово или словосочетание), но также целые предложения, абзацы, части документа и сам документ (в том случае если берется корпус документов – например книга в формате html).

В процессе координатного индексирования на информационно-поисковом языке (ИПЯ) определяется центральная тема или предмет ИР. Каждому ИР ставится в соответствие набор информационных признаков (также «набор информационных признаков» в [Воробьев] или «документообразующие признаки» в [Веревченко А.П.]). В [ГОСТ Р 51141-98] вводится понятие «внешние признаки документа» - признаки, отражающие форму и размер документа, носитель информации, способ записи, элементы оформления.

При индексировании ИР проводиться несколько этапов анализа текстовой информации [Толпегин]:

1. Лексический (графематический, фактографический или аттрибутивный). Данный этап заключается в определении дескрипторов, разделителей, фактографической информации. В тексте выделяются лексические метки по признакам специального формата или по признаку нахождения в определенных лингвистических отношения (объект-субъект, объект-отношение).

2. Морфологический и морфемный.

На этапе морфологического анализа для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте.

Существует три основных подхода к проведению морфологического анализа [Селезнев, ОС-12-2003]:

- «четкая» морфология основывается на использовании словаря (например, на основе словаря Зализняка). При таком подходе для проведения анализа слова необходимо найти его в словаре, где хранятся точные значения всех его морфологических характеристик. Применение «четкой» морфологии затрудняется тем, что поступающие на вход слова, могут не входить в словарь всех словоформ (ошибок ввода исходного текста, из-за наличия в тексте имен собственных и т.д.). В случае, когда метод не дает нужного результата применяется «нечеткая» морфология;

- «нечеткая» морфология основывается на применении системы нечетких правил;

- вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками. Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам. Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс. После этого вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова. Необходимо сделать два важных замечания. Во-первых, вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны. Во-вторых, если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.

Морфемный анализ проводит анализ состава слова: приставка, корень, суффикс, окончание. Как правило, применяется следующие подходы к проведению морфемного анализа [Селезнев, ОС-12-2003]:

- использование словаря (логика анализа совпадает с логикой «четкой» морфологии);

- использование правил стандартного строения слова: приставка-корень-суфикс-окончание – и множества всех суффиксов, приставок и окончаний.

3. Синтаксический. Результатом такого анализа является граф, узлами которого выступают слова предложения; при этом, если два слова связаны каким-либо образом, то соответствующие им вершины графа связаны дугой с определенной окраской. Возможные окраски дуг зависят от языка, на котором написано предложение, а также от выбранного способа представления синтаксической структуры предложения.

4. Семантический (или проблемный) анализ. Семантический анализ основывается на результатах работы предыдущих фаз обработки текста. Результаты анализа, произведенного на ранних стадиях, могут быть многозначны: для выходных параметров указывается не одно, а сразу несколько возможных значений (проблема синонимии и полисемии). В таких случаях последующие стадии должны выбирать наиболее вероятные значения результатов ранних стадий анализа и уже на их основе проводить дальнейший анализ текста [Селезнев, ОС-12-2003]. Большинство методов семантического анализа, так или иначе, работают со смыслом слов. Общей для всех методов анализа база, позволяющая выявлять семантические отношения между словами, является тезаурус языка. На математическом уровне он представляет собой ориентированный граф, узлами которого являются слова в их основной словоформе.

Для решения поставленных задач разработан ряд методов. Шенком [Селезнев, ОС-12-2003] предлагаются психолингвистический подход к анализу текстовой информации, основанный на двух идеях:

- во-первых, при анализе одного предложения не обязательно рассматривать все его слова: смысл предложения можно определить по «ключевым» словам и наличию связей между ними;

- во-вторых, представление результатов анализа текста в виде концептуальной сети, способно формально описать смысл, содержащийся в исходном тексте, являющийся семантической сетью с предопределенным набором типов узлов и дуг.

В [Фомичев, ИТ-10-2002], [Фомичев, ИТ-11-2002] предлагается математическая модель системы первичных единиц концептуального уровня. Данная модель предлагается как средство описания смысловой структуры сложных реальных текстов на ЕЯ из произвольных предметных областей для создания лингвистических процессоров. Отличительная особенность модели, предлагаемой в данной работе, заключается в предположении, что при помощи 10 операций на концептуальных структурах, описываемых моделью, можно построить семантическое представление сколь угодно сложного связного текста. Построенная модель является одной из центральных составляющих теории К-исчислений и К-языков, несколько расширяя данную теорию.

12 Следующая ⇒

Дата добавления: 2015-08-29; просмотров: 388. Нарушение авторских прав; Мы поможем в написании вашей работы!

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Понятие массовых мероприятий, их виды Под массовыми мероприятиями следует понимать совокупность действий или явлений социальной жизни с участием большого количества граждан...

Тактика действий нарядов полиции по предупреждению и пресечению правонарушений при проведении массовых мероприятий К особенностям проведения массовых мероприятий и факторам, влияющим на охрану общественного порядка и обеспечение общественной безопасности, можно отнести значительное количество субъектов, принимающих участие в их подготовке и проведении...

Тактические действия нарядов полиции по предупреждению и пресечению групповых нарушений общественного порядка и массовых беспорядков В целях предупреждения разрастания групповых нарушений общественного порядка (далееГНОП) в массовые беспорядки подразделения (наряды) полиции осуществляют следующие мероприятия...

Закон Гука при растяжении и сжатии Напряжения и деформации при растяжении и сжатии связаны между собой зависимостью, которая называется законом Гука, по имени установившего этот закон английского физика Роберта Гука в 1678 году...

Характерные черты официально-делового стиля Наиболее характерными чертами официально-делового стиля являются: • лаконичность...

Этапы и алгоритм решения педагогической задачи Технология решения педагогической задачи, так же как и любая другая педагогическая технология должна соответствовать критериям концептуальности, системности, эффективности и воспроизводимости...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия