Понятие информационного ресурса (ИР)
*Дополнительные индексы* CLEAR CLOSE tables all ? "1.Создание простого индекса по полю famp" USE poshk INDEX ON famp TO Poshk_f compact list WAIT clear ? "2.Создание простого индекса по полю gord" INDEX ON gord TO poshk_g compact LIST WAIT clear ? "3.Создание составного индекса по простому выражению" USE poshk exclusive INDEX ON famp TAG tagfamp SET ORDER TO tagfamp LIST WAIT clear ? "4.Создание составного индекса по составному выражению" Use poski exclusive INDEX ON nomp+nomd+nomr+DTOC(data)Tag Poski_in DISPLAY all WAIT CLEAR ? "5.Создание составного индекса с преобразованием типов данных:" ? "Мы преобразуем numeric в character" USE poski EXCLUSIVE INDEX ON nomp+STR(kolw,4) TAG Poski_nk DISPLAY all WAIT CLEAR ? "6.Создание составного индекса с преобразованием типов данных:" ? "Мы преобразуем character в numeric" USE poski EXCLUSIVE INDEX ON kolw+VAL(nomp) TAG Poski_kn DISPLAY all WAIT CLEAR RETURN
Индексирование электронных информационных ресурсов Понятие информационного ресурса (ИР) Единицей обработки и хранения в репозитарии является информационный ресурс. Информационный ресурс – это файл или совокупность файлов, объединенных общей семантикой и имеющих текстовую аннотацию. В частном случае, информационный ресурс – это один или несколько текстовых файлов. Текст аннотации (или текст самого ресурса) однозначно отражает смысловое содержание данного ресурса. При кластеризации мы полагаемся на гипотезу о том, что смысловое содержание текста кодируется статистическим распределением слов. То есть, по частотному распределению слов, составляющих текст ресурса (или аннотации), мы можем определить его категорию Индексирование документов является важнейшей операцией, обеспечивающей возможности информационного поиска. Сам процесс индексирования документа заключается в определении его центральной темы или предмета на информационно-поисковом языке. В настоящее время наиболее популярными являются методы координатного (или векторного) индексирования, принцип которого заключается в том, что центральная тема документа с достаточной степенью точности может быть выражена виде некоторого перечня (или множества) дескрипторов естественного языка, содержащихся в индексируемом тексте. За информационную единицу текста (в литературе используются определения дескриптор, терм, синтаксическая единица) могут приниматься не только малые фрагменты текста (слово или словосочетание), но также целые предложения, абзацы, части документа и сам документ (в том случае если берется корпус документов – например книга в формате html). В процессе координатного индексирования на информационно-поисковом языке (ИПЯ) определяется центральная тема или предмет ИР. Каждому ИР ставится в соответствие набор информационных признаков (также «набор информационных признаков» в [Воробьев] или «документообразующие признаки» в [Веревченко А.П.]). В [ГОСТ Р 51141-98] вводится понятие «внешние признаки документа» - признаки, отражающие форму и размер документа, носитель информации, способ записи, элементы оформления. При индексировании ИР проводиться несколько этапов анализа текстовой информации [Толпегин]: 1. Лексический (графематический, фактографический или аттрибутивный). Данный этап заключается в определении дескрипторов, разделителей, фактографической информации. В тексте выделяются лексические метки по признакам специального формата или по признаку нахождения в определенных лингвистических отношения (объект-субъект, объект-отношение). 2. Морфологический и морфемный. На этапе морфологического анализа для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте. Существует три основных подхода к проведению морфологического анализа [Селезнев, ОС-12-2003]: - «четкая» морфология основывается на использовании словаря (например, на основе словаря Зализняка). При таком подходе для проведения анализа слова необходимо найти его в словаре, где хранятся точные значения всех его морфологических характеристик. Применение «четкой» морфологии затрудняется тем, что поступающие на вход слова, могут не входить в словарь всех словоформ (ошибок ввода исходного текста, из-за наличия в тексте имен собственных и т.д.). В случае, когда метод не дает нужного результата применяется «нечеткая» морфология; - «нечеткая» морфология основывается на применении системы нечетких правил; - вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками. Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам. Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс. После этого вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова. Необходимо сделать два важных замечания. Во-первых, вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны. Во-вторых, если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов. Морфемный анализ проводит анализ состава слова: приставка, корень, суффикс, окончание. Как правило, применяется следующие подходы к проведению морфемного анализа [Селезнев, ОС-12-2003]: - использование словаря (логика анализа совпадает с логикой «четкой» морфологии); - использование правил стандартного строения слова: приставка-корень-суфикс-окончание – и множества всех суффиксов, приставок и окончаний. 3. Синтаксический. Результатом такого анализа является граф, узлами которого выступают слова предложения; при этом, если два слова связаны каким-либо образом, то соответствующие им вершины графа связаны дугой с определенной окраской. Возможные окраски дуг зависят от языка, на котором написано предложение, а также от выбранного способа представления синтаксической структуры предложения.
4. Семантический (или проблемный) анализ. Семантический анализ основывается на результатах работы предыдущих фаз обработки текста. Результаты анализа, произведенного на ранних стадиях, могут быть многозначны: для выходных параметров указывается не одно, а сразу несколько возможных значений (проблема синонимии и полисемии). В таких случаях последующие стадии должны выбирать наиболее вероятные значения результатов ранних стадий анализа и уже на их основе проводить дальнейший анализ текста [Селезнев, ОС-12-2003]. Большинство методов семантического анализа, так или иначе, работают со смыслом слов. Общей для всех методов анализа база, позволяющая выявлять семантические отношения между словами, является тезаурус языка. На математическом уровне он представляет собой ориентированный граф, узлами которого являются слова в их основной словоформе. Для решения поставленных задач разработан ряд методов. Шенком [Селезнев, ОС-12-2003] предлагаются психолингвистический подход к анализу текстовой информации, основанный на двух идеях: - во-первых, при анализе одного предложения не обязательно рассматривать все его слова: смысл предложения можно определить по «ключевым» словам и наличию связей между ними; - во-вторых, представление результатов анализа текста в виде концептуальной сети, способно формально описать смысл, содержащийся в исходном тексте, являющийся семантической сетью с предопределенным набором типов узлов и дуг. В [Фомичев, ИТ-10-2002], [Фомичев, ИТ-11-2002] предлагается математическая модель системы первичных единиц концептуального уровня. Данная модель предлагается как средство описания смысловой структуры сложных реальных текстов на ЕЯ из произвольных предметных областей для создания лингвистических процессоров. Отличительная особенность модели, предлагаемой в данной работе, заключается в предположении, что при помощи 10 операций на концептуальных структурах, описываемых моделью, можно построить семантическое представление сколь угодно сложного связного текста. Построенная модель является одной из центральных составляющих теории К-исчислений и К-языков, несколько расширяя данную теорию.
|