Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Примеры индексирования документов в конкретной библиографической базе данных





 

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Шмелев К. С металлом в голосе//Мир денег. – 1998. – 15 апр. – С. 2.

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ-кобзоновская. Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = 3ахар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т.п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны, вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор св. апостолов Петра и Павла?

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то не ясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:

Театр им. Ленинского комсомола, см. Балтийский дом.

Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:

Центральный выставочный зал, см. Манеж.

Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.

В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор. Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.

Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник. Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно. У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.

Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок. Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом. Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена – вся информация, не имеющая отношения к делу, при этом исключается. Для одной части уравнения подбираются такие ключевые слова, как организованная преступность, ОПГ–тамбовская, для другой – нефть, бензин, бензиновый кризис. В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу. Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того, чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ–тамбовская» и «бензиновый кризис».

При формулировании темы поиска для запроса журналисту следует особое внимание уделять используемой при этом лексике. Ведь языковые средства, которые мы не задумываясь применяем в обыденной речи, отличаются от нормативного словаря, с которым работает библиограф. Например, ваше ключевое слово «барахолка» – столь привычное и понятное, но имеющее в словаре помету «просторечное» – лучше заменить на «вещевой рынок», поскольку библиограф занес в словарь, скорее всего, именно этот термин.

Отобрав первичную и вторичную информацию по интересующей его теме и смежным темам из всех доступных (с разумными затратами времени и средств) источников, журналист может систематизировать ее и составить аналитическую справку.

 







Дата добавления: 2015-07-04; просмотров: 560. Нарушение авторских прав; Мы поможем в написании вашей работы!




Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...


Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...


Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...


Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Медицинская документация родильного дома Учетные формы родильного дома № 111/у Индивидуальная карта беременной и родильницы № 113/у Обменная карта родильного дома...

Основные разделы работы участкового врача-педиатра Ведущей фигурой в организации внебольничной помощи детям является участковый врач-педиатр детской городской поликлиники...

Ученые, внесшие большой вклад в развитие науки биологии Краткая история развития биологии. Чарльз Дарвин (1809 -1882)- основной труд « О происхождении видов путем естественного отбора или Сохранение благоприятствующих пород в борьбе за жизнь»...

Дезинфекция предметов ухода, инструментов однократного и многократного использования   Дезинфекция изделий медицинского назначения проводится с целью уничтожения патогенных и условно-патогенных микроорганизмов - вирусов (в т...

Машины и механизмы для нарезки овощей В зависимости от назначения овощерезательные машины подразделяются на две группы: машины для нарезки сырых и вареных овощей...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия