Координатное индексирование в Кемеровской ОНБ
на базе OPAC-midi


Тютчева Н. И.,
гл. библиотекарь
Центра комплектования и каталогизации
Кемеровской областной научной
библиотеки им. В.Д.Федорова.
e-mail: yana@kemrsl.ru

 

 

 

 

I

Ключевое слово - это информативное слово, приведенное в стандартной лексикографической форме и используемое для координатного индексирования.

В традиционном понимании ключевым словом называются полнозначные слова, устойчивые сложные и сложносокращенные слова и терминологические словосочетания, несущие смысловую нагрузку в текстах и документах.

Ключевые слова используются в процессе координатного индексирования, которое предусматривает многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Основное правило, которого должен придерживаться каждый каталогизатор при создании поисковый образдокумента (ПОД) с помощью ключевых слов - каждое из выбранных ключевых слов должно точно соответствовать источнику, из которого оно взято, точно отражать основное тематическое содержание такой работы, т. е. быть наиболее репрезентативным, иметь более высокий ранг по сравнению с другими возможными ключевыми словами. Критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте.

Необходимость использования языка ключевых слов

Использование КС как языка координатного индексирования было вызвано необходимостью компенсировать главный недостаток классификационных рубрикаторов (УДК, ББК) - невозможность вместить все разнообразие литературы в формальные рамки.

Это связано с тем, что множество работ находятся на стыке двух или нескольких научных направлений, что затрудняет их точную классификацию. Пользователи, работая с традиционным тематическим каталогом, зачастую испытывают трудности при попытке извлечения полезной информации узкого тематического диапазона. И далеко не всегда даже библиографы высокой классификации могут помочь в таких поисках.

Гораздо более эффективным представляется сопоставление каждому первоисточнику определенного набора ключевых слов и выражений. Язык ключевых слов обладает таким преимуществом, как гибкость, открытость, близость к естественному языку. Второе достоинство - на сегодняшний день именно дескрипторные языки наилучшим образом приспособлены для описания документов и запросов при автоматизированном поиске в текстовых БД.

Вместе с тем метод поиска по ключевым словам из заглавий - KWIC (Key Words in the Context) получил в литературе характеристику "быстрый и грязный". По мнению некоторых исследователей, использование ключевых слов из заглавий может представлять некоторую ценность лишь как дополнительный источник тезаурусной лексики, причем, скорее всего, только для технической и естественнонаучной литературы.

Нужны ли библиотекам, работающим с предметными рубриками, ключевые слова?

Н.П. Никольцева (РГБ) ставит вопрос о том, целесообразно ли использовать ключевые слова, если имеется язык предметных рубрик? Нужно ли дополнять ПОД ключевыми словами?
Результаты эксперимента, который был проведен Н.П. Никольцевой, показал, что целесообразно использовать ключевые слова (см. далее КС) для дополнительного раскрытия содержания документа на более глубоком уровне при условии, что ключевые слова не будут повторять предметные рубрики (см. далее ПР), для увеличения полноты и детальности индексирования, для отражения побочных тем документа. В ПОДе будут находится ПР (нормализованная лексика) и КС в редакции автора. Такой подход удобен для всех категорий читателей: для тех, кто примерно знает, что хочет найти (для этого удобно использование ПР) и для тех, кто может спросить что-то очень специфическое (по КС).

Использование языка КС может быть особенно интересно для областных, профильных, узкоспециализированных библиотек, библиотек с неразвитым аппаратом ПР или специальных БД, например по краеведению, где часто источниками информации могут служить газетные публикации, сборники или монографии, которые посвящены другим предметам, но содержат данные, интересные для краеведов. В этих случаях индексирование КС будет являться очень ценным дополнением к другим средствам индексирования, а в некоторых случаях и единственным.

Библиотеки, использующие ключевые слова

Многие библиотеки России, стран ближнего и дальнего зарубежья активно используют язык ключевых слов в индексировании документов. Это:
- ГПНТБ, основной интерфейс которой выстроен с расчетом на тематический поиск по ключевым словам. Для организации поиска в поисковой системе создан "Словарь", в котором посетитель может просмотреть список всех ключевых слов и выражений. Именно такой интерфейс признан оптимальным и применяется в большинстве поисковых систем баз данных;
- Центральная научная сельскохозяйственная библиотека;
- РГБ, в объединенном электронном каталоге которой возможен поиск по всем полям, включая ключевые слова и индекс ББК;
- НБ Санкт-Петербургского государственного университета, которая предоставляет пользователю расширенный поиск на основе ключевых слов и выражений;
- ЦНБ Национальной академии наук Беларуси, в которой пользуются двумя языками - УДК и ключевыми словами;
- Научная библиотека Алтайского государственного университета;
- Алтайская краевая универсальная научная библиотека (АКУНБ);
- Кемеровская ОНБ им. В.Д.Федорова и др.

Опыт библиотек Казахстана показывает, что в практике индексирования предпочтительнее язык ключевых терминов. Пользователи заинтересованы в ключевых терминах, которые являются для них наиболее понятным поисковым средством. Практика показывает, что при поиске с помощью ключевых слов удается найти большее число релевантных документов, чем при обращении к предметным рубрикам.

В Национальной Библиотеке Республики Татарстан считают, что особую роль в повышении эффективности поиска по электронному каталогу играют ключевые слова. Т.к. формулировка ключевых слов является одним из процессов индексирования, то выбор ключевых слов и формы их представления определяются систематизаторами с точки зрения их индивидуального подхода. Поэтому возникает проблема постоянной корректировки, обновления словаря ключевых слов.

Что используют библиотеки для создания КС?

В ЦНБ Национальной академии наук Беларуси при определении ключевых слов используются УДК, АПУ к систематическому каталогу, различные терминологические словари и тезаурусы.

При определении нормированного списка ключевых слов национальная библиотека Татарстана использует таблицы классификации, различные справочные издания (терминологические словари, энциклопедии.

Формирование набора ключевых слов - задача не простая. В практике существуют два способа формирования ключевых слов: существует свободное индексирование и индексирование нормативное. Свободное индексирование - индексирование, технология которого не предусматривает замену Ключевых Слов текста в соответствии с рекомендациями специального словаря.

"Пишите слова", - призывали разработчики автоматизированных библиотечных систем, иногда называя эти "слова" предметными рубриками, а чаще ключевыми словами, но никогда не указывали на то, откуда их взять. Брали кто откуда, по-русски говоря, "как Бог на душу положит". Чаще всего прямо из заглавия, с титульного листа…

Индексирование КС признается специалистами наименее эффективным методом потому, что непосредственно в процессе индексирования создается неуправляемый словарь. С началом "накопления массива" становится ясно, что поиск в нем осуществлять будет трудно.

Вместе с его ростом выявляются и определенные недостатки, затрудняющие пользование словарем КС. Это:
1) в списках ключевых слов, как правило, используются нестандартизованные термины, которые не всегда адекватно отражают суть описываемого "предмета" (явления, объекта, процесса и т.п.), во всяком случае, у автора, систематизатора и читателя могут существовать различные описания этого "предмета";
2) в списках ключевых слов не отражена многозначность понятий и описывающих эти понятия терминов (омонимы и синонимы). Например, термину "компьютер", могут соответствовать термины "ЭВМ", "ПК", и др. Более того, некоторые специалисты в данном случае используют такие термины, как "компьютеры" (множественное число), "персональный компьютер" (раскрытие аббревиатуры) и др. При этом засоряется словарь ключевых слов;
3) в списках ключевых слов не отражены смысловые связи между терминами (понятиями), а алфавитная последовательность терминов усугубляет этот недостаток, удаляя друг от друга родственные либо связанные понятия.
4) библиотеки по-разному вводят ключевые слова: в единственном и (или) множественном числе, отдельными словами или словосочетаниями, причем как в прямом, так и (или) в инверсном вариантах: например, легкая промышленность или промышленность легкая.
Нормализовать словарь КС можно за счет упорядочения синонимов, введения стандартных подзаголовков, унификации форм наименований.

Специалисты из НБ Южно-Уральского гос. университета (А. А. Гаврилин, О. М. Вардугина) считают, что при поиске литературы по определенной теме с использованием поискового поля "Ключевые слова", у пользователей возникали сложности при формулировании ключевой фразы. Практика показала, что в этом случае пользователю удобнее выбирать из упорядоченного по алфавиту списка тематических рубрик или ключевых слов. То же самое подтверждают специалисты ЦГБ г. Новоуральска: поиск без тезауруса по свободным ключевым словам, выбираемым индексатором, усложняет процесс нахождения нужной читателю информации.

Ориентация библиотек с ненормализованной лексикой на лексику естественного языка негативно сказывается на качестве поиска информации (прежде всего на показателях полноты и точности). В условиях корпоративной каталогизации отсутствие единой методики координатного индексирования могут лишь ухудшить поиск в сводных корпоративных каталогах.

Итак, практика использования библиотеками КС показала, что библиотеки вплотную подошли к проблеме нормализации словарей (словников) КС. Более того, тенденции унификации библиотечных процессов в рамках корпоративной каталогизации на сегодняшний день требуют если не создания Национального файла ключевых слов, то хотя бы использования общих для всех библиотек правил по созданию (формированию) КС.

Чьи методики используют библиотеки для формирования своего словаря КС?

Показателем высокого качества индексирования является составление словарей КС по единой методике.
В настоящее время многие специалисты отмечают недостаточное количество доступных для библиотекарей методических материалов по индексированию документов ключевыми словами (КС).

Основными документами, которые могут быть использованы при составлении методики индексирования КС, можно считать:
ГОСТ 7.25-80. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления.
ГОСТ 7.66-92. Индексирование документов. Общие требования к координатному индексированию.
ГОСТ 7.59-2003. Индексирование документов. Общие требования к систематизации и предметизации.
СТБ 7.74-2002. Информационно-поисковые языки. Термины и определения. В СТБ дано определение понятия "язык ключевых слов".

Специалисты многих библиотек, в которых используется индексирование документов ключевыми словами, составляют собственные методики, исходя из имеющихся ГОСТов, учебных пособий и опыта работы по созданию ЭК и БД. Примером таких документов могут служить:
- Методика составления ключевых слов для электронного каталога библиотеки ВГУ им. П.М. Машерова : [рукопись]. - Витебск, 2003.- 13 с.
- Инструкция по индексированию входного потока документов для формирования массива электронного каталога / М-во культуры и печати РБ, НББ. - Мн., 1995.

Базируясь на своих методических принципах, национальная библиотека Татарстана разработала свой список ключевых слов, взяв в качестве вспомогательного материала уже готовый словарь нормализованной лексики (терминов), разработанный Московским государственным университетом. В нем ключевые слова сгруппированы по системе знаний, а также методическое пособие, составленное Казанским государственным университетом, "Методические рекомендации по координатному индексированию документов".

Научная библиотека Алтайского государственного университета начала с разработки методических рекомендаций по координатному индексированию. В основу рекомендаций были положены ГОСТ 7.66-92 "Индексирование документов. Общие требования к координатному индексированию" и рекомендации, разработанные Научной библиотекой Санкт-Петербургского университета экономики и финансов. Сейчас библиотека пользуется уже третьей редакцией рекомендаций, утвержденных в мае 2001 года.

Центральной научной библиотеки Национальной Академии наук Беларуси разработана методика составления ключевых слов для электронного каталога с учетом ГОСТа 7.1-84.

Создание перечня (словаря, словника КС)

В ЦНБ Национальной академии наук Беларуси большое значение имеет создание перечня ключевых слов в виде словаря, по которому осуществляется предметный поиск документа и сводится к минимуму субъективное влияние личности систематизатора при формировании ключевых слов. Словарь ключевых слов пополняется по мере обработки новых документов.

Многие библиотеки Казахстана ведут базу данных ключевых слов.

Для решения этой проблемы в национальной библиотеке Татарстана действует методическая группа по нормированию составления ключевых слов, сбору, анализу и обработке словарей ключевых слов для создания на их основе согласованных словарей.

Задача создания "хорошего" ИПТ является настолько сложной, что ее удовлетворительное решение, по мнению специалистов, возможно только для сравнительно узкой предметной области (например, для информатики, философии, какой-либо отрасли права и т.п.), а в практике создания библиотечных систем преобладают простые "словари ключевых слов", которые используются в одном из двух вариантов:
а) выбор ключевого слова (словосочетания или некого фрагмента текста, например, заголовка или подзаголовка статьи) из текста документа и запись его в справочник или в инвертированный файл;
б) выбор ключевого слова (словосочетания) из заранее подготовленного списка, который может при необходимости пополняться в процессе индексирования.

Объем КС на один документ

Библиотеки Казахстана считают, что не стоит на один документ заводить 8-10 ключевых слов, так как в последствии затруднит поиск, достаточно 4-5 слов.

Важным элементом является количество ключевых слов, описывающих один документ. Считается, что оно должно быть не менее 10 и не более 20-25. Понятно, что даже 10 ключевых слов не всегда легко присвоить конкретному документу, и эта процедура отнимает немало времени.

Перспективы использования словарей КС в библиотеках

Цель библиотек на сегодня - разработка или приобретение библиотеками тезаурусов (словников) КС. Необходимо разработать и распространить повсеместно машиночитаемые файлы национальных файлов авторитетных данных - ключевых слов, классификационных таблиц, географических названий и т. д.

Между тем в России проблемой создания национальных авторитетных файлов занимаются ведущие библиотеки и информационные организации. РКП создает и поддерживает ведение файлов заголовков индивидуальных авторов, РНБ - заголовков коллективных авторов и предметных рубрик, РГБ - индексов ББК, ГПНТБ России - индексов УДК и Дьюи, ИНИОН - контролируемых ключевых слов (ИНИОН подготовил тезаурусы по экономике и демографии, по философии, по правоведению; их можно заказать по каталогу Роспечати). Некоторые крупнейшие отраслевые библиотеки страны создают файлы предметных рубрик: ГЦНМБ - по медицине и здравоохранению, ЦНСХБ - по сельскому хозяйству, ГПНБ - по образованию.

При индексировании документов важно унифицировать этот процесс, используя соответствующие методические и регламентирующие документы.

Унификации индексирования способствует использование существующих ГОСТов:
- 7.59-90 Индексирование документов. Общие требования к систематизации и предметизации (с января 2003 г. вступает в действие новый ГОСТ 7.59-2002),
- 7.66-92 Индексирование документов. Общие требования к координатному индексированию.

Многие библиотеки разрабатывают собственные инструктивно-методические документы, посвященные различным составляющим системы ЛО ЭК. Например, приступив к использованию дескрипторного языка, ранее не применявшегося, библиотеки начали разрабатывать различные инструкции, рекомендации, памятки по координатному индексированию.

Каждый ИПЯ имеет свои достоинства и недостатки, поэтому проблему повышения эффективности поиска целесообразно решать путем использования достоинств каждого из языков индексирования. Сотрудник ГПНТБ СО РАН Г.А. Скарук считает, что необходимо обсудить условия оптимального сочетания и взаимодополнения нескольких ИПЯ, используемых в ЭК.

Совместимость лингвистических средств

Совместимость - это возможность использования в различных БД поисковых образов документов на одном ИПЯ, а поисковых предписаний на другом, иначе говоря, на запросы, сформулированные на одном ИПЯ, должны быть даны ответы в различных БД.

Совместимость лингвистических средств - одна из важнейших проблем разработки ЛО.

Существует несколько следующих методов совместимости лингвистических средств:
- методологическая совместимость;
- стандартизация и унификация языковых средств;
- создание универсальных языковых средств;
- сосуществование разных ИПЯ в ЭК.

Обеспечить лингвистическую совместимость позволяют рубрикаторы, классификаторы, унифицированные коммуникативные форматы представления информации в БД, тезаурусы и др. Использование единых рубрикаторов, классификаторов, тезаурусов и т.д. позволяет решить проблему лингвистической совместимости. Совместимость средств ЛО различных БД существенно облегчит поиск и обмен необходимой информации.

Например, в библиотеке Национальной юридической академии Украины им. Я.Мудрого одним из возможностей преодоления упомянутых недостатков является разработка и внедрение в ПП "САБ" информационно-поискового тезауруса как систему связей между терминами, входящими в состав справочника ключевых слов, а также между упомянутыми ключевыми словами и классификационными индексами других компонентов АБИС (УДК, ББК и Рубрикатора".

"Создать и внедрить в действующую систему (АБИС) информационно-поисковый тезаурус (ИПТ) как систему связей между терминами, входящими в состав справочника ключевых слов, а также между упомянутыми ключевыми словами и классификационными индексами других компонентов АБИС (УДК, ББК и Рубрикатора").

"На основе согласованного применения всех вышеперечисленных компонентов создать и внедрить интегрированную систему комплексного индексирования документов для электронного каталога (ИСКИД)"

II

В Кемеровской ОНБ Работа с КС ведется с января 2008г. с перерывами, вызванными технологическими и финансовыми проблемами.

Реально наш отдел работал в OPAC-midi в январе-феврале месяце, а затем мы возобновили работу в OPAC с сентября месяца. Но так как лето и сентябрь - период отпусков, часть сотрудников находились в отпусках, то реальную картину работы в OPAC мы получим только с октября месяца.
Результаты работы в OPAC представлены в таблице 1 и на рис.1.

Таблица 1

2008г.
Обработано книг
Создано ПР
Создано КС
Январь
311
642
39
февраль
278
683
37
Октябрь
779
939
72
ноябрь
395
971
105

Рис. 1.

На рисунке 2 представлены примеры предметных рубрик и ключевых слов на издание.

Рис. 2.