Скачать 222.97 Kb.
|
Інформаційні системи УДК 004.415 К.А. Кудим, Г.Ю. Проскудина, В.А. Резниченко СОЗДАНИЕ НАУЧНЫХ ЭЛЕКТРОННЫХ БИБЛИОТЕКС ПОМОЩЬЮ СИСТЕМЫ DSPACEРассматриваются основные возможности и особенности DSpace как свободно распространяемой системы построения электронных научных библиотек. А также описан опыт построения многоязычной электронной библиотеки на ее основе.Введение Данная работа продолжает цикл публикаций [12], посвященных созданию электронных библиотек (ЭБ) на основе свободно распространяемого программного обеспечения с открытым кодом. Итогом данных работ стала разработка двух типовых институтских библиотечных веб-сайтов http://greenstone.isofts.kiev.ua, созданного на основе программного обеспечения (ПО) Greenstone и http://eprints. isofts.kiev.ua, созданного на основе ПО EPrints. За прошедший период в Институте программных систем НАН Украины изучена и опробована еще одна популярная система для построения научных ЭБ – DSpace. Согласно данным Registry of Open Access Repositories (ROAR) http://roar.eprints.org на май месяц 2007 года в мире функционирует 235 электронных архивов, созданных с использованием ПО DSpace. Наиболее крупный из них DSpace at Cambridge, насчитывающий 188395 записей. Известно, что в Украине есть «Открытый электронный архив гражданского общества» www.e-archive.org.ua, созданный на основе ПО DSpace; в России функционируют две библиотеки на DSpace: Уральского http://dspace.lib.usu.ru (общее количество записей – 1265) и Красноярского государственных университетов https://elib.krasu.ru (общее количество записей – 422). В настоящее время электронные коллекции, созданные с помощью этой системы, доступны в локальной сети нашего института, которые в дальнейшем предполагается открыть для всеобщего обозрения и доступа. Результатам проведенной разработки посвящена данная работа. DSpace является системой того же класса, что и рассмотренная ранее EPrints [2]. Обе являются бесплатными системами с открытыми исходными кодами, OAI-совместимыми [3], интероперабельными, эквивалентными по функциональности самоархивирования, и написаны одним и тем же программистом из Саутгемптона Робом Тэнсли (Rob Tansley). Сравнительной характеристике этих систем посвящена работа [4]. Предлагаемая работа посвящена описанию ПО DSpace и содержит историю создания и подобные проекты (раздел 2). Описание некоторых аспектов функциональности системы, в частности, описание модели данных, форматы файлов, виды метаданных, характеристики пользователей системы, их группы и права, описание процесса поглощения и занесения документов в систему, поиск и просмотр и др. (раздел 3). Поддержка многоязычности (раздел 4); установка и необходимое ПО (раздел 5); краткое описание проекта (раздел 6).
Платформа электронных библиотек DSpace разрабатывалась совместно компанией Hewlett-Packard и библиотеками MIT (Massachusetts Institute of Technology). 4-го ноября 2002 года система была запущена как действующая служба, поддерживаемая библиотеками MIT. Также на основании лицензии BSD [5] открыт исходный код с намерением поощрить формирование сообщества открытых кодов вокруг DSpace. DSpace формировалась под влиянием научных исследований в области систем электронных библиотек. Архитектура DSpace происходит из фреймворка Кана и Виленского для сервисов распределенных электронных объектов [6], а также из работ Армса и других по архитектуре электронной библиотеки [78]. DSpace основывается также на работе Лагозе и других по архитектуре FEDORA [9] и прототипе реализации FEDORA в университете Вирджинии [10]. Следующая существенная часть работы по созданию DSpace связана с OAIS (Open Archival Information System) [11], где определены все основные понятия и термины, используемые в DSpace. Система EPrints [12], разработанная в Университете Саутгемптона, имеет много сходства с DSpace, но оптимизирована так, чтобы обеспечить доступ к самостоятельному депонированию (внесению) автором материалов (статей, отчетов, книг и пр.), в то время как DSpace обеспечивает платформу для долгосрочного хранения цифровых материалов, используемых в академических исследованиях. Интерфейс пользователя для депонирования материалов в DSpace основан на опыте, полученном из разработки и использования интерфейса пользователя для депонирования системы EPrints. Интероперабельность с EPrints, в настоящее время частично может достигаться через использование протокола OAI для сбора метаданных (OAI-PMH) [3, 13], обеспечивающего сервис доступа к разным архивам. Среди систем того же класса можно также назвать ПО Greenstone Новозеландского проекта по ЭБ в Университете Waikato [14] – открытый инструмент создания ЭБ, главным образом сосредоточившийся на централизованной публикации документов (и других объектов коллекционирования), кроме того, CERN разработал ПО Сервер Документов CERN (CDSware) [15], который является сервером предварительной публикации научных документов.
DSpace функционирует как централизованный сервис организации. Разные подразделения в пределах учреждения (лаборатории, центры, школы или отделы) могут иметь свои собственные отдельные области в пределах системы. Члены данных подразделений непосредственно вносят контент через веб-интерфейс пользователя, который разработан так, что внесение осуществляется максимально просто. Альтернативно система предусматривает импорт множества элементов для пакетной загрузки контента. В каждом подразделении можно также назначить людей, которые могут просматривать и редактировать внесения перед тем, как они будут включены в основной репозиторий. Затем DSpace индексирует метаданные, поступившие вместе с электронным документом и делает их доступными согласно привилегиям доступа, определенным в данном подразделении. Функциональные аспекты DSpace [16]:
Рассмотрим более подробно некоторые из приведенных функциональных аспектов. 2.1. Модель данных. Способ организации данных в DSpace выбран таким образом, чтобы отразить структуру организации, использующей данную систему (рис. 1). Каждый сайт DSpace делится на разделы, соответствующие подразделениям организации. Раздел является самым высоким уровнем иерархии DSpace. Разделы могут содержать подразделы, т.е. могут образовывать иерархию. Разделы содержат коллекции логически связанных материалов. Каждая коллекция может принадлежать только одному разделу. Коллекция состоит из элементов, которые являются основной единицей или “атомом” архивирования. Элемент принадлежит одной и только одной коллекции (связь принадлежит), но дополнительно может быть отображен еще и в других коллекциях (связь включает). Элемент состоит из сгруппированного, связанного между собой содержимого и соответствующих описаний (метаданных). Метаданные, описывающие элемент, индексируются для навигации и поиска. Далее, элементы, в свою очередь, представляют собой наборы (связки) битовых потоков (файлов). Цель подобных наборов – хранить тесно связанные файлы вместе. В табл. 1 приведены примеры для каждого типа объекта модели данных. ![]() ![]() ^ . Каждый хранимый в системе файл связан с определенным форматом. Так как служба хранения основополагающая функция библиотечной системы, то для таких систем существенна возможность распознавать конкретные форматы файлов, загружаемые пользователями. Неотъемлемой частью формата файла является явно или скрыто выраженный способ интерпретации его содержимого. Список поддерживаемых форматов файлов приведен в табл. 2, в которой представлена система позволяющая сохранить и предоставить доступ к большинству наиболее известных типов файлов [17]. Таблица 2. Поддерживаемые форматы файлов
Каждый хранимый в DSpace-системе файл дополнительно характеризуется такими уровнями поддержки:
2.3. Метаданные. DSpace поддерживает три вида метаданных об архивируемом контенте. ^ Каждый элемент архива имеет одну запись метаданных в формате QDC, который не жестко основан на наборе элементов и квалификаторов профиля библиотечных приложений [18], обеспечиваемого в системе DSpace по умолчанию. Организации с другими требованиями могут его легко изменять, через реестр элементов и квалификаторов. Другие описательные наборы метаданных, например, UNIMARC, могут поддерживаться в обычных текстовых файлах. Разделы и коллекции имеют несколько простых описательных полей метаданных (имя и несколько описательных предложений), хранящихся в СУБД. ^ включают метаданные сохранности (preservation), происхождения (provenance) и политики авторизации данных. Большинство из них хранится в СУБД системы DSpace. Метаданные происхождения хранятся в записях DC. Дополнительно некоторые другие административные метаданные (например, размер файла или MIME-типы) копируются в записях DC так, чтобы они были легко доступны через протокол OAI. ^ включают информацию о том, как представлять элемент или файлы внутри элемента пользователям и отношения между составляющими частями элемента. В качестве примера, рассмотрим диссертацию, состоящую из набора TIFF-изображений, каждое из которых представляет отдельную страницу диссертации. Структурные метаданные должны включать информацию о том, что каждое изображение является одной страницей и о порядке изображений/страниц. Структурные метаданные в DSpace занимают довольно важное место. Внутри элемента, как было вышеописано, файлы могут быть упорядочены в отдельные наборы. Набор может иметь главный файл (primary bitstream). Дополнительные структурные метаданные могут сохраняться в простых текстовых файлах. 2.4. Пользователи, группы и права. Многие функции DSpace, например, просмотр и поиск документов в системе, могут выполняться анонимно, но чтобы выполнить внесение документов пользователю нужно зарегистрироваться. О каждом пользователе DSpace хранит следующую информацию:
DSpace обладает более продвинутой системой прав пользователя по сравнению с аналогичными библиотечными системами (например, EPrints), тесно связанной с применяемой моделью данных. Выделены такие группы пользователей: депоненты, администраторы, участники процесса депонирования, подписчики и пользователи с разрешением просматривать не общедоступные элементы. Группы пользователей можно также рассматривать в качестве ролей. Гибкая система прав доступа в DSpace позволяет ограничивать доступ к различным частям архива. Каждому разделу архива можно назначить группу пользователей, которым разрешается доступ к данному разделу. Каждой коллекции назначается множество из отдельных пользователей и групп, которые будут депонентами для этой коллекции, будут иметь доступ к содержимому, играть роль редакторов или администрировать коллекцию. Пользователь может быть ассоциирован с несколькими группами одновременно. Каждый пользователь группы наделяется соответствующими правами. Управление группами и отдельными пользователями осуществляется посредством веб-интерфейса и не требует, во-первых, специальных программистских навыков, во-вторых, доступа к операционной системе, где установлено программное обеспечение DSpace. Аналогично, редактирование прав доступа к разделу или коллекции осуществляется посредством веб-интерфейса. Чтобы иметь доступ к функциям управления, необходимо войти в систему с правами администратора. Гибкая система авторизации DSpace основана на привязке действий к объектам (политики ресурсов) и списков пользователей (групп), которые могут их выполнять. Существует две специальные группы – “администраторы”, где пользователи могут совершать любые действия, и “анонимный”, которая содержит всех пользователей системы. Назначение политики действия для элемента группе пользователей “анонимный” означает, что каждый пользователь системы может совершать это действие. Например, большинство элементов DSpace имеют политику для анонимных пользователей ЧТЕНИЕ. Чтобы пользователь мог выполнить действие с объектом системы, он должен иметь разрешение, которое должно быть задано явно. В табл. 3 и 4 представлен перечень возможных действий, которые понимает система авторизации и политики ресурсов. Таблица 3. Возможные действия в DSpace
Обращаем внимание, что здесь нет действия УДАЛИТЬ. Для того, чтобы “удалить” объект из архива (например, элемент) нужно иметь разрешение ИЗЪЯТЬ на все объекты (в данном случае, коллекцию), которая его содержит. В идеале, ничто поступающее в систему DSpace не должно когда-либо удаляться; однако, практические и юридические факторы иногда требуют удаления. Элементы могут быть удалены из DSpace одним из двух способов. Они могут быть “изъяты”, что означает, что они остаются в архиве, но полностью скрыты для обозрения. В этом случае, если пользователь пытается получить доступ к изъятому элементу, ему посылается сообщение, указывающее, что элемент был удален. В другом случае, элемент может также быть “удален”, когда все его следы удалены из архива. ^ На рис. 2 показан процесс поглощения в системе DSpace. Приложение “пакетный импорт элементов” (Batch Item Importer) преобразовывает внешний SIP (Submission Information Package – пакет подачи информации) [11] (XML-документ метаданных и несколько файлов контента) в объект “процесса приема” (In Progress Submission). Аналогично для сборки объекта “процесса приема” используется передача элементов конечным пользователем через веб-интерфейс. Таблица 4. Политики ресурсов в DSpace
![]() Рис. 2. Процесс поглощения в DSpace В зависимости от политики коллекции, в которую нацелено внесение, может стартовать рабочий процесс (workflow), что позволяет редакторам или контролерам осуществлять проверку вносимых материалов и гарантировать его пригодность для включения в коллекцию. Когда завершен процесс внесения пакетный или через веб-интерфейс, то включается следующий шаг поглощения – рабочий процесс (workflow) либо “инсталлятор элемента” (Item Installer). В DC добавляется сообщение о “происхождении” (provenance message), которое включает имена файлов и контрольные суммы вносимого контента. Подобным же образом, всякий раз, когда рабочий процесс изменяет состояние (например, редактор разрешил внесение), добавляется аналогичное предложение “происхождения”. Это позволяет проследить, как элемент изменился с тех пор, как его внес пользователь. Также в DSpace применяется система историй (History system), однако “происхождение” облегчает получение доступа в конкретный момент. Как только успешно завершен рабочий процесс, объект “процесса приема” поглощается “инсталлятором элемента”, который конвертирует его в полностью соответствующий репозиторию DSpace элемент. “Инсталлятор элемента”:
Когда новый пользователь регистрируется в системе, ему выделяется отдельная рабочая область, куда он может загружать свои документы. Последовательность занесения в DSpace описана далее (конфигурация по умолчанию):
^ DSpace позволяет конечным пользователям обнаруживать контент множеством способов:
Поиск – существенный компонент обнаружения объектов в любой библиотечной системе. Учитывая высокие пользовательские требования к поисковым машинам, предоставление как можно большего числа поисковых возможностей – важная особенность DSpace. Модуль индексации и поиска DSpace имеет очень простой API, который предоставляет возможность индексации нового контента, регенерации индекса и выполнения поиска по всему архиву, разделу, подразделу или коллекции. За API стоит свободно распространяемая поисковая Java-машина Lucene. Lucene предоставляет поиск по полям метаданных, удаление стоп-слов, выполнение поиска слова во всех его морфологических формах, возможность инкрементно добавлять новый индексируемый контент без регенерации всего индекса. Индексы поиска конфигурируемы, что позволяет организациям настраивать индексируемые поля метаданных. Система предоставляет простой и расширенный поиск (рис. 3). Следующий важный механизм обнаружения материалов в DSpace является просмотр - процесс где пользователь просматривает конкретный индекс, например, индекс названия, и в процессе поиска интересующих элементов проводит по нему навигацию. Подсистема просмотра обеспечивает простой API, где предоставляется возможность определить индекс и его подраздел. Затем подсистема просмотра раскрывает часть интересующего индекса. Индексы, которые могут быть просмотрены: название элемента (рис. 4), автор элемента, дата выпуска элемента и предметные термины. Дополнительно, просмотр может ограничиваться до элементов внутри определенной коллекции или раздела. ^ Инициатива «Открытые архивы» (ОАІ, Open Archives Initiative) разработала протокол для сбора метаданных ОАІ-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) [13]. Это позволило сайтам программно извлекать и собирать метаданные из нескольких источников и предлагать сервисы, используя эти метаданные, например, индексацию или сервисы связи. Такой сервис позволяет пользователям получать доступ к информации от большого числа сайтов, объединенных в центральном каталоге. ![]() ![]() Можно также конфигурировать сервис OAI воспользовавшись плагинами перехода (crosswalk plugins) для того, чтобы предложить дополнительные форматы метаданных, например MODS. Плагины переходов предусмотрены для реализации функций экспорта и импорта в системе. Эти программные модули осуществляют перевод между метаданными DSpace-объектов и определенным внешним представлением. Как правило, это пары плагинов для импорта и экспорта. Например, из формата метаданных MODS во внутренний формат DSpace и наоборот. Используемые плагины перечислены в конфигурационном файле. Инсталляция DSpace 1.4.1 включает следующие плагины переходов, используемые в рамках протокола ОАІ-PMH:
2.8. Подписка. Вышеотмечено, что конечные пользователи могут “подписаться” на коллекции через пользовательский веб-интерфейс, для того чтобы быть уведомленными о поступлении новых элементов в эти коллекции. Ежедневно конечные пользователи, подписанные на одну или несколько коллекций, получают по электронной почте краткое сообщение обо всех новых поступлениях в какую-либо из подписанных коллекций за предыдущий день. Если ни в одну из подписанных коллекций ничего не поступило, то сообщение не посылается. В любое время пользователи могут отказаться от подписки. 2.9. История. Информация о происхождении, предоставляемая в повествовательной форме, очень полезна, но она программно не управляема. Система истории фиксирует временные характеристики существенных изменений, происходящих в DSpace. В настоящее время, подсистема истории вызывается явно, когда происходят существенные события (например, DSpace принимает элемент в архив). В этом случае подсистема истории создает данные в формате RDF [22], описывая текущее состояние объекта. RDF-данные моделируются с использованием ABC-модели [23], онтологии для описания временных данных, и сохраняются в файловой системе.
В DSpace приемлемый уровень локализации достигается с помощью сторонних дополнений. Прежде всего опишем основную версию системы, а затем дополнения и исправления от сторонних разработчиков. В DSpace есть только один ресурсный файл, содержащий большинство фраз интерфейса. Чтобы локализовать интерфейс, необходимо иметь перевод этого файла с видоизмененным именем. Когда пользователь входит в систему через веб-интерфейс, язык определяется автоматически по предпочтениям, указанным в веб-браузере. Переключение языков недоступно. Шаблоны писем электронной почты и файлы помощи не включены в локализацию. Нет также возможности ввести новости и описания коллекций на разных языках. Однако, существует несколько сторонних дополнений к системе, добавляющих переключение языков, возможность локализовать сообщения электронной почты и тексты справки. Имена коллекций и разделов, их описания, новости сайта остаются непереводимыми. Значения метаданных могут быть добавлены на нескольких языках, хотя и не в обычном процессе депонирования, а на дополнительном шаге редактирования метаданных (это означает, что нужно провести дополнительные необычные манипуляции). Тем не менее, только первое из введенных значений используется для отображения на экране, вне зависимости от языка. Единственное исключение – возможность вводить альтернативные заглавия документа.
Установка и изначальная конфигурация для обеих систем может быть выполнена в течение одного рабочего дня при наличии опыта установки программного обеспечения на базовой операционной системе и собственно установочных файлов системы электронных библиотек. А также свободно распространяемого программного обеспечения:
После установки программного обеспечения, необходимого для DSpace, систему распаковать и сконфигурировать, отредактировав конфигурационный файл. После чего добавить задания в cron таблицу: периодическая очистка базы данных, индексация, рассылка почты и сбор статистики. Заключение Анализ ряда программных продуктов, реализующих системы электронных библиотек был проведен в рамках проекта по информатизации НАН Украины “Разработка проектных решений автоматизированного библиотечного сервиса в интересах организаций НАН Украины”. Выбрано несколько систем, среди которых рассматривались DSpace и EPrints. Обе системы успешно установлены и запущены как действующие службы в локальной сети DSpace, а EPrints доступен по адресу http://eprints.isofts.kiev.ua.
Получено 24.04.2007 Об авторах: Резниченко Валерий Анатольевич, кандидат физико-математических наук, старший научный сотрудник, Проскудина Галина Юрьевна, научный сотрудник, Кудим Кузьма Алексеевич, аспирант Института программных систем НАН Украины. Место работы авторов: Институт программных систем НАН Украины, 03187, Киев-187, проспект Академика Глушкова, 40. Тел. (044) 526 5139, 526 6033 Email: reznich@isofts.kiev.ua gupros@isofts.kiev.ua kuzma@isofts.kiev.ua © К.А. Кудим, Г.Ю. Проскудина, В.А. Резниченко, 2007 ISSN 1727-4907. Проблеми програмування. 2007. № 3 |
![]() | Проанализированы традиционные методы адаптации информационного поиска, выделены методы, которые целесообразно использовать в информационно-поисковых... | ![]() | ... |
![]() | ... | ![]() | Российской государственной библиотеке состоится Восьмая научно-практическая конференция Российской ассоциации электронных библиотек... |
![]() | Под общей редакцией и с предисловием академика Н. Н. Иноземцева и члена-корреспондента ан СССР а. Г. Милейковского | ![]() | Интернет. Был проведен сравнительный анализ двух крупнейших библиотек г. Симферополя с точки зрения эффективности предоставляемых... |
![]() | Правильный выбор программного обеспечения (ПО), которое бы максимально полно удовлетворило потребности учебных и научных организаций,... | ![]() | Целью работы является создание информационной управляющей системы конструкторской подготовки производства электронных аппаратов посредством... |
![]() | Оформить отчет по лабораторной работе, в который включить название темы, цель работы, результаты проделанной работы, ответы на контрольные... | ![]() | Оформить отчет по лабораторной работе, в который включить название темы, цель работы, результаты проделанной работы, ответы на контрольные... |