Anzeige
Anzeige
Software
Artikel merken

Fedora und DSpace im Praxiseinsatz: Archivierung mit Open-Source-Software

Auch wenn es vielen unmöglich erschien: Open Source erobert nun auch das scheinbar langweilige, staubige Archiv, das bisher standhaft allen Veränderungen trotzte. Inzwischen gibt es sogar Open-Source-Software für diesen Bereich mit innovativen Ansätzen. An zwei Beispielen werden in diesem Artikel die Möglichkeiten und Grenzen solcher Software aufgezeigt.

7 Min. Lesezeit
Anzeige
Anzeige

Die Auswahl der Beispiele Fedora und DSpace für diesen Artikel kam nicht willkürlich zustande: Beide Systeme unterstützen den OAI-Standard. OAI steht für Open Archive Initiative [1] und ist eine Gruppe von interessierten Institutionen, hauptsächlich Bibliotheken und Archive. Diese haben sich zur Aufgabe gemacht, einen Standard zu entwickeln, der den Austausch von Metadaten zwischen Bibliotheken beziehungsweise Archiven erleichtert. Dabei entstand der Standard „Open Archive Initiative Protocol for Metadata Harvesting“ (OAI-PMH). Dieser Standard ermöglicht, mit einer einzigen Schnittstelle auf unterschiedliche Archive zugreifen zu können, um die Metadaten zu holen. Die Schnittstelle bietet keine eigene Abfragemöglichkeit, sondern dient nur der Zusammenfassung von Metadaten aus unterschiedlichen Archiven an einer zentralen Stelle. Der Zugriff auf die hinter den Metadaten liegenden Inhalte (Dateien, Dokumente) ist in der Schnittstelle nicht vorgesehen. Technisch basiert der Standard auf HTTP und XML, da davon ausgegangen wurde, dass die Archive im Internet verfügbar sind.

Anzeige
Anzeige

Der Schwerpunkt des OAI-Standards und der oben genannten Open-Source-Produkte liegt nicht auf der Archivierung im Sinne einer Langzeitspeicherung von Daten, sondern auf der einfachen und einheitlichen Bereitstellung der Metadaten. Alle Produkte sind allerdings in der Lage, mit der entsprechenden Hardware auch eine Langzeitarchivierung zu ermöglichen. Eine Verwaltung der Speichersysteme gehört zu keinem der Produkte, kann aber durch die dokumentierte Speicherschnittstelle hinzugefügt werden.

Fedora, die innovative Archivierung

Fedora [2], nicht zu verwechseln mit der gleichnamigen Linux-Distribution von Red Hat, steht für Flexible Extensible Digital Object and Repository Architecture und wird von der Cornell University und der University of Virginia entwickelt. Finanzielle Unterstützung kommt von der Andrew W. Mellon Foundation, die die Weiterentwicklung bis mindestens 2007 sichert. Fedora liegt inzwischen in Version 2.1.1 vor. Die erste Version wurde im Mai 2003 veröffentlicht.

Anzeige
Anzeige

Die Installation ist gut beschrieben und kann relativ einfach
durchgeführt werden. Da es sich um eine Java-Implementierung handelt,
ist Fedora für Unix, Linux und Windows verfügbar. Vorausgesetzt wird
das Sun Java Software Development Kit in Version 1.4 oder höher. Fedora
verwendet einen in der binären Distribution mitinstallierten Apache
Tomcat 5 als Applikationsserver. Als Datenbanken können MySQL ab
Version 3.23.x, MySQL 4.x oder Oracle 9i verwendet werden. Ist keine
dieser Datenbanken vorhanden, kann auch die Open-Source-Datenbank McKoi
mitinstalliert werden.

Anzeige
Anzeige

Ein bemerkenswertes Feature von Fedora ist, dass das System
beliebige digitale Objekte (Textdateien, Bilder, Videos, Webseiten
usw.) selbst speichern oder als Referenz (z. B. URL) verwalten kann.

Dabei kann Fedora das Auflösen der Referenz selbst durchführen oder alternativ nur die Referenz selbst liefern. Unter dem Namen Disseminator wird eine besondere Funktionalität eingeführt, mit der Objekte mit Web Services verbunden werden können. Diese können unmittelbar zusammen mit dem Objekt aufgerufen werden. Ein übliches Anwendungsfeld ist das Erstellen von sogenannten Renditions „on the fly“. Damit kann abhängig vom Aufruf des Objekts die Darstellung der Inhalte variiert werden.

Anzeige
Anzeige

Ein weiteres bemerkenswertes Feature ist die Möglichkeit, Objekte in Fedora miteinander in Beziehung zu setzen. Diese Beziehung wird als Triple in der Form von Subjekt, Prädikat und Objekt beschrieben. Damit lassen sich beliebige Beziehungen beschreiben. Beispiel: Objekt A (=Subjekt) ist ein Kapitel (=Prädikat) von Objekt B(=Objekt). Ermöglicht wird diese sehr flexible, in Graphen darstellbare Indizierung durch die Verwendung der Metadatenbank Kowari, einem Open-Source-Produkt von Tucana Technologies [3]. Die Datenbank orientiert sich an den Vorgaben des W3C- Standards RDF (Resource Description Framework) [4]. Weitere Features sind:

  • Zugriffskontrollmechanismen
  • Versionierung
  • Indizierung entsprechend dem Dublin Core
  • [5]

  • XML Im- und Export

Als Schnittstellen werden zwei SOAP-basierte Web Services bereitgestellt, die Management- und die Access-API. In eingeschränkter Weise werden diese auch als HTTP-Service, basierend auf REST (Representional State Transfer) [6], bereitgestellt. Zusätzlich werden zwei Suchschnittstellen angeboten, eine für die einfache Suche in der relationalen Datenbank und eine für die Suche in der Kowari-Datenbank.

Fedora ist keine Software, die direkt nach der Installation bereits eingesetzt werden kann. Sie setzt immer einen Aufwand für die Integration in bereits bestehende oder neu zu erstellende Anwendungen voraus. Dazu gehören die oben genannten Schnittstellen und eine Administrationsapplikation, die die Verwendung von Fedora erst ermöglichen.

Anzeige
Anzeige

DSpace, die sofort einsetzbare Alternative

Die Open-Source-Software DSpace [7] wurde von Hewlett-Packard (HP) und dem Massachusetts Institute of Technologies (MIT) gemeinsam entwickelt. Das Ziel dieser Software ist die Erfassung, Speicherung, Indizierung, Aufbewahrung und Weitergabe von Forschungsmaterial und anderen Dokumenten im digitalen Format. Die erste Version ist im November 2002 veröffentlicht worden. DSpace wurde von vornherein als Open-Source-Projekt angelegt, um die Erfahrungen mit anderen Forschungsinstitutionen teilen zu können und eine gemeinsame Entwicklung zu ermöglichen. Die Weiterentwicklung von DSpace wird heute nicht mehr nur von den ursprünglichen Entwicklern MIT und HP betrieben, sondern auch von der wachsenden DSpace-Community. Das Projekt wird ebenso wie Fedora von der Andrew W. Mellon Foundation unterstützt.

DSpace liegt zurzeit in der Version 1.4 vor und ist multiplattformfähig. Wie Fedora basiert auch DSpace auf dem Applikationsserver Apache Tomcat, Java wird in Version 1.4 oder höher vorausgesetzt. Als Datenbank wird PostgreSQL eingesetzt. Eine automatisierte Setuproutine für DSpace existiert nicht, die Installation muss manuell durchgeführt werden. Die Installationsanweisungen sind ausführlich, setzen aber gewisse Kenntnisse bezüglich Tomcat und PostgreSQL voraus.

Daten werden in DSpace so verwaltet, dass die Organisation von Institutionen nachgebildet werden kann. An oberster Stelle stehen die Communities, die selbst wieder hierarchisch organisiert werden können. Jede Community beziehungsweise Sub-Community hat Collections, die zum Beispiel Themengebiete zusammenfassen. Collections können zu mehreren Communities gehören. Das eigentliche Archivelement ist ein Item, das zu einer Collection gehört, aber in mehreren Collections referenziert werden kann. Zum Item gehören die Metadaten des Archivobjekts, deren Struktur sich am Dublin-Core-Standard orientiert.

Anzeige
Anzeige

Die Items selbst sind in Bundles von Bitstreams organisiert. Durch die Bundles können Archivobjekte aus mehr als nur einer Datei bestehen (z. B. Webseiten mit den dazugehörigen Bildern), denn die Bundles bestehen aus einem oder mehreren Bitstreams, den eigentlichen Daten. Das Item kann aber aus mehr als einem Bundle bestehen. Eine gebräuchliche Einteilung der Bundles ist: Original, Thumbnails, Text (für die Indizierung). Zu jedem Bitstream muss auch das Bitstream-Format angegeben werden, das

den MIME-Typ und die Ebenen des Supports (unterstützt, bekannt, nicht unterstützt) beschreibt.

Auf jeder Ebene der Datenorganisation können Rechte an Benutzer und Gruppen vergeben werden. Diese Rechte werden pro Ebene vergeben und nicht auf die nächste darunter liegende Ebene weitergegeben. Ein anonymer Zugriff auf Elemente des Systems kann freigegeben werden. Die Authentifizierung wird entweder über eine Kombination aus Name und Passwort oder über eine X509-Zertifizierung durchgeführt. Die eingetragenen Benutzer können auch benachrichtigt werden, wenn in definierten Bereichen neue Dokumente eingestellt werden. Die Einstellung von Dokumenten in das System erfolgt entweder über eine Stapelverarbeitung oder über eine Web-Benutzerschnittstelle für einzelne Dokumente. Für den Freigabeprozess können bis zu drei Workflow-Schritte definiert werden. Die Suche greift entweder auf die strukturierten Metadaten oder die indexierten Volltexte zu. Als Volltextengine wird die Open-Source-Software Lucene verwendet.

Anzeige
Anzeige

Im Gegensatz zu Fedora liefert DSpace sofort ein gebrauchsfertiges System mit einer funktional brauchbaren Weboberfläche. DSpace muss zwar noch konfiguriert, aber nicht zwingend durch Programmierung erweitert werden. Ein wichtiges Feature des Systems ist darüber hinaus die standardmäßige Unterstützung eines einfachen Freigabeprozesses. Als Programmierschnittstellen werden Java-Klassen auf drei verschiedenen Ebenen bereitgestellt, die aufeinander aufbauen: Storage Layer, Business Logic Layer und Application Layer.

Fazit

Es gibt weitere Open-Source-Software für den Bereich der Archivierung, die OAI-kompatibel sind. Auch die beiden Systeme CDSware vom CERN (Europäisches Laboratorium für Teilchenphysik) in Genf. [8] und EPrints von der Universität in Southampton. [9] sind wie DSpace mit wenigen Anpassungen schnell einsatzfähig.

Alle vier genannten Produkte kommen aus dem Bereich von Forschung und Lehre. Ihr Ziel ist eine Plattform, um Dokumente beliebiger Art ablegen und sie dabei sinnvoll mit Metadaten versehen zu können. Besondere Stärken hinsichtlich der Metadaten zeigt Fedora, das zwar in seinem Grundindex auch auf Dublin Core beruht, aber über die RDF-konforme Datenbank Kowari gerade im Bereich der Verknüpfung von Objekten sehr flexibel ist.

Anzeige
Anzeige

Fedora nimmt eine Sonderstellung unter den genannten Archiven ein, da die Software eine Web-Service-Schnittstelle zur Konvertierung und Bearbeitung der Inhalte beim Aufruf bietet. Allerdings ist Fedora auch das einzige Produkt, das eigentlich nur eine Infrastruktur und keine gebrauchsfertige Applikation bietet.

Allen Produkten ist gemeinsam, dass der Begriff Archiv hier nicht im Sinne von revisionssicherer Speicherung verwendet wird. Die Speicherung der Daten geschieht standardmäßig in Verzeichnissen auf lokalen oder im Netz verfügbaren Laufwerken. Eine Unterstützung von optischen Medien oder gar Jukeboxen ist standardmäßig nicht vorgesehen. Technisch wird es aber bei allen Produkten Möglichkeiten geben, die Speicherung durch proprietäre Produkte aus dem Storagebereich zu ergänzen. Sie alle stellen brauchbare Open-Source-Alternativen bei Aufgabenstellungen aus dem Bereich der Dokumentenablage und -veröffentlichung dar. Allerdings darf bei allen Produkten, auch denen die relativ gebrauchsfertig installiert werden, der Aufwand zur Anpassung und Anbindung an bestehende Systeme nicht unterschätzt werden. Bei den Anpassungsarbeiten ist sehr sorgfältig vorzugehen, damit diese Arbeiten beim nächsten Software-Update nicht hinfällig werden.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige