t3n News Digitales Leben

Internet-Archäologen machen verloren geglaubte Webseiten wieder auffindbar

Internet-Archäologen machen verloren geglaubte Webseiten wieder auffindbar

Informationen gehen auch im Internet verloren und mit ihnen verschwinden wichtige zeitgeschichtliche Dokumente. Ein US-Forscherteam macht sich daher jetzt daran, die Informationen zu rekonstruieren.

Internet-Archäologen machen verloren geglaubte Webseiten wieder auffindbar
Bild: Grand Canyon National Park / Flickr Lizenz: CC BY 2.0

Wie die Social-Media-Revolution verloren ging

Internet-Archäologie: Verlorene Informationen können bisweilen wieder auffidbar gemacht werden. (Grafik: Hany SalahEldeen und Michael Nelson / Old Dominion University)
Internet-Archäologie: Verlorene Informationen können bisweilen wieder auffindbar gemacht werden. (Grafik: Hany SalahEldeen und Michael Nelson / Old Dominion University)

Die Rolle der Sozialen Medien im arabischen Frühling hatte die Presse früh erkannt und thematisiert. Die Protestanten nutzten Kanäle wie Facebook oder Twitter um sich zu organisieren und zur Kommunikation untereinander. Was die Presse und alle anderen Apologeten einer sogenannten Social-Media-Revolution allerdings übersahen, war die Flüchtigkeit dieser Dokumente. Glücklicherweise entwickelten sich seitdem einige Webseiten, die es sich zur Aufgabe machen, diese Zeitdokumente für die Nachwelt zu erhalten.

Im Jahre 2012 warfen jedoch die beiden Forscher Hany SalahEldeen und Michael Nelson einen genaueren Blick auf diese Archive und die dort verlinkten Informationen. Damals mussten die Wissenschaftler der amerikanischen Old Dominion University feststellen, dass 11 Prozent der Social-Media-Inhalte innerhalb von einem Jahr verschwunden waren und sich diese Rate über zwei Jahre sogar auf 27 Prozent steigerte. Dasselbe Phänomen betraf natürlich auch andere historisch signifikante Ereignisse wie den Ausbruch des H1N1-Virus oder die Aufstände in Syrien.

In einer neuen Untersuchung machten sich die beiden Forscher daran, die verloren geglaubten Informationen wieder auffindbar zu machen. Dazu begannen sie, diese Quellen an anderer Stelle im Netz hinzuziehen. Man suchte anhand von URLs, die auf mittlerweile nicht mehr abrufbare Seiten verlinkten, die entsprechenden Tweets mit denen die Inhalte ursprünglich verbreitet wurden. Aus denen extrahierte man die fünf häufigsten Begriffe und suchte mit Google nach genau dieser „Signatur“.

Internet-Archäologie: Oft werden nur Bruchstücke gefunden

Wie auch ein Archäologe nicht selten nur noch Bruchstücke findet, mussten auch SalahEldeen und Nelson feststellen, dass ihre Funde gewisse Lücken aufwiesen. Sie überprüften ihre Methode anhand von Quellen, die noch immer verfügbar sind und kamen zu dem Schluss, dass sie für 41 Prozent der verlorenen Informationen immerhin einen Ersatz finden konnten, der zu mindestens 70 Prozent dem ursprünglichen Text entspricht.

Das mag vielleicht auf den ersten Blick gering erscheinen, aber immerhin können Historikern und anderen interessierten Parteien so wichtige Zeitdokumente zumindest im Kern verfügbar gemacht werden. Außerdem steht die Forschung noch ganz am Anfang. Die beiden Forscher sind der Meinung, dass weiterführende Untersuchungen wichtig seien, um die Methode zu verfeinern, die beispielsweise unterschiedliche Arten von Ressourcen Rechnung tragen.

via www.technologyreview.com

Vorheriger Artikel Zurück zur Startseite Nächster Artikel
2 Antworten
  1. von steve am 19.09.2013 (11:22 Uhr)

    brauchen doch nur bei der nsa anrufen. die haben doch alles

    Antworten Teilen
  2. von Sinnvolles Projekt am 19.09.2013 (14:09 Uhr)

    Netter Hinweis, die Keywords aus den Tweets zu sammeln und danach zu suchen um Alternative Quellen zu finden.


    Archive.org könnte gegen Geld Infos lagern.

    Webseiten von Parteien werden in Diktaturen kurz vor der Wahl gerne entfernt. Da Archive.org mit dem Kongress oder Senat bzw. deren Bibliothek arbeitet wäre es sinnvoll, z.b. Wahlkämpfe dort zu archivieren.
    Projekt18, Romney, Nixons Wahlkampf, Rot-Grüne Wahl-Versprechen von 1998(?) usw. beispielsweise oder was Mursi bei der Präsidentenwahl versprochen hatte.

    Wenn man sich damit beschäftigt, merkt man, das Archive eher für Sachen älter als 100 Jahre sind und man Alltags-Informationen nirgendwo hinterlegen kann obwohl ständig Sammler für alles mögliche im TV auftreten aber derjenige (falls er existiert) der seit dem Krieg alle Wahlwerbung oder Partei-Werbung sammelt im Internet (von mir) nicht gefunden wird. So bleiben nur die Content-Gatekeeper und da hat man eher schlechten Zugang auch weil es nicht digitalisiert ist und man für die Suche bezahlen soll.
    Es müsste sich für Wohnungsauflöser rentieren, alles bedruckte Papier der Freedom-Digitizer-Foundation (die leider nicht existiert) abzugeben. Man könnte anhand von Fotos oder Videos Google-Streetview für New York, London, Berlin, München, Hamburg... von 1910, 1899,... 1950, 1960,... realisieren und als Zeitraffer anbieten. Vieles wird ja fotografiert und man könnte Zeitraffer der Oktoberfest-Zelte seit zig Jahren realisieren. Sowas ist auch eine Form von Museum bzw. Stadt-Chronik.

    Semantization macht leider auch keiner und ich auch nicht, weil ich kein Land kenne, wo man sowas stressfrei machen kann obwohl es so trivial einfach ist.
    Wer mal ältere Artikel sucht, merkt wie viele Worte für sowas möglich sind und vieles findet man nicht mehr obwohl man die Webseiten garantiert gesehen hat aber Plural/Singular, Mit und ohne Bindestrich usw machen die Suche sehr schwer.
    Mit Semantisierung wären Sachverhalte dezidierter abgespeichert und die Schreibweisen wären egal.

    Die Browser sind auch keine gute Hilfe zum archivieren von Webseiten. Das ist recht mühselig wenn man mehr als nur gelegentlich Seiten abspeichert.
    Und den Traffic den man für Everynote braucht hat man nicht überall verfügbar. Im Prinzip ist Everynote auch ein gutes Archiv und wenn man Zeitungs-Artikel fotografiert (was viele machen wenn man Interviews liest) müssten die E-Artikel/Webseiten gesucht und angeboten werden. Hier sind vieles ja nur Agenturmeldungen so das man das Foto oft nur als Such-Anfrage braucht. Und wenn jemand anders denselben Artikel schon verlinkt hat, würde Everynote die Quellen (falls öffentlich verfügbar) anbieten wenn man selber einen Artikel fotografiert oder abspeichert.

    Antworten Teilen
Deine Meinung

Bitte melde dich an!

Du musst angemeldet sein, um einen Kommentar schreiben zu können.

Jetzt anmelden

Mehr zum Thema
SEO-Plugin von GitHub soll deine Projekte besser auffindbar machen
SEO-Plugin von GitHub soll deine Projekte besser auffindbar machen

Ein neues SEO-Plugin soll euch dabei helfen, dass eure GitHub-Pages in den Google-Suchergebnissen erscheinen. Wir verraten euch, wie das funktioniert. » weiterlesen

„Webseiten? Ich besuch kaum noch Webseiten!“: Was zwei Teenager am Zukunftstag bei t3n machen
„Webseiten? Ich besuch kaum noch Webseiten!“: Was zwei Teenager am Zukunftstag bei t3n machen

Was macht die Jugend von heute eigentlich im Internet? Heute, am 28. April, ist in Deutschland Zukunftstag, wo Schülerinnen und Schüler in die Berufswelt schnuppern können. Und wir in die Welt … » weiterlesen

Web-Nostalgie: Geocities Forever generiert wahllos kaputte Webseiten im 90er-Look
Web-Nostalgie: Geocities Forever generiert wahllos kaputte Webseiten im 90er-Look

Geocities Forever generiert Webseiten im Look der Neunzigerjahre. Damit erinnert die Seite auch daran, wie weit das Web seit damals gekommen ist. » weiterlesen

Alle Hefte Jetzt abonnieren – für nur 35 €

Kennst Du schon unser t3n Magazin?