Das könnte dich auch interessieren

Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

Digitales Leben

Internet-Archäologen machen verloren geglaubte Webseiten wieder auffindbar

    Internet-Archäologen machen verloren geglaubte Webseiten wieder auffindbar

Informationen gehen auch im Internet verloren und mit ihnen verschwinden wichtige zeitgeschichtliche Dokumente. Ein US-Forscherteam macht sich daher jetzt daran, die Informationen zu rekonstruieren.

Wie die Social-Media-Revolution verloren ging

Internet-Archäologie: Verlorene Informationen können bisweilen wieder auffidbar gemacht werden. (Grafik: Hany SalahEldeen und Michael Nelson / Old Dominion University)
Internet-Archäologie: Verlorene Informationen können bisweilen wieder auffindbar gemacht werden. (Grafik: Hany SalahEldeen und Michael Nelson / Old Dominion University)

Die Rolle der Sozialen Medien im arabischen Frühling hatte die Presse früh erkannt und thematisiert. Die Protestanten nutzten Kanäle wie Facebook oder Twitter um sich zu organisieren und zur Kommunikation untereinander. Was die Presse und alle anderen Apologeten einer sogenannten Social-Media-Revolution allerdings übersahen, war die Flüchtigkeit dieser Dokumente. Glücklicherweise entwickelten sich seitdem einige Webseiten, die es sich zur Aufgabe machen, diese Zeitdokumente für die Nachwelt zu erhalten.

Im Jahre 2012 warfen jedoch die beiden Forscher Hany SalahEldeen und Michael Nelson einen genaueren Blick auf diese Archive und die dort verlinkten Informationen. Damals mussten die Wissenschaftler der amerikanischen Old Dominion University feststellen, dass 11 Prozent der Social-Media-Inhalte innerhalb von einem Jahr verschwunden waren und sich diese Rate über zwei Jahre sogar auf 27 Prozent steigerte. Dasselbe Phänomen betraf natürlich auch andere historisch signifikante Ereignisse wie den Ausbruch des H1N1-Virus oder die Aufstände in Syrien.

In einer neuen Untersuchung machten sich die beiden Forscher daran, die verloren geglaubten Informationen wieder auffindbar zu machen. Dazu begannen sie, diese Quellen an anderer Stelle im Netz hinzuziehen. Man suchte anhand von URLs, die auf mittlerweile nicht mehr abrufbare Seiten verlinkten, die entsprechenden Tweets mit denen die Inhalte ursprünglich verbreitet wurden. Aus denen extrahierte man die fünf häufigsten Begriffe und suchte mit Google nach genau dieser „Signatur“.

Internet-Archäologie: Oft werden nur Bruchstücke gefunden

Wie auch ein Archäologe nicht selten nur noch Bruchstücke findet, mussten auch SalahEldeen und Nelson feststellen, dass ihre Funde gewisse Lücken aufwiesen. Sie überprüften ihre Methode anhand von Quellen, die noch immer verfügbar sind und kamen zu dem Schluss, dass sie für 41 Prozent der verlorenen Informationen immerhin einen Ersatz finden konnten, der zu mindestens 70 Prozent dem ursprünglichen Text entspricht.

Das mag vielleicht auf den ersten Blick gering erscheinen, aber immerhin können Historikern und anderen interessierten Parteien so wichtige Zeitdokumente zumindest im Kern verfügbar gemacht werden. Außerdem steht die Forschung noch ganz am Anfang. Die beiden Forscher sind der Meinung, dass weiterführende Untersuchungen wichtig seien, um die Methode zu verfeinern, die beispielsweise unterschiedliche Arten von Ressourcen Rechnung tragen.

via www.technologyreview.com

Finde einen Job, den du liebst

2 Reaktionen
Sinnvolles Projekt
Sinnvolles Projekt

Netter Hinweis, die Keywords aus den Tweets zu sammeln und danach zu suchen um Alternative Quellen zu finden.

Archive.org könnte gegen Geld Infos lagern.

Webseiten von Parteien werden in Diktaturen kurz vor der Wahl gerne entfernt. Da Archive.org mit dem Kongress oder Senat bzw. deren Bibliothek arbeitet wäre es sinnvoll, z.b. Wahlkämpfe dort zu archivieren.
Projekt18, Romney, Nixons Wahlkampf, Rot-Grüne Wahl-Versprechen von 1998(?) usw. beispielsweise oder was Mursi bei der Präsidentenwahl versprochen hatte.

Wenn man sich damit beschäftigt, merkt man, das Archive eher für Sachen älter als 100 Jahre sind und man Alltags-Informationen nirgendwo hinterlegen kann obwohl ständig Sammler für alles mögliche im TV auftreten aber derjenige (falls er existiert) der seit dem Krieg alle Wahlwerbung oder Partei-Werbung sammelt im Internet (von mir) nicht gefunden wird. So bleiben nur die Content-Gatekeeper und da hat man eher schlechten Zugang auch weil es nicht digitalisiert ist und man für die Suche bezahlen soll.
Es müsste sich für Wohnungsauflöser rentieren, alles bedruckte Papier der Freedom-Digitizer-Foundation (die leider nicht existiert) abzugeben. Man könnte anhand von Fotos oder Videos Google-Streetview für New York, London, Berlin, München, Hamburg... von 1910, 1899,... 1950, 1960,... realisieren und als Zeitraffer anbieten. Vieles wird ja fotografiert und man könnte Zeitraffer der Oktoberfest-Zelte seit zig Jahren realisieren. Sowas ist auch eine Form von Museum bzw. Stadt-Chronik.

Semantization macht leider auch keiner und ich auch nicht, weil ich kein Land kenne, wo man sowas stressfrei machen kann obwohl es so trivial einfach ist.
Wer mal ältere Artikel sucht, merkt wie viele Worte für sowas möglich sind und vieles findet man nicht mehr obwohl man die Webseiten garantiert gesehen hat aber Plural/Singular, Mit und ohne Bindestrich usw machen die Suche sehr schwer.
Mit Semantisierung wären Sachverhalte dezidierter abgespeichert und die Schreibweisen wären egal.

Die Browser sind auch keine gute Hilfe zum archivieren von Webseiten. Das ist recht mühselig wenn man mehr als nur gelegentlich Seiten abspeichert.
Und den Traffic den man für Everynote braucht hat man nicht überall verfügbar. Im Prinzip ist Everynote auch ein gutes Archiv und wenn man Zeitungs-Artikel fotografiert (was viele machen wenn man Interviews liest) müssten die E-Artikel/Webseiten gesucht und angeboten werden. Hier sind vieles ja nur Agenturmeldungen so das man das Foto oft nur als Such-Anfrage braucht. Und wenn jemand anders denselben Artikel schon verlinkt hat, würde Everynote die Quellen (falls öffentlich verfügbar) anbieten wenn man selber einen Artikel fotografiert oder abspeichert.

Antworten

steve
steve

brauchen doch nur bei der nsa anrufen. die haben doch alles

Antworten

Melde dich mit deinem t3n-Account an oder fülle die unteren Felder aus.

Abbrechen