Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

News

Textract: Gescannte Dokumente analysieren – der neue AWS-Dienst macht mehr als OCR

(Foto: Beppe Castro / Shutterstock)

Mit Amazons neuem Dienst Textract sollen Unternehmen Dokumenten-Workflows automatisieren können. Dafür bringt der Dienst neben einer OCR Intelligenz in die Analyse der digitalisierten Daten.

Auf seiner hauseigenen Messe Re:invent in Las Vegas hat Amazon neben einem eigenen KI-Chip, einem Service für Produktempfehlungen und vielem mehr auch einen Dienst für Texterkennung vorgestellt. Textract soll aber über die klassische OCR (Optical Character Recognition) hinausgehen und Inhalte analysieren, um ihnen einen Zusammenhang zu geben und sie weiterverarbeiten zu können.

Amazon Textract macht OCR intelligent

Amazon Textract analysiert neben einer OCR das Layout eines Dokuments und erkennt die unterschiedlichen Elemente einer Seite sowie deren Zusammenhang. Außerdem extrahiert der Dienst Daten aus Formularen oder Tabellen mit ihrem Kontext. Die entstandenen Daten können dann entweder direkt in einer Anwendung genutzt oder in einer Datenbank gespeichert werden.

Das Machine-Learning-Modell hinter Textract sei laut Amazon schon mit einigen Millionen Dokumenten aus unterschiedlichen Bereichen trainiert worden. Unter anderem mit Rechnungen, Quittungen, Verträgen, Steuerunterlagen, Anmeldeformularen und Versicherungsunterlagen.

Textract soll helfen, händische Auswertungen vermeiden zu können. Auch wenn Unternehmen Templates für die Texterkennung bei Formularen nutzen, um die nicht vorhandene Intellligenz bei der Texterkennung zu umgehen, müssten diese bei jeder Formularänderung ebenso angepasst werden.

Rundgang in Seattle: Das Amazon-Hauptquartier in Bildern
Amazon-Headquarter, Day One North. (Foto: Jochen G. Fuchs)

1 von 78

 

Unternehmen sollen ganze Workflows automatisieren können

Unternehmen sollen ihren Dokumenten-Workflow automatisieren können und Millionen von Seiten innerhalb weniger Stunden verarbeiten können. Konkrete Einsatzzwecke sieht Amazon in verschiedenen Branchen. Es ließe sich beispielsweise ein Suchindex mit den analysierten Daten aufbauen. Dafür kann Textract mit Amazons Elasticsearch-Service verbunden werden, um beispielsweise alle digitalisierten Papieranträge automatisch nach unterschiedlichen Kriterien durchsuchen zu können.

Die Kosten von Amazon Textract liegen bei 1,50 US-Dollar pro 1.000 Seiten. Dafür erhalten Nutzer sowohl die OCR als auch die strukturierten Daten.

Bitte beachte unsere Community-Richtlinien

2 Reaktionen
Peter

Handschrifterkennung ist leider nicht dabei, aber auch so eine geniale Sache, da erkannte Daten als Key/Value übergeben werden. Wenn es wegen DSGVO hoffentlich bald in Frankfurt buchbar ist habe ich dafür schon einen Anwendungsfall :-)

Eine ernsthafte Frage und bitte keine Hater: Wie gut oder schlecht ist AWS eigentlich gegenüber Azure oder Google Cloud ? Für meine Projekte setze ich wenn nötig immer nur AWS ein, dank der vielen Services und berechenbaren Preisstruktur. Rentiert es sich auch mal sich mit den anderen Clouds zu beschäftigen? Oder ist die investierte Zeit in AWS besser aufgehoben, denn die Möglichkeiten erschlagen mich jetzt schon :-)

Antworten
Titus von Unhold

AWS hat schlicht den Vorteil dass du damit machen kannst was du willst und das Produkt schlicht dafür gemacht wurde Speicher- oder Rechenzeit zu verkaufen. Google guckt z. B. in deine Inhalte rein und sperrt deine Accounts wenn du Porn bei ihnen speicherst oder Terrorinhalte. Und Azzure ist im wesentlichen um die anderen Dienste aus Redmond herum gebaut.

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.