"Ein steiniger Weg" - Deep Learning basierte Extraktion von Informationen mit nur wenigen Trainingsdokumenten

von Raimund Oberreiter vor 6 Jahren

"Ein steiniger Weg" - Deep Learning basierte Extraktion von Informationen mit nur wenigen Trainingsdokumenten

In diesem Beitrag stellen wir eine K�nstliche Intelligenz Anwendung zum Thema Informationsextraktion unter dem Paradigma von geringen Trainingsdaten vor. Im konkreten Fall wurden Daten (Angebote, Dokumente, Fotos, eMails) aus der Immobilienbranche verarbeitet.�Die vorgestellte L�sung l�sst sich aber ebenso f�r beliebig andere Informationen aus v�llig anderen Branchen mit geringem Aufwand anlernen und einsetzen.

Ausgangslage

Ein Immobilienkonzern muss�laufend�eine gro�e Anzahl neu eintreffender Expos�s mit Grundst�cksangeboten analysieren und bewerten. Die unterschiedlich strukturierten Expos�s werden dabei immer auf dieselben Informationen durchsucht: Adresse des Grundst�ckes, Kaufpreis, erzielbare Bruttogrundfl�che, Nutzfl�che, Grundfl�che des Grundst�ckes, Dealart und einige andere. Bei einem Aufwand von 10-20 min pro Expos� werden Jahr f�r Jahr viele hunderte Arbeitsstunden nur f�r das Durcharbeiten der Expos�s ben�tigt, um sich am Ende f�r 5-10 Objekte zu entscheiden.�

Der AI Entwicklungsprozess

Die wichtigsten Stufen des Entwicklungsprozesses waren das Labeln, die Auswahl der KI Basis-Methode, die Erstellung des KI-Modells bis hin zum Trainieren und Hyperparameter-Tunen des Modells.

Auch Labeln will gelernt sein

Durch das Labeln wird festgelegt welche Informationen sp�ter mit Hilfe des Modells gefunden werden sollen.�Beim Labeln selbst werden quasi die gesuchten Informationen in den Dokumenten markiert. Diese Markierungen dienen sp�ter als Input f�r den Trainingsprozess. Der Aufwand f�r das Labeln ist bemerkenswert, denn die Qualit�t des sp�teren KI-Modells h�ngt direkt von der Sorgsamkeit w�hrend dieser T�tigkeit ab.

Mit jeder fehlerhaften oder vergessenen Label-Markierung lernt das Modell etwas Falsches, dass sich sp�ter negativ auf die Gesamtperformance des Modells auswirkt. In dem in K�rze verf�gbaren Blogeintrag�"Labelling Tool f�r Informationsextraktion"�stellen wir unser daf�r eingesetztes Werkzeug vor.

Unsere Intelligenz - w�hle die Beste KI-Basis-Methode

Die Anzahl der Trainingsdokumente und der damit verbundene Aufwand zum Labeln waren ein wesentliches Kriterium bei der Auswahl der KI Methode. In unserem Fall standen 456 Expos�s zum Trainieren des Modells zur Verf�gung. Nicht in allen Dokumenten fanden sich alle gesuchten Informationen. Angaben zum Preis fanden sich zum Beispiel nur in 373 Expos�s, Angaben zur Dealart (Asset/Share) sogar nur in weniger als 150 Dokumenten.

Das Histogramm zeigt die Anzahl der Expos�s mit den gesuchten Informationen. Darstellung 1: Anzahl der Expos�s mit den gesuchten Informationen

Wir haben nach einer Methode gesucht, die trotz dieser f�r Deep Learning Anwendungen ung�nstigen Vorbedingungen gute Ergebnisse erzielt. Die erst 2018 entwickelte Methode zur Verarbeitung der nat�rlichen Sprache (Natural Language Processing, NLP) namens ULMFiT (Universal Language Model Fine-tuning for Text Classification) bedient sich der Idee des ?Transfer Learnings? und passte sehr gut in unser Schema. Wir haben diese Methode, die in Teilen im fast.ai Frameworks zur Verf�gung steht, adaptiert und daraus eine L�sung zur Informationsextraktion weiterentwickelt.

Transfer Learning mit ULMFiT

Beim Transfer Learning geht es um die �bertragung eines bereits erlernten Wissens von einem KI Modell auf ein anderes. Versucht ein Mensch Informationen aus einem Textdokument zu extrahieren, f�llt es ihm wesentlich leichter, wenn er die Sprache, in der das Dokument verfasst wurde, gut versteht. KI-Modelle verstehen zwar keine Sprache, aber bereits das Wissen wie in einer Sprache W�rter zu Phrasen bzw. zu S�tzen zusammengesetzt werden, ist f�r diesen Zweck von gro�em Vorteil. Sogenannte Sprachmodelle erlernen die Struktur einer Sprache, indem sie versuchen im Kontext eines Textes das jeweilige n�chste Wort vorherzusagen. Dieses Vorwissen f�hrt bei fast allen Text-bezogenen KI-Aufgaben zu wesentlich besseren Ergebnissen. Der Vorteil kommt besonders dann stark zum Tragen, wenn nur wenige Trainingsdaten bereitstehen.�

Ausf�hrlichere Informationen dazu finden Sie in unserem Blogbeitrag "Transfer Learning mit ULMFiT".

Das Modell ist entscheidend Das eingesetzte Sprachmodell basiert auf einem rekurrenten neuronalen Netzwerk (RNN) bestehend aus einem Encoder und einem Decoder. Der Encoder wird inklusive aller eintrainierten Parameter direkt in das neue Modell f�r die Informationsextraktion �bernommen. Anstelle des Decoders wurden neue Layer modelliert und trainiert.

Weiterf�hrende Informationen zum verwendeten Modell finden�Sie in K�rze in unserem Blog "Deep Learning Modell f�r Informationsextraktion".

Trainieren, Hyperparameter Tuning und Modelloptimierung - "Survival of the fittest"

Hyperparameter sind die Einstellschrauben von KI-Modellen. Die optimale Konfiguration findet man durch wiederholtes Trainieren und anschlie�endem Analysieren der verbliebenen Fehler bzw. der erzielten Genauigkeit. In jedem Zyklus werden dazu etwa zuf�llige 80% der Dokumente zum Trainieren ausgew�hlt und die restlichen 20% zum Validieren der Ergebnisse verwendet. Ist die erzielte Genauigkeit trotz verbesserter Hyperparameter nicht ausreichend, geht man einen Schritt zur�ck, nimmt Anpassungen an der Struktur des Modells vor und beginnt erneut mit dem Tunen der Hyperparameter.

Die Informationsextraktion - ein Durchlauf

Jedes Dokument durchl�uft im Zuge der Informationsgewinnung f�nf Verarbeitungsschritte:

Das Diagramm zeigt den Ablauf des Vorhersageprozesses. Darstellung 2: Ablauf des Vorhersageprozesse

PDF Processing

Im ersten Schritt werden die - in unserem Fall als PDF - vorliegenden Dokumente in reine Textdokumente umgewandelt. Die Dokumente enthalten zum Teil Bilder bzw. bestehen teilweise g�nzlich aus einzeln eingescannten Seiten. Diese Aufgabe wird von zwei zueinander konkurrenzierenden OCR Diensten �bernommen (Google Vision und SolidFramework), welche wir integriert haben.

Tagging

Im zweiten Vorverarbeitungsschritt erfolgt ein automatisiertes Kennzeichnen (Annotieren) von Informationen im Text. Die wichtigsten Merkmale in Immobilienexpos�s sind Zahlenangaben, Ma�einheiten und Orts- bzw. Stra�ennamen. Dieser Schritt erfolgt mit rein�heuristischen Methoden, teilweise mit Unterst�tzung externer Datenquellen und wirkt ebenso dem Mangel an Trainingsdokumenten entgegen.�

Deep Learning

In diesem Schritt durchl�uft das Dokument unser entwickeltes Deep Learning Modell f�r Natural Language Processing. Als Ergebnis liefert es f�r jedes einzelne Wort des Eingabedokuments und f�r jede einzelne gesuchte Information eine Wahrscheinlichkeitsangabe: Die Wahrscheinlichkeit, ob es sich hierbei um eine der gesuchten Informationen handeln kann oder nicht.

Post Processing

Die Vielzahl vom Modell ermittelten Wahrscheinlichkeiten�werden analysiert und ausgewertet. Zus�tzlich helfen�heuristische Plausibilit�tspr�fungen die Qualit�t der Ergebnisse noch zu steigern. Unsichere Ergebnisse werden markiert und k�nnen in einem weiteren Schritt einer Verarbeitung mit m�glicher manueller Nachkontrolle zugef�hrt werden.

Resultat

Im letzten Schritt werden die extrahierten Informationen zusammengefasst und der Schnittstelle zur Weiterverarbeitung zur�ckgeliefert.

Die Ergebnisse

Erzielte Genauigkeiten

Die folgende Grafik zeigt die Genauigkeit des Modells ausgew�hlter Informationen in Abh�ngigkeit von der Anzahl der Trainingsdokumente. Deutlich zu erkennen ist eine bereits relativ hohe Genauigkeit bei einer geringen Anzahl von Dokumenten. Die Tabelle selbst wurde mittels Cross-Validation Methode erstellt. Dabei wird das Modell vielfach mit einer unterschiedlichen Auswahl von Trainings- und Validierungsdokumenten getestet und die Ergebnisse gemittelt.

Dieses Diagramm zeigt die erzielten Genauigkeiten. Darstellung 3: Erzielte Genauigkeiten

Herausforderungen

Bei der Umsetzung dieses Projektes standen uns die�unterschiedlichsten�Herausforderungen gegen�ber.

Knowhow-Aufbau: Tiefgreifende Kenntnisse �ber fast.ai sind notwendig, um Anpassungen an ULMFiT im erforderlichen Ausma� vorzunehmen.?
Daten: Immobilienexpos�s enthalten manchmal Angaben zu mehreren Objekten. Zur Unterscheidung welche Information welchem Objekt zuzuordnen sind, w�rden wesentlich mehr Trainingsdaten notwendig. Die Vorz�ge des Transfer Learning greifen hier nicht.?
Labeln: Fehler beim Labeln werden, wenn �berhaupt, erst beim Analysieren der Fehler des Modells erkannt und bedingen zeitaufwendige Korrekturen, wiederholtes Ansto�en von Trainingszyklen und neuerliche �berpr�fungen getunter Hyperparameter.?
OCR: Die Suche nach einem geeigneten OCR Service war unerwartet aufw�ndig. Um toleranter gegen�ber fehlerhaften Textumwandlungen zu sein, haben wir zuletzt zwei OCR Services parallel eingesetzt.?
Geringe Anzahl von Trainingsdokumenten:�Drei Strategien haben letztendlich zu einer erfolgreichen Umsetzung gef�hrt. Die Einbindung eines Sprachmodells (Transfer Learning), das Taggen der Eingabedokumente und nachtr�gliche heuristische Plausibilit�tspr�fungen.?

Angekommen? Noch lange nicht, aber eine kurze Zwischenrast sei erlaubt.

Das ist erst der Anfang. Wir wissen wie die Reise aussehen kann um mit gerade noch ausreichendem Grundmaterial AI L�sungen umzusetzen.

Das haben wir erreicht:

Label-Oberfl�che: Flexible und erweiterbare Label-Plattform f�r individuelles Labeln.
Tagging-Prozess: Automatisiertes Kennzeichnen der grundlegenden Informationen (Adresse, Name, Zahl, Wort) ist vorhanden und beliebig erweiterbar.
Hyperparameter Optimierung: Pragmatischer Optimierungsprozess f�r das Aussch�pfen der Potentiale der Trainingsdaten bei geringer Anzahl.
Ergebnisbewertung: Interface f�r Trainings- und Optimierungsvorg�nge.

Dranbleiben und wissen wie es weitergeht! Damit wird Ihre Lernkurve auch in unbekannten Bereichen steiler! NLP wird das neue Wunderkind der Branchen zur KI-basierten individuellen Verarbeitung von riesigen Dokumentenbergen.

Unser L�sungspartner AI Consulting - goodguys.cc

Diese Artificial Intelligence und Machine Learning Ans�tze sind schnell, flexibel und verst�ndlich. Es muss Spa� machen mit Wissen, Technik und Verve das Thema nutzbar zu gestalten. Genau so haben wir auch hier mit Hr. Dr. F�richt von den Goodguys erfolgreich zusammen gearbeitet! Das AI Netzwerk: https://goodguys.cc

�ber Calista

Wir widmen uns seit �ber vier Jahren dem Aufbau von AI-Knowhow. Dabei setzen wir sowohl auf klassisches maschinelles Lernen als auch auf Deep Learning Methoden. Neben dem Schwerpunkt NLP besch�ftigen wir uns auch mit den DL Themenbereichen Visual Imaging und Structured Data. We Go The AI Way: https://calista.at