Rechnungen enthalten für jedes Unternehmen relevante Informationen. Die händische Extraktion dieser Daten aus den Dokumenten ist aufwendig und soll automatisiert werden. Hierfür werden KI-Modelle verwendet.
Es wird die HuggingFace-Library benutzt. Dabei handelt es sich um eine Python-Bibliothek für Computerlinguistik. Die vortrainierten Modelle werden im Google Colab ausgeführt. Im speziellen wird das Modell LayoutXLM verwendet. Zur Aufgabe gehört es weiter, eine Pipeline einzurichten, die die Daten aus den Dokumenten einliest, vorverarbeitet, an das ML-Modell weiterreicht und nachverarbeitet. Zudem muss das Modell durch Datensätze auf die spezifische Aufgabe trainiert werden.
Das Modell soll Daten aus Dokumenten wie z.B. Rechnungen extrahieren. Da die Dokumente von unterschiedlichen Kunden ein heterogenes Layout haben, muss auf ein KI-Modell zur Mustererkennung zugegriffen werden. Hierbei werden sogenannte Transformer eingesetzt. Dabei handelt es sich um Modelle des Maschinellen Lernens, die grob aus zwei Blöcken bestehen, einem Kodierer, dessen Aufgabe es ist, den gelesenen Text zu verstehen, und einen Dekodierer, der anhand von Eingabedaten neuen Text erzeugt. Die spezifische Aufgabe der Datenextraktion erfordert hier nur einen Kodierer.