Dieser Artikel informiert Sie über folgende Themen:
Alle erfassten Daten eines Dokuments werden als Annotationen bezeichnet. Man erkennt sie am blauen Rahmen (bounding box oder b-box), der nach der Verarbeitung eines Dokuments durch Rossum erscheint.
Damit sichergestellt werden kann, dass die Künstliche Intelligenz (KI) lernt, welche Daten zu erfassen sind, werden Annotationen in guter Qualität benötigt.
Um gute Annotationen zu erzielen, gibt es einige einfache Richtlinien, mit welchen die Genauigkeit Ihrer KI optimiert und verbessert werden kann.
Einheitlichkeit ist besonders wichtig, damit die KI lernt, Daten richtig zu erfassen. Bleiben Sie deshalb bei Ihren Annotationen konsistent. In Dokumenten mit gleichbleibendem Layout und/oder dem gleichen Lieferanten erfasst man deshalb Werte am besten immer an derselben Stelle des Dokuments.
Der Rahmen sollte die Daten einfassen und nicht schneiden.
Linien und Zeichen, die nicht Teil der exakten Werte sind, sollten nicht eingeschlossen werden. Ebenso sollte so wenig weißer Leerraum wie möglich umfasst werden.
Bei Daten mit zugehörigem Feld im Extraktionsschema, sollte die Annotation der Daten in jedem Dokument, in dem diese aufgeführt sind, erfolgen. Dies sollte immer durchgeführt werden, selbst wenn die Extraktion für einen bestimmten Lieferanten oder Einzelfall nicht relevant ist. Beträge sollten auch dann annotiert werden, wenn der Wert im Dokument “0” ist.
Ist auf der Rechnung ein Wert, so sollte dieser erfasst werden.Tragen Sie keine Werte, die nicht auf der Rechnung hinterlegt sind, manuell ein! Die KI ist nicht in der Lage, anhand eines manuellen Eintrags zu lernen, Werte korrekt auszulesen.
Statt logisch zusammengehörige Daten an zwei unterschiedlichen Stellen zu annotieren, sollten sie am besten immer dort annotiert werden, wo sie nah beieinander liegen.
Es ist beispielsweise besser, den Namen des Lieferanten direkt bei der zugehörigen Adresse zu annotieren und nicht an einer anderen Stelle, die weit davon entfernt liegt.
Wenn möglich, sollten Daten an bevorzugten Stellen annotiert werden.
Empfohlen wird, den Wert beim ersten Auftreten im Dokument zu annotieren. Lieferanteninformationen (Lieferantenname, Adresse, etc.) sollten z.B. in der Kopfzeile statt der Fußzeile annotiert werden. Ebenso sollten Werte auf der ersten Seite annotiert werden und nicht auf den darauf folgenden.
Zwar ist es gelegentlich notwendig, Daten von derselben Stelle zu extrahieren, jedoch sollte man ein Überlappen der Annotationen vermeiden. Wird derselbe Wert für mehrere Felder herangezogen, sorgt dies bei der KI für Verwirrung und führt dazu, dass diese Felder mit geringerer Wahrscheinlichkeit richtig zugeordnet werden.
Bei der Erfassung der Daten sollte auf jedes Feld geachtet werden und auch, dass die richtigen Werte annotiert werden. Die von der KI zugeordneten Werte sollten immer überprüft werden.
Findet man Rechtschreibfehler oder andere Fehler, versuchen Sie den Rahmen (bounding box) anzupassen, damit die Werte richtig erfasst werden.
Bei der Annotation von Steuerdaten (z.B. Steuersätze, Steuerbeträge, Steuerbasisbeträge, etc.) ist darauf zu achten, dass zusammengehörige Werte auch zusammen annotiert werden. Die gesamten Steuerdaten sollten in den Steuertabellen zu finden sein.
Werte, die sich in der Gesamttabelle des Dokuments befinden (in der Regel der Gesamtbasisbetrag oder Zwischensumme, Gesamtsteuerbetrag und Gesamtbetrag einschließlich Steuern), sollten in den zugehörigen Kopffeldern erfasst werden.
Es sollten nur die Datenwerte ohne Bezeichnung annotiert werden. Liegt im Dokument zum Beispiel eine Bestellnummer im Format “Best.-Nr.: BE1234” vor, sollte nur der Teil “BE1234” annotiert werden.
Falls derselbe Wert im Logo, in der Fußzeile oder im Dokument vorkommt, sollte der Wert mit Standardschriftart und -größe ausgewählt werden.