Rechnungen auslesen statt abtippen, so geht es gratis

Belege in die Buchhaltung zu übertragen ist Handarbeit, die sich jeden Monat wiederholt. Rechnungsnummer, Betrag, Steuersatz, Fälligkeit, von Hand abgetippt, mit dem üblichen Zahlendreher alle paar Belege.
DocStrange liest diese Daten aus, statt sie abzutippen. PDF, Scan oder Handyfoto rein, fertige Tabelle raus. Das Werkzeug ist kostenlos und kommt von der Firma Nanonets. Diese Anleitung zeigt beide Wege, den schnellen über den Browser und den für ganze Stapel über ein kleines Skript, dazu was DocStrange kann, wo die Grenzen liegen und worauf du bei vertraulichen Belegen achten musst.
Was reingeht und was rauskommt
Rein geht so gut wie jedes übliche Dokument: PDF, Word, Excel, PowerPoint, Bilddateien wie JPG und PNG, gescannte Seiten und ein abfotografierter Beleg vom Handy. Handschrift erkennt es nur eingeschränkt, darauf solltest du dich nicht verlassen.
Raus bekommst du das Ergebnis in vier Formaten. CSV ist die Tabelle für Excel, der für Belege übliche Weg. Markdown ist sauber formatierter Text für die Weiterverarbeitung. JSON sind einzelne benannte Felder für andere Programme. HTML brauchst du selten.
Erkannt werden nicht nur einzelne Werte, sondern auch Tabellen, mit und ohne Rahmen, mit zusammengefassten Zellen und sogar leicht gedreht oder abfotografiert. Für Belege heißt das: Die Einzelpositionen einer Rechnung lassen sich genauso herausziehen wie die Kopfdaten.
Der schnelle Weg: im Browser
Für einzelne Belege oder zum Ausprobieren brauchst du nichts zu installieren und kein Konto.
- Öffne docstrange.nanonets.com im Browser.
- Zieh deinen Beleg in das Upload-Feld, PDF oder Foto, oder wähl die Datei vom Rechner.
- Wähl als Ausgabeformat CSV, wenn das Ergebnis in Excel soll.
- Starte die Verarbeitung. Nach ein paar Sekunden steht das Ergebnis da.
- Lad die Datei herunter. Eine CSV öffnest du per Doppelklick in Excel.
Das reicht für den gelegentlichen Beleg. Zwei Dinge solltest du wissen: In diesem Modus läuft dein Beleg über die Server von Nanonets, dazu unten mehr. Und du arbeitest jeden Beleg einzeln ab. Sobald es regelmäßig mehr werden, lohnt der Stapel-Weg.
Viele Belege auf einmal: der Stapel-Weg
Wenn regelmäßig Stapel anfallen, richtest du das einmal als kleines Programm ein. Danach legst du beliebig viele Belege in einen Ordner und bekommst eine fertige Tabelle. Die Einrichtung dauert etwa eine halbe Stunde, vor allem weil im Hintergrund mehrere Gigabyte heruntergeladen werden. Eine eigene Grafikkarte brauchst du nicht, die Verarbeitung läuft über die kostenlose Cloud.
1. Python installieren. Python ist die Grundlage, auf der das Skript läuft, kostenlos. Geh auf python.org, lad die aktuelle Version und öffne die Datei. Unter Windows ein wichtiger Schritt, den viele übersehen: Setz ganz unten das Häkchen bei „Add Python to PATH", bevor du auf „Install Now" klickst. Fehlt das Häkchen, kennt dein Rechner den Befehl später nicht, und nichts funktioniert. Falls du es vergisst, installier Python einfach noch einmal und hol das Häkchen nach.
2. Das Terminal öffnen. Das Terminal ist das Fenster für Befehle. Windows: Windows-Taste drücken, cmd tippen, Eingabeaufforderung öffnen. Mac: Cmd und Leertaste, Terminal tippen, Enter. Du tippst dort Zeilen ein und bestätigst jede mit Enter.
3. DocStrange installieren und anmelden. Tipp nacheinander:
pip install docstrange
docstrange login
Der erste Befehl lädt das Programm samt der mehreren Gigabyte, das dauert. Kommt die Meldung, dass pip nicht gefunden wird, hat im Schritt davor das PATH-Häkchen gefehlt. Der zweite Befehl öffnet den Browser und verbindet dich mit deinem Google-Konto. Das ist kostenlos und hebt dein Limit auf 10.000 Belege im Monat. Ohne diese Anmeldung kommst du nur auf ein paar Belege pro Tag.
4. Festlegen, welche Felder ausgelesen werden. Du sagst dem Programm vorab, welche Felder es aus jedem Beleg ziehen soll. Genau diese Felder werden später die Spalten deiner Tabelle. Das folgende Skript bringt ein fertiges Schema für deutsche Rechnungen mit. Öffne einen einfachen Texteditor, unter Windows den Editor, unter Mac TextEdit im reinen Textmodus, und kopier den Text vollständig hinein.
from docstrange import DocumentExtractor
import csv, glob, os, json
extractor = DocumentExtractor() # Cloud-Modus, nutzt deinen Login
# Diese Felder werden ausgelesen. Zeilen ergaenzen oder loeschen nach Bedarf.
schema = {
"rechnungsnummer": "string",
"rechnungsdatum": "string",
"lieferant_name": "string",
"lieferant_ustid": "string",
"netto_betrag": "number",
"ust_satz": "number",
"ust_betrag": "number",
"brutto_betrag": "number",
"faelligkeit": "string",
"iban": "string",
"leistung": "string",
}
muster = ["belege/*.pdf", "belege/*.jpg", "belege/*.png"]
dateien = [p for m in muster for p in glob.glob(m)]
zeilen = []
for pfad in dateien:
antwort = extractor.extract(pfad).extract_data(json_schema=schema)
felder = antwort.get("structured_data", antwort)
felder["quelldatei"] = os.path.basename(pfad)
zeilen.append(felder)
if len(zeilen) == 1:
print("Kontrolle:", json.dumps(felder, ensure_ascii=False, indent=2))
spalten = list(schema.keys()) + ["quelldatei"]
with open("rechnungen.csv", "w", newline="", encoding="utf-8-sig") as f:
w = csv.DictWriter(f, fieldnames=spalten, extrasaction="ignore")
w.writeheader()
w.writerows(zeilen)
print(len(zeilen), "Belege ausgelesen -> rechnungen.csv")
Die Liste im oberen Teil, das schema, ist der Teil, den du anpasst. Links steht der Feldname, rechts der Typ: string für Text, number für eine Zahl. Brauchst du zusätzlich die Bestellnummer, die Kostenstelle oder das Lieferdatum, ergänz eine Zeile nach demselben Muster, etwa "bestellnummer": "string",. Felder, die du nicht brauchst, löschst du raus. Mehr musst du am Code nicht ändern.
Speicher die Datei auf dem Desktop als rechnungen.py. Achte darauf, dass am Ende wirklich .py steht und nicht .txt, sonst behandelt der Editor sie als reine Textdatei.
5. Belege auslesen. Leg auf dem Desktop einen Ordner namens belege an und kopier deine Rechnungen hinein, als PDF oder Foto. Geh ins Terminal, tipp cd Desktop und Enter, dann python rechnungen.py und Enter.
Das Skript zeigt dir zur Kontrolle den ersten ausgelesenen Beleg vollständig an, damit du sofort siehst, ob die Felder stimmen. Danach arbeitet es den ganzen Ordner ab und schreibt am Ende die Datei rechnungen.csv. Die öffnest du in Excel: jede Zeile ein Beleg, jede Spalte ein Feld, dazu eine Spalte mit dem Dateinamen, damit du jeden Eintrag dem Original zuordnen kannst.
Drei Dinge, die in der Praxis vorkommen. Bleibt ein Feld leer, stand der Wert nicht auf dem Beleg oder war nicht lesbar. Steht ein falscher Wert drin, liegt es meist an einer schlechten Vorlage, dazu gleich mehr. Und der Abgleich vor der Buchung bleibt deine Aufgabe, das Skript liefert eine saubere Vorlage, keine geprüfte Buchung.
Bessere Ergebnisse: woran die Erkennung hängt
Die Qualität des Ergebnisses hängt direkt an der Qualität des Belegs. Ein paar Punkte machen den Unterschied.
Fotografier gerade von oben statt schräg, mit gleichmäßigem Licht ohne harte Schatten oder Spiegelungen. Ein Scan ist einem Foto fast immer überlegen. Je höher Auflösung und Kontrast, desto zuverlässiger die Erkennung. Ein Beleg pro Datei ist sauberer als mehrere auf einem Blatt. Am genauesten liest das Werkzeug digitale PDFs, also direkt am Rechner erzeugte Rechnungen, weil der Text dort schon als Text vorliegt und nicht erst aus einem Bild erkannt werden muss.
Bei Handschrift stößt DocStrange an seine Grenzen. Handgeschriebene Beträge oder Notizen auf einem Beleg erfasst du besser nicht darüber.
Wo deine Belege landen
Der wichtigste Punkt, wenn es um Geschäftsdaten geht. Sowohl der Browser-Weg als auch der Stapel-Weg über die kostenlose Cloud schicken deine Belege zur Verarbeitung an die Server von Nanonets. Für unkritische Belege ist das vertretbar. Bei sensiblen Unterlagen mit Personen- oder Mandantendaten ist es das nicht.
DocStrange lässt sich auch komplett auf dem eigenen Rechner betreiben, ohne dass ein Beleg das Haus verlässt. Schnell geht das mit einer NVIDIA-Grafikkarte mit CUDA, der leistungsstarken Sorte aus Gaming- oder KI-Rechnern. Ohne solche Karte läuft es über den Hauptprozessor, dann brauchst du eine Zusatzinstallation und musst mit deutlich längeren Verarbeitungszeiten rechnen. Für den normalen Büro-Laptop ist der lokale Weg also entweder eine Hardware- oder eine Geduldsfrage. Wer regelmäßig vertrauliche Belege auslesen will, richtet besser einmal den lokalen Weg ein, statt sie über die Cloud zu schicken.
Was DocStrange nicht kann
Drei Grenzen, die du kennen solltest. Kopiergeschützte PDFs verarbeitet es nicht ohne Weiteres, die musst du vorher entsperren oder als Bild speichern. Handschrift erkennt es nur eingeschränkt. Und die ausgelesene Tabelle ist eine Vorlage, kein Ersatz für die Kontrolle: Den letzten Abgleich vor der Buchung macht ein Mensch.
![]()
WEBSE-Lexikon:
- OCR (optische Texterkennung): Technik, die aus einem Bild oder Scan maschinenlesbaren Text macht. Sie erkennt Buchstaben und Zahlen auf einem Foto, sodass ein Computer damit weiterarbeiten kann. Grundlage dafür, dass DocStrange auch Handy-Fotos von Belegen versteht.
- Schema: Die Liste der Felder, die ausgelesen werden sollen, zum Beispiel Rechnungsnummer, Betrag und Datum. Du legst das Schema einmal fest, danach füllt das Werkzeug genau diese Felder bei jedem Beleg.
- Strukturierte Daten: Informationen in einer festen Ordnung, etwa in Spalten und Zeilen einer Tabelle. Das Gegenteil von freiem Fließtext. Erst strukturierte Daten lassen sich automatisch in Buchhaltung oder Excel übernehmen.
- CSV: Ein einfaches Tabellenformat, das jedes Tabellenprogramm öffnet. Steht für „durch Komma getrennte Werte". Die Brücke zwischen DocStrange und Excel.
- JSON: Ein Format, in dem Daten als benannte Felder abgelegt werden, etwa Rechnungsnummer und Betrag. Für die Weiterverarbeitung in anderen Programmen gedacht, weniger zum direkten Lesen.
- Cloud-Verarbeitung: Die Rechenarbeit passiert auf fremden Servern im Internet, nicht auf deinem Gerät. Schnell und ohne eigene Hardware, aber die Daten verlassen dabei dein Haus.
- Lokale Verarbeitung: Die Rechenarbeit passiert vollständig auf deinem eigenen Rechner. Deine Daten bleiben bei dir, du brauchst dafür aber passende Hardware oder mehr Geduld.
- CUDA / NVIDIA-Grafikkarte: Ein leistungsstarker Grafikchip samt der Technik, die KI-Berechnungen beschleunigt. Steckt in Gaming- und KI-Rechnern, nicht in gewöhnlichen Büro-Laptops. Voraussetzung, um DocStrange offline schnell laufen zu lassen.
- Stapelverarbeitung (Batch): Viele Dateien in einem Durchgang automatisch abarbeiten, statt jede einzeln von Hand. Der Unterschied zwischen einem Beleg im Browser und hundert Belegen über ein kleines Skript.
- Open Source: Software, deren Quellcode offenliegt und die kostenlos genutzt werden darf. Jeder kann nachsehen, was sie tut, und sie ohne Lizenzgebühren einsetzen.
Fragen zu deinem Projekt?
Erzähl uns, woran du arbeitest. Wir schauen es uns an und melden uns.
Projekt besprechen

