SFTP-Daten automatisch in Databricks importieren – sicher, dedupliziert, vollautomatisch
Wie Unternehmen CSV-Dateien vom SFTP-Server automatisch in Databricks Delta Lake importieren – mit Duplikatschutz, Fehler-Routing und Notebook-Steuerung.
SFTP überwacht
Neue Dateien erkannt
Duplikat-Prüfung
MD5-Hash
Notebook-Routing
Automatisch zugeordnet
Delta Lake Import
Bronze Layer
Tracking-Tabelle
Status & Zeitstempel
Von Christian Loth · Enterprise Architect & Automatisierungsexperte · Leipzig
Ich habe diese Pipeline für einen Betrieb mit täglichem SFTP-Dateneingang gebaut — hier ist der Aufbau.
Viele Unternehmen bekommen Daten noch per SFTP geliefert. CSV-Dateien, regelmäßig abgelegt, nach einem festen Schema. Databricks kann SFTP nicht nativ beobachten. Also sitzt jemand täglich am Schreibtisch und importiert manuell — ca. 30–45 Minuten pro Tag, manchmal vergessene Dateien inklusive.
Das Problem vorher
Ein Betrieb bekam täglich Datendateien von externen Partnern per SFTP. Verschiedene Dateiarten, verschiedene Notebooks in Databricks. Importiert wurde manuell — mit allen Risiken: vergessene Dateien, doppelte Importe, falsch zugeordnete Datensätze.
Der automatisierte Prozessablauf
Schritt 1 – SFTP-Überwachung Ein automatisierter Job überwacht den SFTP-Server und erkennt neue Dateien zuverlässig.
Schritt 2 – Duplikat-Schutz via Hash Jede Datei bekommt einen eindeutigen Fingerabdruck. Bereits verarbeitete Dateien werden übersprungen — auch wenn der Dateiname identisch ist, der Inhalt aber geändert wurde.
Schritt 3 – Automatisches Notebook-Routing Anhand des Dateinamens oder Dateityps wird automatisch das richtige Databricks-Notebook ausgewählt. Jede Datei landet genau dort, wo sie hingehört.
Schritt 4 – Import in Delta Lake Die Daten werden in die Bronze-Schicht importiert und von dort weiterverarbeitet. Vollständige Nachvollziehbarkeit, keine Datenverluste.
Schritt 5 – Tracking-Tabelle Jeder Import wird protokolliert: Dateiname, Zeitstempel, Status, verarbeitende Einheit. Fehler sind sofort sichtbar.
Das Ergebnis
Von ca. 30–45 Minuten manuellem Tagesaufwand auf 0 manuelle Schritte. Neue Dateien werden automatisch erkannt, geprüft, zugeordnet und importiert. Das Team arbeitet morgens mit frischen Daten — ohne einen Handgriff.
Eingesetzt: n8n · Databricks · Delta Lake · Python · MD5-Hashing · Bronze-Silver-Gold-Architektur
Du bekommst regelmäßig Dateien, die irgendwie in dein System müssen? Ich baue die Pipeline.
Häufige Fragen
Was passiert, wenn eine Datei ein unbekanntes Format hat?
Der Workflow erkennt, dass kein Notebook zugeordnet werden kann, und sendet sofort einen Alert. Die Datei bleibt auf dem SFTP liegen und wird nicht übergangen — so geht nichts verloren.
Funktioniert das auch mit anderen Quellen als SFTP — z.B. S3 oder Sharepoint?
Ja. Das Grundprinzip (Erkennen, Prüfen, Routen, Importieren) lässt sich auf andere Quellen übertragen. S3 und SharePoint sind beide direkt aus n8n ansprechbar.
Wie lange dauert der Aufbau einer solchen Pipeline?
Für einen standardisierten SFTP-Eingang mit 2–3 Dateiarten und einem Databricks-Workspace liegt der Aufwand typischerweise bei 2–4 Tagen inklusive Test.
Klingt nach deinem Problem?
Kurze Nachricht genügt – ich melde mich innerhalb von 24 Stunden.
Direkt Termin buchen