DatabricksSFTPDatenpipelineAutomatisierung

SFTP-Daten automatisch in Databricks importieren – sicher, dedupliziert, vollautomatisch

Wie Unternehmen CSV-Dateien vom SFTP-Server automatisch in Databricks Delta Lake importieren – mit Duplikatschutz, Fehler-Routing und Notebook-Steuerung.

SFTP überwacht

Neue Dateien erkannt

Duplikat-Prüfung

MD5-Hash

Notebook-Routing

Automatisch zugeordnet

Delta Lake Import

Bronze Layer

Tracking-Tabelle

Status & Zeitstempel

Von Christian Loth · Enterprise Architect & Automatisierungsexperte · Leipzig

Ich habe diese Pipeline für einen Betrieb mit täglichem SFTP-Dateneingang gebaut — hier ist der Aufbau.

Viele Unternehmen bekommen Daten noch per SFTP geliefert. CSV-Dateien, regelmäßig abgelegt, nach einem festen Schema. Databricks kann SFTP nicht nativ beobachten. Also sitzt jemand täglich am Schreibtisch und importiert manuell — ca. 30–45 Minuten pro Tag, manchmal vergessene Dateien inklusive.

Das Problem vorher

Ein Betrieb bekam täglich Datendateien von externen Partnern per SFTP. Verschiedene Dateiarten, verschiedene Notebooks in Databricks. Importiert wurde manuell — mit allen Risiken: vergessene Dateien, doppelte Importe, falsch zugeordnete Datensätze.

Der automatisierte Prozessablauf

Schritt 1 – SFTP-Überwachung Ein automatisierter Job überwacht den SFTP-Server und erkennt neue Dateien zuverlässig.

Schritt 2 – Duplikat-Schutz via Hash Jede Datei bekommt einen eindeutigen Fingerabdruck. Bereits verarbeitete Dateien werden übersprungen — auch wenn der Dateiname identisch ist, der Inhalt aber geändert wurde.

Schritt 3 – Automatisches Notebook-Routing Anhand des Dateinamens oder Dateityps wird automatisch das richtige Databricks-Notebook ausgewählt. Jede Datei landet genau dort, wo sie hingehört.

Schritt 4 – Import in Delta Lake Die Daten werden in die Bronze-Schicht importiert und von dort weiterverarbeitet. Vollständige Nachvollziehbarkeit, keine Datenverluste.

Schritt 5 – Tracking-Tabelle Jeder Import wird protokolliert: Dateiname, Zeitstempel, Status, verarbeitende Einheit. Fehler sind sofort sichtbar.

Das Ergebnis

Von ca. 30–45 Minuten manuellem Tagesaufwand auf 0 manuelle Schritte. Neue Dateien werden automatisch erkannt, geprüft, zugeordnet und importiert. Das Team arbeitet morgens mit frischen Daten — ohne einen Handgriff.

Eingesetzt: n8n · Databricks · Delta Lake · Python · MD5-Hashing · Bronze-Silver-Gold-Architektur

Du bekommst regelmäßig Dateien, die irgendwie in dein System müssen? Ich baue die Pipeline.

Häufige Fragen

Was passiert, wenn eine Datei ein unbekanntes Format hat?

Der Workflow erkennt, dass kein Notebook zugeordnet werden kann, und sendet sofort einen Alert. Die Datei bleibt auf dem SFTP liegen und wird nicht übergangen — so geht nichts verloren.

Funktioniert das auch mit anderen Quellen als SFTP — z.B. S3 oder Sharepoint?

Ja. Das Grundprinzip (Erkennen, Prüfen, Routen, Importieren) lässt sich auf andere Quellen übertragen. S3 und SharePoint sind beide direkt aus n8n ansprechbar.

Wie lange dauert der Aufbau einer solchen Pipeline?

Für einen standardisierten SFTP-Eingang mit 2–3 Dateiarten und einem Databricks-Workspace liegt der Aufwand typischerweise bei 2–4 Tagen inklusive Test.

Klingt nach deinem Problem?

Kurze Nachricht genügt – ich melde mich innerhalb von 24 Stunden.

Direkt Termin buchen