Data Engineer (m/w/d) mit Schwerpunkt Databricks
Data Engineer (m/w/d) mit Schwerpunkt Databricks
Data Engineer (m/w/d) mit Schwerpunkt Databricks
Data Engineer (m/w/d) mit Schwerpunkt Databricks
Jobriver HR Service
Internet, IT
Köln
- Art der Beschäftigung: Vollzeit
- 51.500 € – 74.000 € (von XING geschätzt)
- Vor Ort
- Zu den Ersten gehören
Data Engineer (m/w/d) mit Schwerpunkt Databricks
Über diesen Job
Data Engineer (m/w/d) mit Schwerpunkt Databricks
Beschreibung
Das Unternehmen ist überzeugt, dass Daten mehr sind als nur Zahlen – sie sind entscheidende Grundlagen für Entscheidungen, Wachstum und Innovation. Die Mission des Unternehmens besteht darin, aus Daten echten, messbaren Mehrwert zu schaffen. Hierbei werden moderne Data Pipelines, Datenplattformen, BI-Lösungen und KI-Modelle entwickelt, die sowohl skalierbar als auch langfristig wartbar sind. Die Arbeitsweise ist agil, transparent und wertschätzend, sowohl intern als auch im Umgang mit Kunden. Teamgeist wird großgeschrieben, und regelmäßige Teamaktivitäten wie Sommerfeste und Weihnachtsfeiern sind Teil der Unternehmenskultur. In der Rolle als Data Engineer (m/w/d) mit Schwerpunkt Databricks bist du ein wesentlicher Bestandteil der datengetriebenen Lösungen des Unternehmens. Du wirst moderne Data Pipelines entwickeln, Architekturentscheidungen unterstützen und dafür sorgen, dass Daten effizient fließen. Zu deinen Aufgaben gehören der Aufbau und die Weiterentwicklung von Data Pipelines auf Basis von Databricks, Spark und Delta Lake, die Modellierung von Daten für verschiedene Use-Cases sowie die Integration unterschiedlicher Datenquellen. Du wirst eng mit Data Scientists, BI-Entwicklern und Kundenteams zusammenarbeiten und sicherstellen, dass die Performance und Stabilität der Lösungen gewährleistet sind. Das Unternehmen bietet dir viel Gestaltungsspielraum und die Möglichkeit, an spannenden Projekten rund um Lakehouse-Architekturen und Cloud-Plattformen zu arbeiten.
Anforderungen
Der ideale Kandidat bringt sehr gute Kenntnisse in Spark, Delta Lake und PySpark mit und hat Erfahrung im Aufbau von ETL/ELT-Pipelines, idealerweise in einer Medallion-Architektur. Zudem ist Erfahrung mit Azure-Services wie ADLS und Azure Data Factory erforderlich. Ein souveräner Umgang mit Git und CI/CD-Workflows, beispielsweise Azure DevOps, ist ebenfalls wichtig. Grundlagen der Datenmodellierung, wie Star Schema, 3NF oder Data Vault, sollten bekannt sein. Erfahrung mit Databricks-Jobs und ähnlichen Orchestrierungsmechanismen wird vorausgesetzt. Der Kandidat sollte ein hohes Qualitätsbewusstsein besitzen und den Wunsch haben, saubere, wartbare Datenlösungen zu entwickeln. Kommunikationsfähigkeit auf Augenhöhe, sowohl im Team als auch im Kundenkontakt, ist eine weitere wichtige Eigenschaft. Wünschenswert, aber nicht zwingend erforderlich, sind Kenntnisse in Streaming-Technologien, MLflow, Power BI oder dbt sowie Erfahrung mit mehreren Cloud-Anbietern und Data Governance.