Head of Site Reliability Engineering (SRE) (m/w/divers)
- TätigkeitsfeldTätigkeitsfeld:
Information Technology - StandortStandort:
Eschborn - Art der StelleArt der Stelle:
Unbefristet / Vollzeit / Teilzeit - Datum des ersten ArbeitstagesDatum des ersten Arbeitstages:
ab sofort - Datum des EinsendeschlussesDatum des Einsendeschlusses:
13.09.2025
Als Head of Site Reliability Engineering (SRE) spielst du bei uns eine zentrale Rolle bei der Sicherstellung der Stabilität und Performance unserer IT-Landschaft. Du übernimmst Verantwortung für das Mobile- & Online-Banking der Commerzbank und arbeitest eng mit Entwicklungs- sowie Infrastrukturteams zusammen, um eine sichere und zuverlässige Plattform für unsere Kunden zu gewährleisten. Gleichzeitig hast du die Möglichkeit, in einem international agierenden Umfeld zu arbeiten. Unser Unternehmen setzt auf agile Arbeitsmethoden und ein innovatives Mindset, in dem deine Ideen und dein Engagement gefragt sind.
Deine Aufgaben
- Fachliche Teamführung: Entwicklung und Umsetzung der SRE-Strategie zur Sicherstellung der Systemzuverlässigkeit und -verfügbarkeit
- Technische Expertise: Leitung von Initiativen zur Optimierung von Java-basierten Anwendungen, DevOps-Prozessen, Monitoring und Logging
- Incident Management: Moderation von Task Forces und Post-Mortem-Analysen zur Identifikation und Behebung von Problemen
- Koordination: Steuerung und Priorisierung von Issue-Fixing-Prozessen in Zusammenarbeit mit interdisziplinären Teams
- Wissensaufbau: Pflegen einer umfassenden Dokumentation für Observability-Konfigurationen, Automatisierungsprozesse und Cloud-Infrastruktur-Standards
- Teamführung: Aufbau und Weiterentwicklung eines leistungsstarken SRE-Teams
Dein Profil
- Bachelor oder Master in Informatik, Software Engineering oder vergleichbarem Abschluss
- Mehrjährige Berufserfahrung, idealerweise mit Schwerpunkt auf Site Reliability Engineering
- Profundes Verständnis von System Architektur und Cloud-Infrastruktur
- Ausgeprägte kommunikative und Moderationsfähigkeiten für das Management von Task Forces und (Post-Mortem-)Analysen
- Starke koordinative Fähigkeiten im Delivery Management
- Starke Fähigkeiten im Troubleshooting mit Schwerpunkt auf Performance-Tuning und Incident-Management
- Erfahrung in Scripting und Automatisierung, um wiederkehrende Prozesse zu optimieren
- Erfahrung im Alert Design & SLO-Management
- Verhandlungsstärke und ausgeprägte Überzeugungsfähigkeit, Teams zu motivieren und zu entwickeln
- Proaktive, lösungsorientierte Denkweise mit einem Fokus auf kontinuierliche Verbesserung
- Analytische Fähigkeiten bei der Problemlösung
Technische Schwerpunkte:
- Dynatrace Monitoring & Observability
- Java und Spring
- Openshift oder Kubernetes
- Cloud- und Netzwerk-Infrastruktur
- Unix / Linux