Site Reliability Engineer (f/m/d)

Jobriver HR Service

Internet, IT

Berlin

Art der Beschäftigung: Vollzeit
62.000 € – 84.000 € (von XING geschätzt)
Vor Ort
Aktiv auf der Suche

Über diesen Job

Site Reliability Engineer (f/m/d)

Berlin

Vor Ort

Vollzeit

Mid-Level

vor 47 Tagen

Aktualisiert vor 45 Tagen

59.000 € – 79.000 € / Jahr

Beschreibung

Das Unternehmen ist ein führender Anbieter von Unternehmenssoftware und bietet eine herausfordernde und dynamische Arbeitsumgebung. In der Rolle des Site Reliability Engineer sind Sie verantwortlich für die Sicherstellung der operativen Exzellenz der Cloud-Infrastruktur. Ihre Aufgaben umfassen den Aufbau und die Wartung von Unternehmens-Cloud-Infrastrukturen, die europäische Datenhoheit gewährleisten und hyperscaler-grade Fähigkeiten bieten. Sie werden an komplexen Herausforderungen in verteilten Systemen arbeiten, einschließlich Multi-Region-Netzwerken, Container-Orchestrierung und Speichersystemen. In Ihrem Team werden Sie innovative Lösungen entwickeln, um die Verfügbarkeit und Leistung der Systeme zu optimieren. Sie tragen zur Entwicklung von Monitoring- und Alarmierungssystemen bei und implementieren Praktiken des Reliability Engineerings, um die Zuverlässigkeit der Unternehmens-Cloud-Dienste zu verbessern. Ihr Beitrag wird sicherstellen, dass Organisationen kritische Anwendungen mit der erwarteten Leistung und Zuverlässigkeit betreiben können. Das Unternehmen fördert eine Kultur der kontinuierlichen Weiterbildung und des persönlichen Wachstums, wobei Wert auf Teamarbeit und Innovation gelegt wird.

Anforderungen

Der ideale Kandidat bringt mehr als 5 Jahre Erfahrung im Bereich Site Reliability Engineering oder in operativen Rollen mit und hat ein tiefes Verständnis für SLI/SLO/SLA-Konzepte sowie die Implementierung von Fehlerbudgets. Eine relevante Erfahrung in der Datenanalyse oder Datenengineering ist von Vorteil. Sie sollten über fundierte Kenntnisse in virtualisierten Infrastrukturen verfügen, insbesondere mit OpenStack und Kubernetes, sowie Erfahrung in der Verwaltung von hyperscaler-grade Plattformen. Automatisierung und Monitoring sind ebenfalls entscheidend; daher sind Kenntnisse in Python, Go und Bash zur Automatisierung von Berichten sowie Erfahrung mit Tools wie Prometheus, Grafana und ELK Stack wünschenswert. Darüber hinaus sind Erfahrung in der Hochverfügbarkeitsgestaltung, Fehlertoleranz und Chaos Engineering erforderlich. Praktische Erfahrungen im Incident Management und der systematischen Reduzierung von Arbeitsaufwand durch Automatisierung sind ebenfalls wichtig. Starke Fähigkeiten im Umgang mit verschiedenen Datensätzen und Datenqualitäten sind von Vorteil.

Technologien

Python Go PostgreSQL Redis Kubernetes Shell/Bash Prometheus Grafana

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken

Erforderliche Sprachen

Deutsch Englisch

Ähnliche Jobs

Site Reliability Engineer (m/f/d)

Site Reliability Engineer (m/f/d)

DevOps Engineer (m/w/d)

DevOps Engineer (m/w/d)