Site Reliability Engineer (f/m/d)
Site Reliability Engineer (f/m/d)
Site Reliability Engineer (f/m/d)
Site Reliability Engineer (f/m/d)
Jobriver HR Service
Internet, IT
Berlin
- Art der Beschäftigung: Vollzeit
- 62.000 € – 84.000 € (von XING geschätzt)
- Vor Ort
- Zu den Ersten gehören
Site Reliability Engineer (f/m/d)
Über diesen Job
Site Reliability Engineer (f/m/d)
Beschreibung
Das Unternehmen ist ein führender Anbieter von Unternehmenssoftware und bietet eine herausfordernde und dynamische Arbeitsumgebung. In der Rolle des Site Reliability Engineer sind Sie verantwortlich für die Sicherstellung der operativen Exzellenz der Cloud-Infrastruktur. Ihre Aufgaben umfassen den Aufbau und die Wartung von Unternehmens-Cloud-Infrastrukturen, die europäische Datenhoheit gewährleisten und hyperscaler-grade Fähigkeiten bieten. Sie werden an komplexen Herausforderungen in verteilten Systemen arbeiten, einschließlich Multi-Region-Netzwerken, Container-Orchestrierung und Speichersystemen. In Ihrem Team werden Sie innovative Lösungen entwickeln, um die Verfügbarkeit und Leistung der Systeme zu optimieren. Sie tragen zur Entwicklung von Monitoring- und Alarmierungssystemen bei und implementieren Praktiken des Reliability Engineerings, um die Zuverlässigkeit der Unternehmens-Cloud-Dienste zu verbessern. Ihr Beitrag wird sicherstellen, dass Organisationen kritische Anwendungen mit der erwarteten Leistung und Zuverlässigkeit betreiben können. Das Unternehmen fördert eine Kultur der kontinuierlichen Weiterbildung und des persönlichen Wachstums, wobei Wert auf Teamarbeit und Innovation gelegt wird.
Anforderungen
Der ideale Kandidat bringt mehr als 5 Jahre Erfahrung im Bereich Site Reliability Engineering oder in operativen Rollen mit und hat ein tiefes Verständnis für SLI/SLO/SLA-Konzepte sowie die Implementierung von Fehlerbudgets. Eine relevante Erfahrung in der Datenanalyse oder Datenengineering ist von Vorteil. Sie sollten über fundierte Kenntnisse in virtualisierten Infrastrukturen verfügen, insbesondere mit OpenStack und Kubernetes, sowie Erfahrung in der Verwaltung von hyperscaler-grade Plattformen. Automatisierung und Monitoring sind ebenfalls entscheidend; daher sind Kenntnisse in Python, Go und Bash zur Automatisierung von Berichten sowie Erfahrung mit Tools wie Prometheus, Grafana und ELK Stack wünschenswert. Darüber hinaus sind Erfahrung in der Hochverfügbarkeitsgestaltung, Fehlertoleranz und Chaos Engineering erforderlich. Praktische Erfahrungen im Incident Management und der systematischen Reduzierung von Arbeitsaufwand durch Automatisierung sind ebenfalls wichtig. Starke Fähigkeiten im Umgang mit verschiedenen Datensätzen und Datenqualitäten sind von Vorteil.