Senior Site Reliability Engineer - AI Plattform
Senior Site Reliability Engineer - AI Plattform
Senior Site Reliability Engineer - AI Plattform
Senior Site Reliability Engineer - AI Plattform
Jobriver HR Service
Internet, IT
Berlin
- Art der Beschäftigung: Vollzeit
- 71.000 € – 91.000 € (von XING geschätzt)
- Vor Ort
- Zu den Ersten gehören
Senior Site Reliability Engineer - AI Plattform
Über diesen Job
Senior Site Reliability Engineer - AI Plattform
Beschreibung
Wir suchen einen erfahrenen Senior Site Reliability Engineer, der unser Team im Bereich Plattform Engineering verstärkt. Die Mission des Plattform Engineering ist es, vertrauenswürdige, leistungsstarke und benutzerfreundliche Plattformen bereitzustellen, die Produktteams dabei unterstützen, eine Bank zu schaffen, die die Welt liebt. Unser AI Plattform Team trägt zu dieser Mission bei, indem es skalierbare, sichere und konforme Infrastruktur-Lösungen entwickelt, die MLOps- und GenAI-Funktionen unterstützen. Der ideale Kandidat ist nicht nur ein erfahrener SRE-Experte, der bereit ist, seine Fähigkeiten auf die Herausforderungen der KI-Infrastruktur anzuwenden, sondern auch ein begeisterter Lernender, der sich darauf freut, mit einem Team zu wachsen, das bahnbrechende Plattformlösungen entwickelt. In dieser Rolle werden Sie Plattformlösungen entwerfen, entwickeln und implementieren, die die Zuverlässigkeit, Sicherheit und Skalierbarkeit der AI Plattform-Infrastruktur verbessern. Sie werden technische Führungsqualitäten in den Bereichen Cloud-Infrastruktur, Netzwerk, CI/CD und Sicherheit für AI- und MLOps-Workloads bereitstellen. Die enge Zusammenarbeit mit Data Scientists, ML Engineers und Produktteams ist entscheidend, um eine nahtlose Modellbereitstellung und betriebliche Effizienz sicherzustellen. Darüber hinaus werden Sie Teammitglieder betreuen und coachen, um eine Kultur des Wissensaustauschs, der technischen Exzellenz und der kontinuierlichen Verbesserung zu fördern. Ihre aktive Rolle bei der Gestaltung der Strategie, Roadmap und Architektur des Teams wird ebenfalls von großer Bedeutung sein. Sie werden die Vorfallverwaltung und Fehlerbehebung vorantreiben, um eine stabile und vorhersehbare Entwicklungs- und Bereitstellungsumgebung für KI zu gewährleisten. Die Verbesserung der Beobachtbarkeit und Überwachung ist ebenfalls Teil Ihrer Aufgaben, um sicherzustellen, dass die AI Plattform die Leistungs- und Compliance-Anforderungen erfüllt.
Anforderungen
Um in dieser Position erfolgreich zu sein, sollten Sie über umfangreiche praktische Erfahrungen im Entwerfen, Implementieren und Warten von cloudbasierten Infrastrukturen, insbesondere in AWS, verfügen. Sie sollten über fundierte Erfahrungen mit Infrastructure as Code (Terraform, CloudFormation oder ähnliches) verfügen und mindestens eine Programmiersprache beherrschen, idealerweise Python. Kenntnisse über Netzwerk- und Sicherheitsbest Practices in Cloud-Umgebungen sind ebenfalls erforderlich. Praktische Erfahrungen mit CI/CD-Pipelines (GitHub Actions, ArgoCD, Jenkins oder ähnliches) sind von Vorteil. Vertrautheit mit Beobachtbarkeitstools (DataDog, Prometheus, Grafana, OpenTelemetry) ist wünschenswert. Es wäre von Vorteil, wenn Sie Erfahrung mit AI/ML-Produktionssystemen und den einzigartigen Herausforderungen der Skalierung von AI-Workloads haben. Kenntnisse in der Orchestrierung von AI/ML-Workloads sowie mit MLOps-Tools (z.B. AWS SageMaker, Bedrock, Kubeflow, MLflow) sind ebenfalls von Vorteil. Sie sollten über hervorragende Team- und Kommunikationsfähigkeiten verfügen, um effektiv über Teamgrenzen hinweg zu arbeiten und Ingenieure zu betreuen. Ein starkes Verantwortungsbewusstsein und eine proaktive Herangehensweise an Problemlösungen und Prozessverbesserungen sind ebenfalls wichtig. Eine Leidenschaft für den Aufbau qualitativ hochwertiger, skalierbarer und sicherer AI-Infrastrukturen sowie die Bereitschaft zu lernen und zur Weiterentwicklung von AI-Plattformen beizutragen, sind unerlässlich.