Senior Site Reliability Engineer - AI Plattform

Jobriver HR Service

Internet, IT

Berlin

Art der Beschäftigung: Vollzeit
71.000 € – 91.000 € (von XING geschätzt)
Vor Ort
Aktiv auf der Suche

Über diesen Job

Senior Site Reliability Engineer - AI Plattform

Berlin

Vor Ort

Vollzeit

Senior

vor 43 Tagen

46.000 € – 69.000 € / Jahr

Beschreibung

Wir suchen einen erfahrenen Senior Site Reliability Engineer, der unser Team im Bereich Plattform Engineering verstärkt. Die Mission des Plattform Engineering ist es, vertrauenswürdige, leistungsstarke und benutzerfreundliche Plattformen bereitzustellen, die Produktteams dabei unterstützen, eine Bank zu schaffen, die die Welt liebt. Unser AI Plattform Team trägt zu dieser Mission bei, indem es skalierbare, sichere und konforme Infrastruktur-Lösungen entwickelt, die MLOps- und GenAI-Funktionen unterstützen. Der ideale Kandidat ist nicht nur ein erfahrener SRE-Experte, der bereit ist, seine Fähigkeiten auf die Herausforderungen der KI-Infrastruktur anzuwenden, sondern auch ein begeisterter Lernender, der sich darauf freut, mit einem Team zu wachsen, das bahnbrechende Plattformlösungen entwickelt. In dieser Rolle werden Sie Plattformlösungen entwerfen, entwickeln und implementieren, die die Zuverlässigkeit, Sicherheit und Skalierbarkeit der AI Plattform-Infrastruktur verbessern. Sie werden technische Führungsqualitäten in den Bereichen Cloud-Infrastruktur, Netzwerk, CI/CD und Sicherheit für AI- und MLOps-Workloads bereitstellen. Die enge Zusammenarbeit mit Data Scientists, ML Engineers und Produktteams ist entscheidend, um eine nahtlose Modellbereitstellung und betriebliche Effizienz sicherzustellen. Darüber hinaus werden Sie Teammitglieder betreuen und coachen, um eine Kultur des Wissensaustauschs, der technischen Exzellenz und der kontinuierlichen Verbesserung zu fördern. Ihre aktive Rolle bei der Gestaltung der Strategie, Roadmap und Architektur des Teams wird ebenfalls von großer Bedeutung sein. Sie werden die Vorfallverwaltung und Fehlerbehebung vorantreiben, um eine stabile und vorhersehbare Entwicklungs- und Bereitstellungsumgebung für KI zu gewährleisten. Die Verbesserung der Beobachtbarkeit und Überwachung ist ebenfalls Teil Ihrer Aufgaben, um sicherzustellen, dass die AI Plattform die Leistungs- und Compliance-Anforderungen erfüllt.

Anforderungen

Um in dieser Position erfolgreich zu sein, sollten Sie über umfangreiche praktische Erfahrungen im Entwerfen, Implementieren und Warten von cloudbasierten Infrastrukturen, insbesondere in AWS, verfügen. Sie sollten über fundierte Erfahrungen mit Infrastructure as Code (Terraform, CloudFormation oder ähnliches) verfügen und mindestens eine Programmiersprache beherrschen, idealerweise Python. Kenntnisse über Netzwerk- und Sicherheitsbest Practices in Cloud-Umgebungen sind ebenfalls erforderlich. Praktische Erfahrungen mit CI/CD-Pipelines (GitHub Actions, ArgoCD, Jenkins oder ähnliches) sind von Vorteil. Vertrautheit mit Beobachtbarkeitstools (DataDog, Prometheus, Grafana, OpenTelemetry) ist wünschenswert. Es wäre von Vorteil, wenn Sie Erfahrung mit AI/ML-Produktionssystemen und den einzigartigen Herausforderungen der Skalierung von AI-Workloads haben. Kenntnisse in der Orchestrierung von AI/ML-Workloads sowie mit MLOps-Tools (z.B. AWS SageMaker, Bedrock, Kubeflow, MLflow) sind ebenfalls von Vorteil. Sie sollten über hervorragende Team- und Kommunikationsfähigkeiten verfügen, um effektiv über Teamgrenzen hinweg zu arbeiten und Ingenieure zu betreuen. Ein starkes Verantwortungsbewusstsein und eine proaktive Herangehensweise an Problemlösungen und Prozessverbesserungen sind ebenfalls wichtig. Eine Leidenschaft für den Aufbau qualitativ hochwertiger, skalierbarer und sicherer AI-Infrastrukturen sowie die Bereitschaft zu lernen und zur Weiterentwicklung von AI-Plattformen beizutragen, sind unerlässlich.

Technologien

Python AWS Terraform Jenkins GitHub Actions Prometheus Grafana

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken Eigenverantwortung

Erforderliche Sprachen

Deutsch Englisch

Ähnliche Jobs

Site Reliability Engineer (m/f/d)

Site Reliability Engineer (m/f/d)

DevOps Engineer (m/w/d)

DevOps Engineer (m/w/d)

Senior Site Reliability Engineer - Database Operations

Senior Site Reliability Engineer - Database Operations

Site Reliability Engineer (m/f/d)

Site Reliability Engineer (m/f/d)

DevOps Engineer (m/w/d)

DevOps Engineer (m/w/d)

Senior Site Reliability Engineer - Database Operations

Senior Site Reliability Engineer - Database Operations

Senior Site Reliability Engineer - AI Plattform