Audio Data Infrastructure Engineer
Audio Data Infrastructure Engineer
Audio Data Infrastructure Engineer
Audio Data Infrastructure Engineer
Jobriver HR Service
Internet, IT
Berlin
- Art der Beschäftigung: Vollzeit
- 53.500 € – 70.000 € (von XING geschätzt)
- Vor Ort
- Zu den Ersten gehören
Audio Data Infrastructure Engineer
Über diesen Job
Audio Data Infrastructure Engineer
Beschreibung
Unser Kunde ist ein schnell wachsendes Startup im Bereich Voice AI, das die Zuverlässigkeitsschicht für Sprach-KI aufbaut. In dieser Rolle als Audio Data Infrastructure Engineer sind Sie verantwortlich für das Design und die Wartung einer robusten, skalierbaren Datenpipeline, die Rohaudio von verschiedenen Quellen in strukturierte Analysen umwandelt. Sie übernehmen die Verantwortung für die Datenbankarchitektur, die Hochvolumigen Ingestion-Pipelines sowie die Analyse- und Labeling-Workflows, die viele Terabyte an Audio verarbeiten. Ihre Aufgaben umfassen die Ingestion von Rohaudio, die Durchführung großangelegter ML- und DSP-basierter Analysen sowie die effiziente Speicherung der resultierenden Metadaten und Analysen in einer großen PostgreSQL-Datenbank. Ihre Arbeit ist entscheidend für unsere Trainings-, Evaluierungs- und Analyse-Workflows und erfordert sorgfältige Aufmerksamkeit für Leistung, Korrektheit und Fehlertoleranz über die Ingestion-, Verarbeitungs- und Speicherungsebenen hinweg. Das Team besteht aus leidenschaftlichen und kollaborativen Kollegen, die in einem dynamischen, schnelllebigen Umfeld arbeiten. Sie haben die Möglichkeit, an der Spitze der technologischen Entwicklung zu stehen und die Zukunft der Sprach-KI mitzugestalten.
Anforderungen
Der ideale Kandidat bringt mehr als 3 Jahre Erfahrung im Bereich Data Engineering, ML-Infrastruktur oder verteilte Systeme mit, wobei er an Produktionssystemen in großem Maßstab gearbeitet hat. Er hat tiefgehende Erfahrung mit PostgreSQL, einschließlich Schema-Design, Partitionierung, Indizierung und Hochdurchsatz-Bulk-Loading. Erfahrungen im Aufbau und Betrieb zuverlässiger ETL-Pipelines unter Verwendung von Tools wie Airflow, Prefect oder Dagster sind erforderlich. Starke Python-Programmierkenntnisse, einschließlich asynchroner Verarbeitung und Multiprocessing, sind ebenfalls notwendig. Der Kandidat sollte Erfahrung im Umgang mit sehr großen Datensätzen, einschließlich hunderter Millionen von Zeilen oder TB-großen Dateien, haben. Praktische Kenntnisse über Audiodaten und gängige Verarbeitungstools wie FFmpeg sind von Vorteil. Außerdem sollte der Bewerber Erfahrung im Betrieb von ML-Inferenz-Pipelines in großem Maßstab haben. Eine Startup-Mentalität ist wichtig: Sie sind mit Unklarheiten vertraut, übernehmen Verantwortung für komplexe Systeme und treffen pragmatische Entscheidungen in einem schnelllebigen, produktgetriebenen Umfeld. Vorherige Erfahrungen in einem Startup oder einem ähnlichen dynamischen Umfeld sind von Vorteil.