LLM Engineer / AI Platform Engineer (m/w/d)
LLM Engineer / AI Platform Engineer (m/w/d)
relyon
Internet, IT
- Tübingen
- Vollzeit
- 58.000 € – 64.500 € (von XING geschätzt)
LLM Engineer / AI Platform Engineer (m/w/d)
Über diesen Job
LLM Engineer / AI Platform Engineer (m/w/d)
Projektkontext
OneAI ist eine mandantenfähige Enterprise-KI-Plattform mit lokal betriebenen Sprachmodellen (LLMs), Retrieval-Augmented Generation (RAG), automatisierten Datenimporten und Agentensteuerung.
Als
LLM Engineer
bist Du für die technische Basis unserer KI-Funktionen verantwortlich:
Du orchestrierst die Modellbereitstellung (Ollama), Embedding-Logik (LangChain, pgvector) und entwickelst das semantische Rückgrat unseres Systems – mandantenfähig, performant und EU-konform.
Deine Aufgaben
- Integration, Management und Optimierung lokaler LLMs (Ollama, LLaMA, Mistral, DeepSeek)
- Aufbau und Pflege der Embedding-Pipeline (Text-Chunks, pgvector, LangChain)
- Entwicklung & Betreuung von RAG-Komponenten , Retrieval-Strategien, Scoring
- Unterstützung bei LARA-Logik (Layered AI Retrieval Architecture) und promptbasierter Steuerung
- Modell-Management & Multi-Modell-Verwaltung (per API, CLI oder REST)
- Zusammenarbeit mit Backend (API), DevOps (Deployment), PO (Use Cases)
- Performance-Tuning, GPU-Auslastungsanalyse (MIG), Troubleshooting1
Unser Stack
- LLM-Infra: Ollama, Mistral, LLaMA, DeepSeek, GPU via MIG
- Embedding: LangChain, pgvector, Chunking, TextSplitter, FAISS (optional)
- Backend/API: Bun, TypeScript, REST, WebSocket
- Storage: PostgreSQL, SeaweedFS, JSON-Vektoren
- Orchestrierung: Docker, Traefik, 0codeDeploy, Prometheus, Grafana
Dein Profil
- Erfahrung mit LLM-Infrastruktur (Ollama, LangChain, gguf, HuggingFace, vllm o. ? ä.)
- Sehr gutes Verständnis von Embedding-Konzepten, RAG, Vektorraumlogik, Prompt Engineering
- Praktische Erfahrung mit pgvector , SQL, Text-Splitting & Preprocessing
- Kenntnisse in TypeScript, Python oder Shell (z.?B. zur Integration in Pipelines)
- Interesse an GPU-Strategien, Modellgrößen, Quantisierung, Inferenzoptimierung
- Sorgfältige, dokumentierende, API-orientierte Arbeitsweise
Bonuspunkte
- Erfahrung mit Feintuning / LoRA / ggml-Optimierung
- Kenntnisse in Modellvergleich, Score-Tuning, Custom Prompt Templates
- Praxis in Mandantenfähiger RAG oder RAG-as-a-Service
- Grundlagen in LLM-Sicherheit (Injection Detection, Moderation)
Wenn Du RAG-Architekturen spannend findest, mit Embeddings experimentierst und AI nicht nur nutzen, sondern mitentwickeln willst – bist Du hier richtig.
Bewirb Dich und baue mit uns die souveränste KI-Plattform Europas.
Tätigkeitsbereich
Karrierestufe
Arbeitszeit
Standorte
Gehalts-Prognose
Bewertung von Mitarbeitenden
Gesamtbewertung
Basierend auf 35 BewertungenVorteile für Mitarbeitende
Unternehmenskultur
Unternehmenskultur
35 Mitarbeitende haben abgestimmt: Sie bewerten die Unternehmenskultur bei relyon als sehr modern.Der Branchen-Durchschnitt geht übrigens in Richtung modern