Abschlussarbeit (w/m/d): Extraktion von Text-Objekt-Relations in technischen Zeichnungen mit LLMs
Abschlussarbeit (w/m/d): Extraktion von Text-Objekt-Relations in technischen Zeichnungen mit LLMs
Abschlussarbeit (w/m/d): Extraktion von Text-Objekt-Relations in technischen Zeichnungen mit LLMs
Abschlussarbeit (w/m/d): Extraktion von Text-Objekt-Relations in technischen Zeichnungen mit LLMs
Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR)
Forschung
St. Augustin
- Art der Beschäftigung: Studierende
- Vor Ort
- Zu den Ersten gehören
Abschlussarbeit (w/m/d): Extraktion von Text-Objekt-Relations in technischen Zeichnungen mit LLMs
Über diesen Job
Das Institut für den Schutz terrestrischer Infrastrukturen hat die stabile Versorgung der Gesellschaft zum Ziel. Digitale Zwillinge ermöglichen die Überwachung und Reaktion auf Krisen und Angriffe sowie die Analyse und Optimierung der Resilienz terrestrischer Infrastrukturen.
Das erwartet dich
Eine Herausforderung bei der Erstellung digitaler Zwillinge ist die Umwandlung von technischen Dokumentationen, insbesondere von Rohrleitungs- und Instrumentierungsdiagrammen (P&IDs) und elektrischen Schaltplänen, in strukturierte, maschinenlesbare Daten. In dieser Arbeit sollen Methoden erforscht und evaluiert werden, die Textannotationen (Beschriftungen, Notizen, Teilenummern) nutzen, indem Sie Large Language Model (LLM)-Features mit Objektdetektoren kombinieren, die zur Vorhersage von Graphen verwendet werden.
Deine Aufgaben
- Implementierung moderner OCR-Technologie für P&IDs und elektrische Zeichnungen und Aufbau eines Datensatzes (synthetisch + real) für Training und Evaluierung
- Erstellung eines Tools zum Taggen von Textstrings und den zugehörigen Symbolen, um Ground-Truth-Beziehungstabellen (Text ↔ Objekt) zu erstellen
- Vergleich und Bewertung verschiedener Ansätze zur Kombination der Textfeatures mit der Symbolerkennung:
- regelbasierte Methoden, die Distanz, Ausrichtung und domänenspezifische Hinweise verwenden (z. B. „Text, der über einem Symbol platziert ist, beschreibt dieses in der Regel“)
- Extraktion von semantischen Features aus dem erkannten Text mit einem vortrainierten LLM und Kombinierung mit CNN-Features der Symbole
- Training eines Classifiers, der Text- und Objekt-features als Eingabe nimmt und eine binäre Ausgabe „related/nicht related“ vorhersagt
- Erfassung, wissenschaftliche Analyse und Präsentation der Untersuchungsergebnisse
Das bringst du mit
- laufendes Studium in Informatik, Mechatronik, Elektrotechnik oder einem verwandten Fachgebiet
- Bereitschaft, sich in komplexe Themen einzuarbeiten
- Grundkenntnisse im Bereich Machine Learning
- gute Kenntnisse in der Programmierung mit Python
- selbstständiges Arbeiten
- gute Kommunikations- und Teamfähigkeiten
Gewünschte Qualifikation:
- Erfahrung mit Computer Vision-Bibliotheken wie OpenCV, PyTorch oder TensorFlow
- Grundkenntnisse von LLMs
Wir freuen uns darauf, dich kennenzulernen!
Fragen zu dieser Position (Kennziffer 4254) beantwortet dir gerne:
Tobias Koch
Tel.: +49 2241 20148 55
