Mit maschinellem Lernen zu einer besseren Datenverwertung
KI und maschinelles Lernen sind faszinierende Technologien und bieten großes Potenzial. Die Chancen, die sich vor allem bei Routinearbeiten und Automatisierung ergeben, sind vielfältig. Doch wie gelingen KI und ML am besten? Was sind die Vorteile und was die Herausforderungen auf dem Weg zu mehr KI? Und wo sollte maschinelles Lernen innerhalb eines Systems eingebettet sein, damit Daten verlässliche Analyseergebnisse erbringen? Der Fachartikel zeigt, warum in diesem Zusammenhang Datenplattformen, sogenannte Data Hubs, eine entscheidende Rolle spielen.
Deutsche Unternehmen haben lange gezögert, aber jetzt kommt Schwung in die Entwicklung: Laut der jüngsten IDG Studie zum maschinellen Lernen (ML) nutzen bereits 57 Prozent der deutschen Unternehmen mindestens eine Applikation aus diesem Bereich. Gute Einsatzmöglichkeiten finden sich im Bereich Kundenservice, um das Beziehungsmanagement zu optimieren, sowie in der Fertigungsindustrie, wo Sensorgeräte zur Qualitätssicherung und zur Zustandsüberwachung von Anlagen eingesetzt werden.
Integration in andere Systeme
Wenn maschinelles Lernen in andere Geräte oder Systeme integriert wird, ist die Rede von Embedded Machine Learning. Werden die KI-Module direkt im Kern einer Datenbank des Unternehmens implementiert, lässt sich der Nutzen dieser Datenbank deutlich steigern. Eine hohe Datenqualität vorausgesetzt, liefern Abfragen bessere Resultate, überraschende Zusammenhänge und erhöhen so die Zufriedenheit und Effektivität des Nutzers. Das System denkt mit: Es erkennt Zusammenhänge und stellt diese dar, es lernt dabei über die Zeit hinzu, um noch besser zu werden.
Aber nicht nur für den Endanwender ergeben sich Vorteile. Bei der Integration von Daten als Basis für moderne Anwendungen ist ein Data Steward oft mit einer Vielzahl von verschiedenen Schemata und Konventionen konfrontiert. Hier helfen modere KI Algorithmen: Der Automatisierungsgrad lässt sich bei der Datenpflege erhöhen. Laufen diese Prozesse embedded ab, entfallen umständliche Export- und Import-Prozesse. Für den Datenanalysten ergibt sich eine starke Vereinfachung: Modelle aus maschinellen Lern- und KI-Tools lassen sich exportieren und in die Datenbank importieren – unter Beibehaltung der gewohnten Entwicklungsumgebung. Gleichzeitig vereinfacht sich das Ausführen von Modellen direkt in der Datenbank. Voraussetzung dafür ist allerdings, dass die Datenbank offene Standards bei der Modelldefinition unterstützt.
Vorteile des maschinellen Lernens
ML ist im Wesentlichen Mustererkennung. Die Muster sind in Daten versteckt, die so umfangreich und komplex sind, dass sie ohne hochentwickelte Tools nur sehr schwer zu erkennen sind. Um Muster zu erkennen, gilt es, zunächst die Zusammenhänge zwischen den Attributen aufzudecken. Ein maschinelles Lernmodell ist letztlich eine mathematische Darstellung dieser Zusammenhänge. Die Vorteile des maschinellen Lernens sind
Vorhersagen: Welche Aussage lässt sich treffen, wenn sich auch nur ein oder zwei unauffällige Merkmale verändern, die zum Beispiel den Lebensstil oder die Konstitution einer Person betreffen? Welche veränderte Prognose etwa über Gesundheitsrisiken ergibt sich daraus?
Klassifizierung: Neue Daten lassen sich auf der Grundlage bereits erkannter Muster klassifizieren/einordnen. So weist beispielsweise ein neuer Kunde Attribute auf, die ihn in bestehende Kategorien einordnen. Klassifizierungen werden mit der Zeit genauer, da das System Entscheidungen wieder in den Lernprozess einbindet.
Genauigkeit: Ein gut trainiertes Modell übertrifft fast immer ein regelbasiertes System. Wenn der Betrachtungsraum groß und die Beziehungen komplex sind, gerät das Festlegen von Regeln zu einer unmöglichen Aufgabe. Machine-Learning-Tools hingegen bewältigen diese Aufgaben schneller und genauer.
Mehr als nur Hype?
Grundsätzlich geht es auch hier um Daten: Denn für ein genaues Modell sind große Datenmengen erforderlich, erst dann lassen sich darin verborgene Muster aufdecken. Die Daten müssen zunächst integriert werden, um die benötigten Merkmale zusammenzubringen, denn sie sind über mehrere Systeme in einem Unternehmen verteilt. Mit anderen Worten: Dieselbe 360-Grad-Ansicht, die der Service-Mitarbeiter benötigt, um einen Kunden zu optimal bedienen, ist ebenso dafür geeignet, zukünftiges Kaufverhalten vorherzusagen.
Hat das Unternehmen die Datenintegration geleistet, kann es nun eine Reihe von modernen hochleistungsfähigen, präzisen Frameworks und Toolkits für ML nutzen, die die Erstellung von Prozessen praktikabel machen. Durch die Open-Source-Gemeinschaft verbessern sich diese ständig und machen sie genauer und schneller.
Herausforderungen beim maschinellen Lernen
Embedded Machine Learning kann insbesondere Routinearbeiten viel schneller und effizienter erledigen. Dennoch gibt es einige Herausforderungen: So liefern Investitionen in KI und ML zunächst oft einen sehr niedrigen ROI (Return of Investment). Viele Unternehmen sehen in KI-Projekten eher experimentelle Wissenschaftsprojekte als eine lohnende Investition in den Kern ihrer Infrastruktur. Ein Grund dafür ist, dass der "Black Box"-Output beim Maschinellen Lernen nicht verstanden wird und deshalb kein Vertrauen in die Ergebnisse vorhanden ist. Das macht es schwierig, Entscheidungen anhand dieser Modelle zu treffen, selbst wenn sie korrekt sind. Der Mensch muss also erst lernen, Vertrauen in die Algorithmen zu fassen.
Hinzu kommt, dass das Ökosystem möglicher Tools komplex ist. Schaffen neue Werkzeuge den Sprung aus der Forschung in die Unternehmen, dann stehen plötzlich auch Fragen nach Sicherheit, Governance-Implikationen und die Suche nach qualifizierten Mitarbeitern im Raum.
Und als letzter Punkt lohnt sich ein Blick auf das Thema Daten. Data Scientists müssen große Mengen an Daten für das maschinelle Lernen zusammenstellen. Laut einem Artikel in der New York Times verbringen sie 80 Prozent ihrer Zeit damit, Daten in eine benutzbare Form zu bringen. Welche Daten sollen verwendet werden? Sind sie korrekt und vertrauenswürdig? Woher stammen sie? Enthalten sie personenbezogene Daten? Entscheidend ist in jedem Fall die Datenqualität. Ist diese unzureichend, wird sich dies deutlich auf die Ergebnisse der Abfragen auswirken.
Verbesserte Funktionsweise von Datenbanken durch ML
Daten werden am besten in einem Data Hub, einer Datenplattform, gesichert, verwaltet und zueinander in Beziehung gesetzt. Genau da, im Kern einer solchen Datenbank, sollte das maschinelle Lernen angesiedelt sein. Mit diesem Ansatz lassen sich zum einen viele Herausforderungen in puncto Governance und Vertrauen in die Datenqualität in den Griff bekommen. Gleichzeitig lässt sich so das Potenzial am besten ausschöpfen, das maschinelles Lernen bietet. KI-Prozesse können unter dem Dach einer sicheren Umgebung direkt und parallel nahe an den Daten laufen.
All das hat positive Auswirkungen darauf, wie die Datenbank funktioniert, wie Daten gepflegt und wie Modelle trainiert und durchgeführt werden. Embedded Machine Learning optimiert nicht zuletzt die Performance der Datenbank selber. So lässt sich zum Beispiel durch die Überwachung von Abfragemustern und Zugriffsplänen die Leistung zukünftiger Ausführungen verbessern, indem das System automatisch neu angepasst wird. Ein weiteres Beispiel ist die autonome Elastizität. Damit finden Modelle von Abfragemustern Verwendung, um die Regeln für das Neuverteilen von Daten oder ihrer Neuindizierung zu automatisieren.
Optimierte Datenpflege
In einem Data Hub werden Daten integriert, gespeichert und gepflegt, um deren Nutzen zu steigern. Dabei beinhaltet Datenpflege die Qualitätskontrolle, Harmonisierung, den Abgleich und die Anreicherung der Daten. Das maschinelle Lernen bietet für jeden dieser Schritte spezielle Anwendungen, die helfen, den Automatisierungsgrad zu erhöhen und die Komplexität zu reduzieren:
Intelligentes Mastering: Smart Mastering gleicht Daten intelligent ab und führt sie zusammen. Dies ist durchaus als Weiterführung von KI und Fuzzy-Matching zu verstehen. Mit Embedded Machine Learning wird Smart Mastering noch intelligenter, denn ML kommt zum Einsatz, um den bestehenden, regelbasierten Mastering-Prozess zu erweitern und so die Genauigkeit zu verbessern und Ausnahmen entsprechend zu verwalten.
Datenmodellierung: Maschinelles Lernen kann während der Modellierungsphase genutzt werden, um festzustellen, ob in bestimmten Daten personenbezogene Informationen enthalten sind und um ihren Abgleich-Algorithmus genauer zu machen (damit weniger manuelle Eingriffe notwendig werden). Außerdem unterstützt ML auch die Klassifizierung von Attributen und schlägt Mapping und Modellierungsregeln vor.
In jedem Fall erfolgt ein ständiges Training der Modelle für maschinelles Lernen. Mit anderen Worten: Je mehr Daten integriert werden, desto intelligenter wird das System. Für Datenwissenschaftler ist es jetzt einfacher, das Trainieren der Modelle mit Testdaten und das Ausführen der Modelle durchzuführen. Gartner schlägt in seinem Technical Professional Advice Paper mit dem Titel "Preparing and Architecting for Machine" Lear eine Referenzarchitektur vor, für die schon Vieles durch Embeddedd Machine Learning erfüllt ist und zwar innerhalb einer Datenbank, aufgesetzt als Data Hub.
Funktionsweise von Embedded Machine Learning
Wie funktioniert denn nun das Embedded Machine Learning genau? Was brauchen Unternehmen, um innerhalb einer Datenbank KI-Algorithmen ablaufen zu lassen? Dazu werden einige Schlüsseltechnologien integriert, die dem Datenwissenschaftler helfen, so ein System aufzusetzen, die aber für den Endanwender, der letztlich den Nutzen haben möchte, nicht von Bedeutung sind.
KI-Modelle, die mit entsprechenden Werkzeugen entwickelt wurden, sollten einfach auf andere Plattformen portierbar sein. Dazu wurde ONNX entwickelt. ONNX ist ein offenes Format, das bei vielen KI-Laufzeitumgebungen Unterstützung findet. Stellt die Datenbank die benötigte Laufzeitumgebung bereit, ergibt sich ein einfacher Workflow: Ein Data Scientist wählt aus einer Vielzahlt an möglichen Werkzeugen ein KI-Tool aus, exportiert das KI-Modell im ONNX-Format und liest es in die Datenbank ein. Unterstützt die Datenbank nun noch Nvidias CUDA (Compute Unified Device Architecture) können moderne Graphikprozessoren Verwendung finden, um die KI-Anwendung in der Datenbank sowohl auf einem Laptop als auch im Rechenzentrum hardwarebeschleunigt ablaufen zu lassen.
Fazit
KI und ML sind faszinierende Technologien und bieten zweifelsohne große Chancen, aber der Weg von der Idee zur Umsetzung muss einfach sein. Dabei hilft es, ML nicht als spezifische Technologie, sondern eher als einen Prozess zu verstehen: Die Integration der Daten in einen Data Hub, der Entwurf von Modellen, die auf den integrierten Daten operieren sollen und letztlich der Ablauf der Algorithmen direkt innerhalb der Datenbank führen dann zum Ziel. Die meisten Branchen, die mit großen Datenmengen arbeiten, haben den Wert des maschinellen Lernens erkannt. Sie können damit Erkenntnisse aus Daten ableiten – oftmals in Echtzeit – und dank dieser Erkenntnisse effizienter arbeiten oder sich Wettbewerbsvorteile verschaffen.
Autor: Dr. Stefan Grotehans, Senior Director Solutions Engineering DACH bei MarkLogic Deutschland