Wie sammelt man Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet.

Asynchrone Datenverarbeitung

Zunächst werden die Rohdaten aus den Systemen extrahiert. Dazu muss für jedes System eine geeignete Schnittstelle identifiziert werden. Generell können Daten aus Systemen per Push- oder Pull-Mechanismus extrahiert werden und werden dann mithilfe eines Service in einen Kafka Topic geschrieben. Nun können die Daten asynchron verarbeitet werden, somit wird auch das eventuelle Risiko eines Rückstaus bei der Extraktion minimiert. Gleichzeitig stellt Kafka sicher, dass ein transaktionaler Kontext die Konsistenz aller zu speichernden Daten sicherstellt. Die zu speichernden Daten können ebenso binäre Formate enthalten, da die Transformation in weiterführende Daten bei der Ablage noch keine Rolle spielt. „Da wir in einer privaten Cloud beginnen und später in eine AWS- oder Microsoft-Azure- basierte Umgebung zur Speicherung der Daten im Data Lake wechseln können müssen, nutzen wir MinIO als Abstraktion des Dateisystems. MinIO stellt aus Sicht der Applikation immer einen S3-Bucket zur Verfügung. Auf diese Weise sind auch hybride Umgebungen oder Umzüge der Datenbasis kein Problem für den Data Lake“, sagt Carsten Hilber, AIM Co-Founder & DevOps Engineer.

Der KIS Extractor wird zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. – Bild: AIM – Agile IT Management GmbH

Jira Extraktion

Im konkreten Beispiel des Jira Servicedesk geschieht das durch ein Plugin, das neu angelegte und geänderte Service Requests erkennt und zur Ablage an den Data Lake sendet. Gleichzeitig überprüft der Service, der die Daten ablegt, ob sich die Struktur der Datensätze geändert hat. Dies kann bedeuten, dass ein neues Feld hinzugefügt wurde. Diese Änderungen werden in einer Avro Schema Registry gespeichert, sodass die Veränderung der Struktur von Data Scientists ebenso zur Lösungsentwicklung in Betracht gezogen werden kann. Änderungen oder Neuanlagen von Service Requests werden vom Jira Extractor erkannt und im JSON-Format in einen Topic geschrieben. Dort wird die Schemaänderung vom Exporter abgeholt und ebenfalls in den Data Lake geschrieben. Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben, was ebenfalls eine Referenz auf die gültige Schema Version in der Registry erlaubt.

Von der Datenerfassung zur KI-Applikation. – Bild: AIM – Agile IT Management GmbH

KIS Extraktor

Die Kundendaten liegen in diesem Fall in einer kundenseitigen Applikation auf FileMaker-Basis. FileMaker bietet eine REST-Schnittstelle, um die Daten zu extrahieren, zurückgegeben werden sie im JSON-Format. FileMaker bietet außerdem eine Schnittstelle zum Extrahieren der verwendeten Datenformate aller Felder, was die Extraktion des Schemas erleichtert. Die Daten werden jede Nacht abgerufen und als Batch verarbeitet. Dabei wird der KIS Extraktor zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. Diese werden nun in die einzelnen Objekte aufgeteilt und in einen Topic geschrieben. Hierdurch wird ebenfalls der Schema Extractor aufgefordert, das aktuelle Schema für den jeweiligen Datensatz zu prüfen. Der Schema Extractor nutzt eine Avro Schema Registry, um das Schema abzugleichen und gegebenenfalls fortzuschreiben. Alle einzelnen Objekte aus dem ursprünglichen Batch werden jetzt zu einem richtigen Objekt zusammengesetzt, welches im Avro-Format serialisiert wird. Das eigentliche Objekt wird dann im Parquet-Format in den Data Lake geschrieben.

Bild: Fraunhofer IEM

Effiziente Produktionsplanung: KI reduziert Aufwand bei Schulte Kartonagen um 25%

Welcher Liefertermin steht wann an? Wie aufwändig muss die Maschine umgerüstet werden? Ist das benötigte Material bereits geliefert? Um die Reihenfolge verschiedener Kundenaufträge optimal zu planen, müssen Produktionsplaner:innen eine Vielzahl von Faktoren kennen und einschätzen. Bei Schulte Kartonagen hat ab sofort ein intelligenter KI-Assistent alle Faktoren im Blick – und macht Vorschläge für die effiziente Planung der Produktion. Gefördert wurde die Zusammenarbeit mit dem Fraunhofer IEM und den Universitäten Paderborn und Bielefeld im it’s OWL-Projekt ARISE.

Bild: schoesslers GmbH

appliedAI Institute for Europe launcht kostenlosen KI-Onlinekurs

Das gemeinnützige appliedAI Institute for Europe stellt den kostenfreien Online-Kurs ‚AI Essentials‘ zur Verfügung, der es Interessierten ermöglicht, in die Welt der Künstlichen Intelligenz einzusteigen. Konzepte wie maschinelles Lernen und Deep-Learning sowie deren Anwendungsmöglichkeiten und Auswirkungen auf unser Leben und unsere Wirtschaft sind Teile der umfassenden Einführung.

Bild: ©fotomek - stock.adobe.com

Exzellenznetzwerk für Edge-KI-Technologien

Das europäische Exzellenznetzwerk ‚dAIEDGE‘ fördert die Anwendung von Künstlicher Intelligenz auf Edge-Computing-Plattformen – das Fraunhofer IGD ist einer der Projektpartner.

Bild: Trumpf SE + Co. KG

Künstliche Intelligenz macht Fabriken clever

Seit dem Siegeszug des Chatbots ChatGPT ist künstliche Intelligenz in aller Munde. Auch in der industriellen Produktionstechnik kommt KI mit großen Schritten voran. Lernende Maschinen machen die Fertigung effizienter. Wie funktioniert das genau? Das können Interessierte auf der EMO Hannover 2023 vom 18. bis 23. September erfahren. Die Weltleitmesse für Produktionstechnologie wird ihr Fachpublikum unter dem Claim ‚Innovate Manufacturing‘. mit frischen Ideen inspirieren und künstliche Intelligenz spielt dabei ihre Stärken aus.

Bild: Mitsubishi Electric Corporation, Japan

KI-gestütztes Analysetool für moderne Produktionslinien

Das Data-Science-Tool Melsoft MaiLab von Mitsubishi soll Unternehmen bei der Digitalisierung ihrer Fertigung und unterstützen und so deren Produktivität steigern. Die neue Lösung ist eine intuitive, bedienerzentrierte Plattform, die KI nutzt, um Abläufe automatisch zu verbessern. Sei es Abfallvermeidung durch geringere Ausschussmengen, weniger Stillstandszeiten durch vorbeugende Wartung oder Senkung des Energieverbrauchs durch Prozessoptimierung.

Bild: Kuka AG

Technologiepaket für intelligentes Bin-Picking

Die neue Software Kuka.SmartBinPicking bietet eine Kombination aus KI-basierter Erkennung von Objekten sowie Bahnplanung des Roboters.

Bild: TeDo Verlag GmbH

Logistics Day 2023

Am 28. März werden auf der digitalen Konferenz ´TechTalk Day Logistik´ verschiedene Logistiklösungen aus den Bereichen fahrerlose Transportsysteme, digitale Lagersteuerung, Kommissionierlösungen und Bildverarbeitung vorgestellt.

Bild: Leogistics GmbH

Digitalisierung und KI entscheiden über Erfolg der Lagerlogistik

Die Anforderungen in der Lagerlogistik sind in den letzten Jahren beständig gewachsen, vor allem in puncto Flexibilität.

Bewertung der IT-Sicherheit unerlässlich?

Unternehmen müssen jederzeit auf einen Cyber-Angriff vorbereitet sein. Wie gut sie das allerdings in der Realität tatsächlich sind, können die wenigsten von ihnen einschätzen. Eine Antwort darauf liefert die Bestimmung des Reifegrads der IT-Sicherheit.

Bild: MiniTec GmbH & Co. KG

Automatisierte mobile Messstation

Das Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) hat 2021 das Projekt AI-Test-Field gestartet.

Chatbots und ihr Einfluss auf die Cybersicherheit

Der Hype um Chatbots mit künstlicher Intelligenz ist groß. Allerdings bringt die Technologie auch Cyberkriminelle aufs Parkett, die sich die neuen Möglichkeiten zunutze machen. Chester Wisniewski, Cybersecurity-Experte bei Sophos, gibt dazu Statements und Beispiele.

Bild: Fraunhofer IGD

Software Arrange beschleunigt Absortierprozesse

In Kombination mit einer Augmented-Reality-Brille bietet eine neue Software des Fraunhofer IGD digitale Unterstützung von Absortiervorgängen. Zusammengehörige Bauteile werden direkt im Sichtfeld der Beschäftigten an der Produktionslinie farblich überlagert. Anwender im Automotive-Bereich können so etwa durch beschleunigte Prozesse und eine minimierte Fehleranfälligkeit Kosten reduzieren.