KI übertrifft Mensch bei Spracherkennung
Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben ist eine große Herausforderung in der Forschung an künstlicher Intelligenz (KI). Forschern des Karlsruher Instituts für Technologie (KIT) ist es nun gelungen, mit einem Computersystem die Erkennungsgenauigkeit des Menschen beim Erkennen solcher spontan gesprochener Sprache zu übertreffen.
Bild: ©WrightStudio/stock.adobe.com

„Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Hesitationen wie ‚äh‘ oder ‚hm‘, Lacher und Huster“, sagt Alex Waibel, Professor für Informatik am KIT. „Oft werden Worte zudem noch undeutlich ausgesprochen.“ So sei es schon für Menschen schwierig, einen akkuraten Mitschrieb eines informellen Dialogs anzufertigen. „Einer KI fiel dies bislang noch schwerer“, so der Spracherkennungs-Experte.

Schneller als andere Systeme

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma KITES, einer Ausgründung aus dem KIT, hat nun ein Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme. Waibel hat bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der ‚Lecture Translator‘ ist seit 2012 in den Hörsälen des KIT im Einsatz. „Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei um die 5,5 Prozent. Unser System erreicht nun 5 Prozent.“ Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung reduzierten die Forscher auf eine Sekunde. Das sei der niedrigste Latenz-Wert, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel. Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten ‚Switchboard-Benchmark‘-Test.

Nur akustische Erkennung

Inhalte oder Zusammenhänge verstehen könne ein Erkennungs-System alleine aber noch nicht, so Waibel. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“ Dialog-, Übersetzungs- und weitere KI Module können nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Karlsruher Institut für Technologie
www.uni-karlsruhe.de

Anzeige

Anzeige

Das könnte Sie auch Interessieren

Bild: Fraunhofer IOSB-INA
Bild: Fraunhofer IOSB-INA
Fraunhofer entwickelt Lösungen für Einsatz künstlicher Intelligenz in industrieller Produktion

Fraunhofer entwickelt Lösungen für Einsatz künstlicher Intelligenz in industrieller Produktion

Wie macht die intelligente Nutzung von Daten Fabriken fit für die Zukunft? Im Projekt ‚Datenfabrik.NRW‘ erarbeiten vier Fraunhofer-Institute (Entwurfstechnik Mechatronik IEM, Materialfluss und Logistik IML, Optronik, Systemtechnik und Bildauswertung IOSB und Intelligente Analyse- und Informationssysteme IAIS) konkrete Anwendungen für den vielfältigen Einsatz von künstlicher Intelligenz in der Produktion und setzen diese in realen Produktionsumgebungen bei Claas und Schmitz Cargobull um. Das Land Nordrhein-Westfalen fördert das Zukunftsprojekt mit 9,2Mio.€. Die Kompetenzplattform KI.NRW nimmt die Datenfabrik.NRW als KI-Flagshipprojekt in ihr Netzwerk auf.

Bild: Arrow Central Europe GmbH
Bild: Arrow Central Europe GmbH
Guardian Technologies gewinnt Innovators Award von Arrow Electronics

Guardian Technologies gewinnt Innovators Award von Arrow Electronics

Das KI-Startup Guardian Technologies aus Wangen im Allgäu ist der diesjährige Gewinner des Innovator Awards von Arrow Electronics. An dem Wettbewerb haben mehr als 50 Technologie-Startups aus Deutschland, Österreich und der Schweiz teilgenommen. Zwölf Unternehmen sind in das Finale eingezogen. Das im Jahr 2020 gegründete Unternehmen Guardian Technologies ist ein Hersteller von kompakten, KI- und Kamera-basierten Systemen, die Brände schnell entdecken und löschen können.

Bild: Ametek GmbH - Creaform Deutschland GmbH
Bild: Ametek GmbH - Creaform Deutschland GmbH
Kostenfreies Webinar ‚Robot Vision‘

Kostenfreies Webinar ‚Robot Vision‘

Am Dienstag, den 28. September, findet ab 14 Uhr im Rahmen der inVISION TechTalks das kostenlose Webinar ‚Robot Vision‘ statt. In drei 20-minütigen Präsentationen stellen Wenglor, Vecow und Lucid Vision aktuelle Trends bei Software für die Roboterführung, KI-Plattformen für autonome geführte Robotik und Time-of-Flight-Kameras für Robotik und Automation vor.