Maschinelles Lernen, Sprache und Text – Amazon Alexa

Am vergangenen Montag fand in den Räumlichkeiten der Ryte GmbH in München das erste “Ryte Tech Meetup” statt. Die Veranstaltung startete mit einer interessanten Keynote des Vice President and Chief Technical Officers von Amazon.com: Werner Vogels”

In guten 30 Minuten ging er dabei auf die Entwicklung “Voice and Tech” ein, die Amazon als das “nächste große Dinge” beschreibt und nicht nur an Amazon Echo Geräten und der Sprachassistentin Amazon Alexa arbeitet.

Der Umgang mit echter Sprache, Dialekten, die Reaktion auf das Verhalten des Anwenders, das korrekte Auswerten und Vorlesen von digitalen Inhalten über die Sprache (z.B. die phonetisch korrekte Aussprache, Betonung, Pausen etc.) ist für Entwickler eine neue Herausforderung im Vergleich zur reinen Softwareentwicklung der vergangenen Jahrzehnte.

Dafür hat Amazon Teile der Software bereits öffentlich freigegeben, die im Cloud-Angebot bei AWS zur Verfügung stehen. Das Ziel dahinter ist die Auseinandersetzung der Benutzer mit der Software und den Anforderungen sowie der Möglichkeit eigene Tools und Apps zu entwickeln. Natürlich ist das daraus resultierende Feedback zurück an Amazon nicht ganz uneigennützig 😉

Lex, Polly und Rekognition

Lex – https://aws.amazon.com/de/lex/
Die Software ist in verschiedene Pakete geteilt: Mit Hilfe von Amazon Lex können Entwickler Anwendungen erstellen, die Sprachbefehle von Nutzern verstehen können. Damit können bestehende Messenger integriert oder auch Web-Anwendungen gebaut werden, die auf Befehle des Anwenders reagieren.

Polly – https://aws.amazon.com/de/polly/
Amazon mit Polly ist der eigentliche Text-to-Speech-Dienst. Die eingangs erwähnten Eigenheiten der Sprachsynthese werden von diesem Bestandteil bearbeitet. Für die Anbindung an die eigene Software steht die sog. Speech Synthesis Markup Language (SSML) zur Verfügung, womit neue Wörter eingelernt und auch ein Sprachwechel innerhalt eines Textes eingebaut werden kann. Weiterhin stehen verschiedenste männliche und weibliche Stimmen in derzeit 24 Sprachen zur Verfügung.

Rekognition – https://aws.amazon.com/de/rekognition/
Der dritte Teil ist nicht direkt für die Sprachsoftware erforderlich, erweitert diese jedoch um Bilderkennung. Somit können Objekte, Szenen und Gesichter analysiert, eine Unterscheidung von Menschen anhand unterschiedlicher Gesichter, Tiere, Objekte etc. getroffen und auch wiedererkannt werden.

Die Erweiterungen für die Produkte Echo und Echo Dot werden Skills genannt und alle Informationen zur Programmierung etc. finden sich auf der Webseite zum Alexa-Skill-Kit.

Alexa ist nicht allein

Auch andere Anbieter sind beim Thema des maschinellen Lernens und der Umwandlung von Sprache in Text sowie zurück ganz vorne dabei:

– Die Software von Google für die automatische Spracherkennung ist unter dem Namen “Cloud Speech API” erhältlich und unterstützt bereits 110 Sprachen und Varianten: https://cloud.google.com/speech/

– Cortana von Microsoft sowie die Erweiterung Dictate für die Office-Produkte. Das sog. Microsoft Cognitive Toolkit ist die Softwarebasis darunter: https://www.microsoft.com/en-us/cognitive-toolkit/

– Auch Apple hat eine Diktierfunktion und für Siri steht das SiriKit bereit: https://developer.apple.com/sirikit/

Maschinelles Lernen, Sprache und Text – Amazon Alexa

Lex, Polly und Rekognition

Alexa ist nicht allein

Diesen Beitrag teilen

Ähnliche Artikel

1 Kommentare;

Hinterlasse eine Antwort Anfrage abbrechen