Wie ich versucht habe, einen Artikel mit Spracheingabe zu schreiben, und was daraus wurde

Smartphones sind seit langem mehr als nur Telefone. Jeden Tag verwenden wir unser Gadget, um mit Freunden zu chatten, Videos auf YouTube anzusehen, über Telegramm zu kommunizieren und gleichzeitig kann das Telefon für viele heute ein Ersatz für einen vollwertigen Computer werden. Ich scherze nicht, ich bin bereit, anhand meines Beispiels zu zeigen, wie neuronale Netze von Google einen Artikel für mich schreiben können. Bis vor kurzem war ich skeptisch gegenüber der Spracheingabe, die in die gBoard-Tastatur integriert ist, aber ich habe mich entschlossen, es auszuprobieren, und war äußerst überrascht, wie gut die Tastatur meine Sprache erkennen kann. In diesem Artikel werden wir untersuchen, wie es dem Unternehmen gelungen ist, eine so hochwertige Spracherkennung zu erstellen, und wie diese Funktion uns bei unserer Arbeit helfen kann.

Wie ich versucht habe, einen Artikel mit Spracheingabe zu schreiben, und was daraus wurde

Wie ich einen Artikel mit Spracheingabe geschrieben habe

Die ganze Zeit habe ich Artikel mit meinem Laptop oder PC geschrieben. Ich fand es immer einfacher, meine Gedanken mit meiner Stimme auszudrücken als mit meinen Fingern. Dies macht den Prozess des Ausdrucks von Gedanken natürlicher, reibungsloser (guter Fluss) und schneller. Das Tippen mit der Tastatur führte sehr oft zu Situationen, in denen ich meinen Gedankengang verlor. Schon jetzt bin ich bereit, den zweiten Artikel zu veröffentlichen, der von meinem Telefon diktiert wird, und ich muss nicht gleichzeitig einen schnellen blinden Zehn-Finger-Druck haben (ich möchte darauf hinweisen, dass ich gut tippe). Die Fähigkeit, Material mit Stimme zu schreiben, macht mich glücklich darüber, wie weit die Technologie fortgeschritten ist. Wenn ich früher in ein oder zwei Stunden Material schreiben könnte, schaffe ich es jetzt, diese Indikatoren um das Zweifache zu reduzieren, einfach weil der Ausdruck von Gedanken durch Stimme schneller ist als durch Tippen.

Ich habe untersucht, wie die Spracheingabe von gBoard funktioniert, und war ehrlich gesagt überrascht. Zuvor verwendete das Unternehmen ziemlich alte Spracherkennungsmethoden, die auf dem Gaußschen Mischungsmodell basierten. Dieses Modell ist seit 30 Jahren im Einsatz. Dies änderte sich jedoch 2012, als neuronale Netze populär wurden. Natürlich gab es sie schon früher, aber 2012 begann eine neue Entwicklungsstufe. Es wurden tiefe, wiederkehrende und andere neuronale Netze verwendet. Und es ist die letztere Art von neuronalen Netzen, die der Spracherkennungstechnologie zugrunde liegt. Google verwendet derzeit die RNN-T-Architektur (Wiederkehrende Wandler für neuronale Netze ) für die Spracherkennung. Und jetzt können Besitzer von Pixel-Smartphones die gBoard-Spracheingabe ohne Internet verwenden. Dies wurde durch mehrere Optimierungsstufen erreicht, von denen eine die endgültige Komprimierung war, aufgrund derer die Größe des ursprünglichen Modells von 2 Gigabyte auf 80 Megabyte reduziert wurde. Ich schlage vor, dies im Telegramm zu diskutieren.

Herkömmliche Spracherkennungssysteme bestehen aus mehreren Komponenten: einem Modell, das Audio in 10-Millisekunden-Blöcke aufteilt – Phoneme genannt -, einem Aussprachemodell, das Phoneme zu Wörtern zusammenfügt, und einem Sprachmodell, das dem Benutzer vorgefertigte Phrasen bietet. In frühen Systemen arbeiteten diese Komponenten unabhängig voneinander. Um 2014 konzentrierten sich die Forscher darauf, ein allgemeines neuronales Netzwerk zu trainieren, um eine Audiodatei als Eingabe zu speisen und am Ausgang einen fertigen Satz zu erhalten. Diese Sequenz-zu-Sequenz-Methode ermöglichte es, die Erkennung genauer zu machen, funktionierte jedoch erst, nachdem der vollständige Satz eingegeben wurde. In der Zwischenzeit existierte die CTC-Technologie, die es ermöglichte, die Verzögerung bei der Erkennung zu verringern. Zu dieser Zeit war dies ein schwerwiegender Schritt zur Schaffung wiederkehrender neuronaler Netze mit RNN-T-Wandlern. Von diesem Moment an wurde es möglich, im Moment der direkten Spracheingabe genau zu erkennen.

Wie ich versucht habe, einen Artikel mit Spracheingabe zu schreiben, und was daraus wurde

Recurrent Neural Network Transducers

Welche Schlussfolgerungen können daraus gezogen werden? Natürlich können Sie die Spracheingabe bereits zur genauen Erkennung von russischem Text verwenden, und es hat vorher nicht so gut funktioniert. Leider kann das neuronale Netzwerk bisher nicht verstehen, wo Interpunktionssymbole platziert werden sollen, aber die Erkennung selbst ist ziemlich genau, was die Hoffnung weckt, dass uns in Zukunft noch mehr Möglichkeiten geboten werden. Ich schließe nicht aus, dass Google in den nächsten zwei Jahren sein neues neuronales Netzwerk anpassen wird, um im Offline-Modus mit der russischen Sprache zu arbeiten. In der Zwischenzeit werden wir mit dem zufrieden sein, was wir haben.

Teilen Sie Ihre Meinung in den Kommentaren mit Spracheingabe.

Basierend auf Materialien von Google

Rate article
Alles für Android und nicht nur | Tipps, Anweisungen, Root, News und App-Bewertungen.
Add a comment