Nerd-Dictation Tests

vorhergehende Artikel in: Linux Python
22.11.2022

Ich habe vor einiger Zeit schon einmal mit Spracherkennung experimentiert und war damals enttäuscht - vielleicht aber auch deshalb, weil ich nur mäßig motiviert war und mich deshalb bereits früh abschrecken ließ, als nicht alles sofort so funktioniert hat wie ich es wollte. Nun habe ich das Thema nochmals aufgegriffen...

Die von mir ausprobierte Lösung ist https://github.com/ideasman42/nerd-dictation ein auf Vosk basierendes Python-Framework, das man als Anwender zielgerichtet an eigene Bedürfnisse anpassen kann.

Die Lösung selbst kommt zunächst einmal ohne Wörterbücher - man muss sich also zunächst eines herunterladen und an die korrekte Stelle im Dateisystem entpacken. Solche Wörterbücher oder Modelle liegen für viele Sprachen vor - oft auch in unterschiedlichen Versionen - die sich zum Beispiel in der Größe des herunterzuladenden Archivs unterscheiden, jedoch auch im Funktionsumfang - doch dazu später mehr.

Nachdem ich die Lösung auf meinem Rechner und eines der Modelle heruntergeladen und entpackt hatte stand ein erster Test an: Dabei zeigt es sich, dass die Erkennungsrate hervorragend war, jedoch der Rechner ständig einfror und dann bis zu über eine halbe Minute nicht benutzbar war, während die Lösung an der Erkennung arbeitete (zumindest dachte ich, dass es das war, was das Einfrieren verursachte).

Nachdem ich im Netz dazu recherchiert hatte, fand ich eine Lösung, die den Einsatz einer Alternative zu xdotool vorschlug. Die Installation dieser Alternative (ydotool) ist mit ein wenig Handarbeit verbunden - unter anderem muss man Benutzer, die die Lösung einsetzen möchten, zu einer bestimmten Gruppe hinzufügen und noch eine udev-Regel im System anlegen. Danach konnte ich einen weiteren Test starten und stellte fest, dass der Rechner sich angenehm schnell anfühlte und das Einfrieren konnte ich gar nicht mehr beobachten. Nach einigen Tests stellte ich aber fest, dass Umlaute im erkannten Text fehlten.

Ich wollte jetzt herausbekommen, ob das am Einsatz von ydotool lag und schwenkte zeitweise zurück zu xdotool. Meine Überraschung war riesig, da das Einfrieren jetzt auch mit xdotool der Vergangenheit angehörte! Des Weiteren wurde klar, dass das Fehlen der Umlate wirklich an ydotool lag: mit xdotool und ohne weitere Änderungen am System funtionierten diese nämlich!

Während der Tests war mir auch aufgefallen, dass jedes erkannte Wort kleingeschrieben wurde - das wäre natürlich eine Behinderung gewesen, die in der deutschen Sprache den sinnvoillen und effektiven Einsatz der Lösung infrage gestellt hätte. Nach einigen weiteren Tests stellte es sich heraus, dass das daran lag, dass ich zu einem sehr kleinen Modell zurückgekehrt war, als ich noch nach den Ursachen für das ständige Einfrieren suchte: Ich nahm an, dass der Rechner einfach zu schwachbrüstig für große Modelle wäre. Mit einem großen Sprachmodell wurde auch die Groß- und Kleinschreibung vollommen korrekt erkannt und angewendet.

Jetzt blieben nur noch zwei Dinge, die einem Einsatz der Lösung im großen Stil entgegenstanden: Die Tatsache, dass in einem Diktat naturgemäß keine Zeilenumbrüche vorkommen und die Tatsache, dass das System keine Satzenden erkannte und demgemäß keine Punkte zwischen Sätze setzte.

Das System bietet zwar die Möglichkeit an, längere Pausen im Diktat zu erkennen und an diesen Stellen Satzendezeichen (Punkte) zu setzen. Allerdings habe ich erstens dieses Feature nicht (zuverlässig) zum Funktionieren gebracht und zweitens ist das Setzen von nur Punkten nicht wirklich befriedigend, nicht wahr?

Aber das System bietet die Möglichkeit, an die jeweiligen Anforderungen individueller Nutzer angepasst zu werden - unter anderem kann man über eine Konfigurationsdatei angeben, dass erkannte Worte oder Wortgruppen gegen anderen Text ausgetauscht werden sollen.

So sieht meine Datei ~/.config/nerd-dictation/nerd-dictation.py jetzt wie folgt aus:

# A list of substitutions to make within the dictated text
substitutions = [
                ('setze Punkt', '. '),
                ('Sätze Punkt', '. '),
                ('setze Komma', ', '),
                ('Sätze Komma', ', '),
                ('beginne neue Zeile', '\r'),
                ('beginnen neue Zeile', '\r'),
                ('setze minus', '- '),
                ('Sätze minus', '- '),
                ('back slash', '\\'),
                ('forward slash', '/'),
                ('setze Fragezeichen', '? '),
                ('Sätze Fragezeichen', '? '),
                ('setze Ausrufezeichen', '! '),
                ('Sätze Ausrufezeichen', '! '),
                ('setze Kaufmann', '& '),
                ('Sätze Kaufmann', '& '),
                ('setze Stern', '* '),
                ('Sätze Stern', '* ')
]

def nerd_dictation_process(text): # Substitute in alternate text for any entries within substitutions list for substitution in substitutions: text = text.replace(' ' + substitution[0], substitution[1]) text = text.replace(substitution[0], substitution[1])

# Fix any new lines with a trailing space text = text.replace('\r ', '\r')

return text

Solche Ersetzungen sollte man auf jeden Fall gut testen: Bei mir stellte sich - wie auch zu erkennen - heraus, dass ich Befehle wie "setze Komma" offenbar nicht sehr sauber spreche, weswegen das System hier oft "Sätze Komma" erkannt hat. Solche Fehler gilt es in den Mappings zu berücksichtigen. Man kann erkennen, dass ich auf diese Weise auch das Problem fehlender Zeilenumbrüche lösen konnte.

So kann man das System noch um weitere Spezialkommandos ergänzen - es sollte etwa möglich sein, entsprechende Kommandos für Markdown-Syntaxkonstrukte hinzuzufügen, die es erlauben, komplette Markdown-Dokumente zu verfassen, ohne die Tastatur berühren zu müssen.

Aktuell existieren verschiedene Bestrebungen, das System dazu zu befähigen, auch Tastenkürzel oder Hotkeys auszulösen oder ganz allgemein eine Sprachsteuerung für das Smart-Homa zu bauen. Ich werde das weiter beobachten und gegebenenfalls hier davon berichten.

Alle Artikel rss Wochenübersicht Monatsübersicht Github Repositories Gitlab Repositories Mastodon Über mich home xmpp


Vor 5 Jahren hier im Blog

  • Certstream, InfluxDB, Grafana und Netflix

    16.04.2019

    Nachdem ich vor kurzem über mein erstes Spielen mit dem certstream berichtete, habe ich weitere Experimente gemacht und die Daten zur besseren Auswertung in eine InfluxDB gepackt, um sie mit Grafana untersuchen zu können.

    Weiterlesen...

Neueste Artikel

  • Die sQLshell ist nun cloudnative!

    Die sQLshell hat eine weitere Integration erfahren - obwohl ich eigentlich selber nicht viel dazu tun musste: Es existiert ein Projekt/Produkt namens steampipe, dessen Slogan ist select * from cloud; - Im Prinzip eine Wrapperschicht um diverse (laut Eigenwerbung mehr als 140) (cloud) data sources.

    Weiterlesen...
  • LinkCollections 2024 III

    Nach der letzten losen Zusammenstellung (für mich) interessanter Links aus den Tiefen des Internet von 2024 folgt hier gleich die nächste:

    Weiterlesen...
  • Funktionen mit mehreren Rückgabewerten in Java

    Da ich seit nunmehr einem Jahr bei meinem neeun Arbeitgeber beschäftigt und damit seit ungefähr derselben Zeit für Geld mit Python arbeite, haben sich gewisse Antipathien gegenüber Python vertieft (ich kann mit typlosen Sprachen einfach nicht umgehen) - aber auch einige meiner Gründe, Python zu lieben sind ebenso stärker geworden. Einer davon ist der Fakt, dass eine Methode in Python mehr als einen Wert zurückgeben kann.

    Weiterlesen...

Manche nennen es Blog, manche Web-Seite - ich schreibe hier hin und wieder über meine Erlebnisse, Rückschläge und Erleuchtungen bei meinen Hobbies.

Wer daran teilhaben und eventuell sogar davon profitieren möchte, muß damit leben, daß ich hin und wieder kleine Ausflüge in Bereiche mache, die nichts mit IT, Administration oder Softwareentwicklung zu tun haben.

Ich wünsche allen Lesern viel Spaß und hin und wieder einen kleinen AHA!-Effekt...

PS: Meine öffentlichen GitHub-Repositories findet man hier - meine öffentlichen GitLab-Repositories finden sich dagegen hier.