Skip to content

De staat van Linux-spraakherkenning

9 de augustus de 2021
ManlookingatiMac b1773d37ba1443c5a46facac76868cd6

Spraakherkenning in Linux loopt achter op de Windows- en Mac-platforms omdat zowel Microsoft als Apple veel tijd en kosten hebben geïnvesteerd in het toevoegen van spraakgestuurde of spraakassistentiesoftware aan hun kernbesturingssystemen. Hoewel de situatie voor Linux niet somber is, zoals met veel geavanceerde technologieën, blijft het vrije en open-source universum een ​​stap achter, vooral met spraakopdrachttools.

Linux Spraakherkenning

Geen enkele Linux-distributie is gericht op spraakherkenning. Apps die spraakherkenning ondersteunen, zijn echter afhankelijk van een handvol open-sourcebibliotheken, waaronder Sphinx, Kaldi, Julius en Mozilla Deepspeech.

Deze bibliotheken vertrouwen op een spraakcorpus om variaties van geluiden aan te bieden om de AI te trainen en daarom de spraak correct naar tekst te vertalen. Open-sourceprojecten zijn echter minder geavanceerd (omdat ze kleinere bijdragen hebben om de AI te trainen), wat betekent dat de meeste tekst-naar-spraak-apps voor Linux de conversie vaak verpesten. Meestal verknoeien ze het zo grondig dat het niet duidelijk is wat de oorspronkelijke toespraak had kunnen zijn.

Opties voor Linux Spraak naar Tekst

Gebruik een van de vijf oplossingsroutes.

  • Vertrouw op Linux-apps die beschikbaar zijn in de repository’s van uw distributie, indien aanwezig.
  • Amazon heeft Alexa beschikbaar gemaakt voor Linux, ook voor Raspberry Pi. U zult veel aangepaste aanpassingen moeten uitvoeren om dit arrangement te laten werken, maar het zal werken.
  • Open de Google Speech API in uw browser via DictationIO. Deze service werkt alleen voor dicteren; je kunt het niet gebruiken voor spraakopdrachten. Het wordt mogelijk gemaakt door de AI van Google, dus de kwaliteit is goed.

Google Assistent geeft een transcript weer voor gescreende oproepen.

  • Gebruik een service zoals Alexa of Google Assistant als een hulpprogramma voor spraakopdrachten voor Linux via de Triggercmd-service. Triggercmd draait op uw computer; gebruik het om Alexa of Google Assistant op te roepen en laat die tools specifieke Bash-scripts uitvoeren op basis van je commando. Zeg iets als: “Ok Google, vraag het triggercommando om de rekenmachine te openen.” Google Assistant fungeert als tussenpersoon met Triggercmd om het Bash-script uit te voeren dat wordt gespecificeerd door de zin ‘open de rekenmachine’.
  • Gebruik Wine of een virtuele machine met software voor Windows zoals Dragon NaturallySpeaking. Met de juiste aanpassingen kun je de Dragon-engine gebruiken voor transcriptie, hoewel deze oplossing niet werkt voor spraakopdrachten.