Spraakherkenning: Een intelligentie-injectie voor mijn PC ?
Jeroen Baldewijns

Onze oren tuiten ervan: spraakherkenning op muurvullende affiches bij iedere straathoek, spraakherkenning heet van de naald in het TV-journaal, spraakherkenning als verplicht gespreksonderwerp in de tram, spraakherkenning op de voorpagina van elk zichzelf respecterend computertijdschrift,... Kortom, als we de media en de PC-industrie mogen geloven, zitten we binnenkort massaal tegen onze PC te kletsen.
Alle gekheid op een stokje; in dit artikel willen we wat afstand nemen van de massale opwinding rond het spraakherkenningsfenomeen en nagaan in welke mate deze technologie enig nut kan opleveren voor de slecht- of niet- ziende computeraar.

1. Definitie
Waar gaat het eigenlijk over ? Met behulp van een spraakherkenningsprogramma kan een PC-gebruiker spreken tegen zijn computer via een microfoon die op de geluidskaart aangesloten is. Het spraakherkenningsprogramma zal de ingesproken woorden van de geluidskaart ontvangen, ze analyseren en omzetten naar tekst die bijvoorbeeld in een tekstverwerkingsbestand terecht komt of als opdracht aan het besturingssysteem of het actieve toepassingsprogramma ter uitvoering wordt doorgegeven (bijvoorbeeld "start Microsoft Word" of "bewaar document"). Op die manier kan je de PC tot op zekere hoogte zonder toetsenbord of muis bedienen. Een spraakherkenningsprogramma is met andere woorden een alternatief invoerorgaan voor een PC.

2. Evolutie
"Spraakherkenning is niet nieuw", hoor ik u al opwerpen. En dat klopt nog ook: een product als Dragon Dictate is immers al jaren op de markt. Waarom dan nu pas de grote doorbraak ? Omdat de spraakherkenningsproducten nu pas volwassen zijn geworden. Met een programma als Dragon Dictate moest je woord per woord tegen de PC praten. Dit kenmerk maakte deze producten wel geschikt om de PC via gesproken opdrachten (zoals druk document af, open document, start spellingscontrole,...) te bedienen, maar veel minder geschikt om er in je tekstverwerker heuse brieven mee te dicteren. De nieuwste generatie spraakherkenningsprogramma's biedt de mogelijkheid om continu tegen de computer te praten en om dit bovendien in het Nederlands te doen. Dankzij de huidige processorsnelheden zorgt de PC ervoor dat hij jouw spreektempo kan volgen. Uiteraard is een dergelijk systeem veel beter geschikt voor het dicteren van lange tekstdocumenten in de tekstverwerker.

3. De producten
In het huidige aanbod concurreren vier producten om het grootste marktaandeel: Voice Xpress van Lernout & Hauspie, FreeSpeech van Philips, Naturally Speaking van Dragon Systems en ViaVoice van IBM. Van de drie eerstgenoemden is er sinds kort een Nederlandse versie verkrijgbaar. Van IBM's ViaVoice is ons niet bekend of er aan een Nederlandse versie gewerkt wordt. De volgende tabel geeft een overzicht van de belangrijkste kenmerken van de pakketten die er geen bezwaar tegen hebben in het Nederlands aangesproken te worden.

==========
Productoverzicht
==========
-Product: Voice Xpress Professional 2.03
-Prijzen: 6.980 BEF / 425 NLG / 173 euro / Van Voice Xpress bestaan ook een "Standard" en een "Advanced"-versie. Bij de eerste kan enkel via de meegeleverde XpressPad teksteditor tekst gedicteerd worden. Bij de tweede kan ook binnen Word gedicteerd worden, maar niet in de andere Office-toepassingen (zoals bij de hier besproken Professional-versie).
-Functionele kenmerken
-Gebruikersmodi: Opdrachten geven, tekst dicteren, tekst spellen, opdrachten en tekst ingeven door elkaar
-Onderscheid tussen Vlaams en Nederlands: Ja (tijdens installatie)
-Meerdere talen tegelijk bruikbaar: Nee
-Eigen jargon toevoegen aan aanwezige woordenschat: Ja (Lexicon-functie)
-Meegeleverde hardware: Hoofdtelefoon met microfoon
-Systeemeisen
-Besturingssysteem: Windows 95/98/NT
-Min. (aanbevolen) processor: Pentium II
-Min. (aanbevolen) werkgeheugen: 64 Mb (128 Mb)
-Harde schijfruimte: 250 Mb
----------
-Product: FreeSpeech 2000
-Prijzen: 4.520 BEF / 269 NLG / 112 euro / Dit is de prijs van de standaardversie. Voor de versie met SpeechMike betaal je ongeveer 2.000 BEF / 100 NLG / 50 euro extra.
-Functionele kenmerken
-Gebruikersmodi: Opdrachten geven, tekst dicteren, tekst spellen, ingesproken tekst opnieuw beluisteren
-Onderscheid tussen Vlaams en Nederlands: Ja (aparte versies) -Meerdere talen tegelijk bruikbaar: Ja (13 talen)
-Eigen jargon toevoegen aan aanwezige woordenschat: Ja (ConText-functie)
-Meegeleverde hardware: Hoofdtelefoon met microfoon of SpeechMike / De SpeechMike is een volgbol (trackball) met een ingebouwd microfoontje en luidsprekertje.
-Systeemeisen
-Besturingssysteem: Windows 95/98/NT
-Min. (aanbevolen) processor: 166 MHz Pentium (Pentium II)
-Min. (aanbevolen) werkgeheugen: 48 Mb (96 Mb)
-Harde schijfruimte: 150 Mb
----------
-Product: Naturally Speaking 3.60
-Prijzen: 5.000 BEF / 249 NLG / 124 euro / Dit is de prijs van de standaardversie. Dit pakket is ook verkrijgbaar in de "Point&Speak" basisversie met minder mogelijkheden, de "Preferred"-versie met wat extra mogelijkheden en de "Mobile"-versie die een dictafoonfunctie biedt. De laatste twee versies zijn nog niet in het Nederlands verkrijgbaar.
-Functionele kenmerken
-Gebruikersmodi: Opdrachten geven, tekst dicteren, opdrachten en tekst ingeven door elkaar, ingesproken tekst opnieuw beluisteren
-Onderscheid tussen Vlaams en Nederlands: Nee (slechts één versie)
-Meerdere talen tegelijk bruikbaar: Nee
-Eigen jargon toevoegen aan aanwezige woordenschat: Ja (Lexicon-functie)
-Meegeleverde hardware: Hoofdtelefoon met microfoon
-Systeemeisen
-Besturingssysteem: Windows 95/98/NT
-Min. (aanbevolen) processor: 166 MHz Pentium (200 MHz Pentium)
-Min. (aanbevolen) werkgeheugen: 48 Mb (64 Mb)
-Harde schijfruimte: 200 Mb + 50 Mb per gebruiker
==========

Een eerste belangrijke vaststelling: als gebruiker moet je de nodige tijd vrijmaken om de spraakherkenning te trainen. Hou je deze stelregel in acht, dan mag je van elk van deze producten aanvaardbare resultaten verwachten.
De systeemeisen in de tabel zijn diegene die de fabrikanten opgeven. Hoewel de producten hier voldoening mee nemen, blijkt uit praktijktesten dat je best kan beschikken over een Pentium II processor en 128 Mb werkgeheugen om enigszins comfortabel te kunnen werken. Bovendien moet je beschikken over een geluidskaart met een behoorlijke kwaliteit.
Een belangrijk kenmerk van deze drie pakketten is dat je enerzijds opdrachten kan inspreken die Windows of een toepassingsprogramma moet uitvoeren en anderzijds continu tekst kan inspreken die in een tekstverwerkings- (of ander) document wordt opgenomen. Bij Voice Xpress en bij Naturally Speaking kan je beide door mekaar doen; bij de FreeSpeech moet je hiervoor van modus wisselen. Andere gezamenlijke kenmerken zijn dat je als gebruiker de woordenschat die de pakketten kennen, kan aanvullen met je eigen jargon en dat de diverse programma's ook in staat zijn om stemmen van meerdere gebruikers aan te leren.
Voor het overige biedt elk pakket zo zijn extraatjes:
*Naturally Speaking biedt de mogelijkheid om de muisaanwijzer via spraakcommando's te besturen (handig voor personen met een motorische handicap). Verder kan je aangeven of Naturally Speaking de spelling van het Groene Boekje of die van van Dale moet aanhouden.
*Voice Xpress biedt bijvoorbeeld een dictafoonfunctie die het mogelijk maakt om een dictafoon of een Sony MiniDisc-speler tegen de computer te laten spreken in plaats van een mens. Verder is er de "Natural Language Technology", die je de mogelijkheid biedt om eigen namen te geven aan diverse besturingsopdrachten.
*FreeSpeech is van opvallend veel toeters en bellen voorzien. Dit product neemt bijvoorbeeld een straatlengte voorsprong op de concurrentie door in de dicteermodus liefst 13 talen te begrijpen ! De opdrachtverkenner is een erg nuttig hulpmiddel bij het geven van besturingsopdrachten. Verder biedt FreeSpeech de mogelijkheid om eerder ingesproken tekst ter controle te laten voorlezen. De meegeleverde "Software Developers Kit" tenslotte, biedt programmeurs de mogelijkheid om de FreeSpeech spraakherkenningsfuncties in hun toepassingen te integreren.

4. Spraakherkenning en de visueel gehandicapte PC-gebruiker
Spraakherkenning is volwassen aan het worden, dat is wel zeker. Als Microsoft zijn schouders onder deze technologie gaat zetten (en daar lijkt het wel op), kan je er zeker van zijn dat deze programma's meer en meer gebruikers zullen krijgen. Het lijkt echter zeer onwaarschijnlijk dat dit soort producten ook de kantooromgeving, waar een simpel telefoongesprek soms zelfs als storend ervaren wordt, zal veroveren.
Wie behoort dan wel tot het beoogde publiek ? Beroepsgroepen die traditioneel veel dicteren (artsen, advocaten,...), mensen die last hebben van RSI (verzamelnaam voor klachten die voorkomen bij mensen die te veel en op een niet-ergonomische manier met de computer werken), mensen die omwille van een motorische beperking hun muis en toetsenbord niet kunnen bedienen.
Als slecht- of niet-ziende PC-gebruiker hoor je hier niet direct bij en is het dus verstandig je te bezinnen over twee vraagstukken: enerzijds de bruikbaarheid en anderzijds het nut van een dergelijk product.

4.1. Bruikbaarheid
De hamvraag is natuurlijk of deze spraakherkenningsproducten goed samenwerken met de hulpmiddelen die blinden en slechtzienden gebruiken. Zelf hebben we nog niet de kans gehad om dergelijke configuraties in de praktijk uit te testen, maar na een eerste kennismaking kunnen we ons toch al een beeld vormen van waar het zoal mis zou kunnen lopen:
*Het begint al bij de initiële training van het pakket. Voor het uitvoeren van dit proces (dat essentieel is voor de goede werking van de spraakherkenning) moet je meestal een tekst aflezen van het beeldscherm en gelijktijdig op dit scherm kijken of het spraakherkenningsprogramma kan volgen. Het hulpmiddel zal dus een goede terugkoppeling moeten geven van wat er op het scherm staat. Dit gebeurt liefst niet met spraak ! Als de spraaksynthesizer en de gebruiker door elkaar beginnen te praten, dan kunnen we ons immers best inbeelden dat het spraakherkenningsprogramma er het noorden bij kwijtraakt.
*Na het inspreken van een stuk tekst (in de tekstverwerker bijvoorbeeld) zal je de juistheid van het resultaat moeten controleren. Hiervoor wordt meestal een apart venster geopend (vergelijkbaar met het spellingscorrectievenster van de tekstverwerker) waarin je correcties aan foutief gespelde woorden moet aanbrengen. Dit doe je via het toetsenbord of door het woord te spellen. Ook hier zal een goede feedback nodig zijn en dit zowel van wat er in het documentvenster te zien is als van wat er zich in het spellingsvenstertje afspeelt. Nu zou je kunnen denken: "Ik verbeter mijn tekst toch gewoon zelf, zonder gebruik te maken van de spellingsfunctie van het spraakherkenningsprogramma" ? Wat je echter over het hoofd ziet is dat het herkenningsproces intelligenter wordt naarmate je zijn spellingsfunctie gebruikt.

Op het vlak van vergrotingsprogramma's verwachten we niet direct grote problemen, maar of alles ook vlekkeloos zal werken in combinatie met een GUI-toegangsprogramma (zeker als je spraakweergave gebruikt), daar durven we onze hand niet voor in het vuur te steken. Een kleine rondvraag bij hulpmiddelenproducenten en -leveranciers maakte ons ook al niet veel wijzer. Blijkbaar hebben de meeste onder hen andere prioriteiten dan het voeren van onderzoek naar de compatibiliteit van hun producten met spraakherkenningsprogramma's. We zullen het dus zelf moeten doen. Voor de volgende jaargang plannen we tests van één of twee spraakherkenningspakketten in combinatie met de gangbare vergrotings- en GUI-toegangsprogramma's.

4.2. Nut
Aan het nut van een spraakherkenningsprogramma voor visueel gehandicapten zijn enige voorwaarden verbonden:
*Een test moet uitwijzen of er een hoge mate van compatibiliteit is met de gebruikte hulpmiddelenconfiguratie.
*Je moet Windows en zijn toepassingen zeer grondig kennen.
*Je moet echt gemotiveerd zijn om op dergelijke alternatieve manier met de computer te willen werken. Anders kan het spraakherkenningsprogramma wel eens vlug op een kast onder het stof eindigen.

5. Conclusie
Tot slot kunnen we stellen dat een spraakherkenningspakket voor een niet- of slechtziende eigenlijk niets meer biedt dan voor een ziende. De doorsnee visueel gehandicapte is immers even vlot in het werken met een toetsenbord als een ziende. Tot testwerk het tegendeel bewijst, beschouwen we dit soort producten dan ook niet als extra hulpmiddel.
Hulpmiddelenproducenten voor mensen met een motorische handicap (die moeite hebben met het hanteren van muis en toetsenbord) hebben wel al de nodige ervaring opgedaan en zijn tot de conclusie gekomen dat deze technologie voor hun doelgroep wel degelijk als hulpmiddel kan aangewend worden.
Voor de volgende jaargang plannen we testwerk naar de bruikbaarheid van deze producten voor visueel gehandicapten en kunnen we hopelijk ook voor onze doelgroep een positieve uitspraak doen.

Met dank aan Rob van Geel en Marrit Prins van de firma Kompagne, die ons demo's en nuttige achtergrondinformatie voor dit artikel verschaften.
In Nederland worden spraakherkenningsproducten door hulpmiddelenleverancier Kompagne (zie adres-senlijst) aangeboden, terwijl je in Vlaanderen voor een dergelijk pakket bij een gewone PC-winkel moet aankloppen.

Naar inhoudsopgave