@@AR @@07 Spraaksyntheseprogramma's: een eerste kennismaking Gerrit Van den Breede U heeft er misschien al van gehoord: spraaksynthese zonder de gebruikelijke spraaksynthesizer die als aparte module meestal naast de PC opgesteld wordt. De nieuwste ontwikkeling bestaat erin dat de functie van de goede oude spraaksynthesizer overgenomen wordt door een programma. 1. Soorten spraakweergave We onderscheiden twee soorten spraak: -Gedigitaliseerde spraak is spraak die, in om het even welke taal, met behulp van een microfoon ingesproken wordt, door de computer omgezet naar een digitale vorm en nadien op elk ogenblik opnieuw kan worden weergegeven. -Spraaksynthese is kunstmatige spraak die door hard- of software gecre‰erd wordt, waarbij woorden samengesteld worden uit klankfragmenten die in het spraaksysteem opgeslagen zijn. Spraaksynthese is taalgebonden, waardoor woorden in een andere taal dan die van het spraaksysteem, met een zwaar accent uitgesproken worden. PC-spraakweergavesystemen voor visueel gehandicapten zijn steeds op spraaksynthese gebaseerd, nooit op gedigitaliseerde spraak. 2. Historiek -De eerste schermuitleesprogramma's waren tekst-naar- spraakprogramma's die uitsluitend onder DOS werkten. Na de introductie van grafische gebruikersomgevingen, waarvan Windows het bekendste voorbeeld is, verschenen de GUI-toegangsprogramma's voor spraak (Windows, OS/2 en Macintosh) en later de GUI- toegangsprogramma's voor spraak en/of braille. -De eerste spraaksynthesizers waren externe toestellen die serieel aangesloten werden. Nadien verschenen uitvoeringen op PC insteekkaarten en recentelijk ook op PCMCIA kaartjes. Vandaag zien we meer en meer dat spraaksynthesizers ge‹ntegreerd worden in brailleleesregels. De volgende stap is de volledig softwarematige spraaksynthese. Over deze recentste ontwikkeling heeft de Cel Infovisie van Vlicht op 24 juni jongstleden een informatieavond georganiseerd waarop, bij wijze van voorbeeld, het Eurovocs Soft spraaksyntheseprogramma in primeur werd gedemonstreerd. 3. Spraaksynthesizer versus spraaksyntheseprogramma Bij de geboorte van een fonkelnieuwe hulpmiddelengroep hoort een nieuwe productnaam en nieuwe terminologie. Op het niveau van het schermuitleesprogramma verandert er niets: een tekst-naar-spraakprogramma of GUI-toegangsprogramma blijft noodzakelijk. Het systeem dat de synthetische spraak genereert en weergeeft verandert echter grondig. De taak van de spraaksynthesizer (genereren en weergeven van spraak) wordt bij de nieuwe softwarematige systemen deels door een spraaksyntheseprogramma (gegeneren van spraak) en deels door een geluidskaart (weergeven van spraak) overgenomen. We trachten dit te verduidelijken door de belangrijkste oude en nieuwe termen te verklaren. ==================== Verklaring terminologie ==================== -Schermuitleesprogramma: programma dat het beeld van het computerscherm analyseert, er de gegevens uithaalt die de visueel gehandicapte PC-gebruiker wenst te zien, ze converteert naar een voor braille- of spraakweergave vereist formaat en ze tenslotte doorgeeft aan de brailleleesregel, de spraaksynthesizer of aan beide tegelijk; we kennen twee soorten schermuitleesprogramma's onder MS-DOS (het tekst-naar- spraakprogramma en het aanstuurprogramma van een brailleleesregel) en een specifieke soort schermuitleesprogramma's voor grafische gebruikersomgevingen (het GUI-toegangsprogramma). -Tekst-naar-spraakprogramma: programma dat de tekstuele informatie op het beeldscherm van een MS-DOS PC analyseert en naar een spraaksynthesizer doorstuurt. -GUI-toegangsprogramma: programma dat de informatie van een grafisch opgebouwd PC-beeld analyseert en in tekstvorm naar een spraaksynthesizer en/of brailleleesregel doorstuurt. -Spraaksynthesizer: toestel dat de gegevens, die op het beeldscherm van een PC te zien zijn, omzet naar synthetische spraak en deze weergeeft via een luidspreker. -Spraaksyntheseprogramma: programma dat de hoofdtaak van een spraaksynthesizer (namelijk het genereren van synthetische spraak) overneemt en hierdoor de spraaksynthesizer overbodig maakt; deze spraak wordt vervolgens door een geluidskaart hoorbaar gemaakt. -Geluidskaart: uitbreidingskaart die een PC uitgebreide geluidsweergavemogelijkheden geeft en die de door het spraaksyntheseprogramma gegenereerde spraak hoorbaar maakt. In de volgende figuur zetten we de sterke en zwakke kanten van beide systemen naast mekaar. ==================== ==================== Figuur 1 ==================== Pluspunten van de spraaksynthesizer: -stabiel product dat reeds jaren op de markt is -geen multitasking besturingssysteem vereist -beperkt risico op softwareconflicten -------------------- Minpunten van de spraaksynthesizer: -duurder dan softwarematig systeem -standaard PC hardware volstaat -------------------- Pluspunten van het spraaksyntheseprogramma: -minder duur dan hardwarematig systeem -specifieke apparatuur (synthesizer) vereist -------------------- Minpunten van het spraaksyntheseprogramma: -nieuw product met kans op kinderziektes -multitasking besturingssysteem vereist -iets groter risico op softwareconflicten ==================== 4. Beschikbare schermuitleesprogramma's Het onderstaande overzicht toont de schermuitleesprogramma's die ‚‚n of meerdere spraaksynthesizers ondersteunen en de versies van deze programma's die bovendien spraaksyntheseprogramma's ondersteunen. Een streepje geeft aan dat deze versie van dit programma ons niet bekend is. ==================== Figuur 2 ==================== -ondersteuning van spraaksynthesizers: Jaws, Jaws for Windows 1.x -ondersteuning van spraaksyntheseprogramma's: Jaws for Windows 2.x -------------------- -ondersteuning van spraaksynthesizers: Hal Screen Reader 1.x tot 5.x -ondersteuning van spraaksyntheseprogramma's: Hal 95 -------------------- -ondersteuning van spraaksynthesizers: Outspoken for Windows 1.1 -ondersteuning van spraaksyntheseprogramma's: Outspoken for Windows 1.2 -------------------- -ondersteuning van spraaksynthesizers: Vocal-Eyes -ondersteuning van spraaksyntheseprogramma's: Window-Eyes -------------------- -ondersteuning van spraaksynthesizers: Screenpower for Windows 1.x -ondersteuning van spraaksyntheseprogramma's: Screenpower for Windows 2.x -------------------- -ondersteuning van spraaksynthesizers: Virgo 1.x -ondersteuning van spraaksyntheseprogramma's: Virgo 2.x -------------------- -ondersteuning van spraaksynthesizers: Slimware Window Bridge 1.x -ondersteuning van spraaksyntheseprogramma's: Slimware Window Bridge 2.x -------------------- -ondersteuning van spraaksynthesizers: Protalk 1.x -ondersteuning van spraaksyntheseprogramma's: Protalk 32 2.0 -------------------- -geen ondersteuning van spraaksynthesizers -ondersteuning van spraaksyntheseprogramma's: Speak & Win -------------------- -geen ondersteuning van spraaksynthesizers -ondersteuning van spraaksyntheseprogramma's: Visiovox -------------------- -ondersteuning van spraaksynthesizers: ZoomText Xtra! 6.0 -ondersteuning van spraaksyntheseprogramma's: ZoomText Xtra! 6.0 -------------------- -ondersteuning van spraaksynthesizers: IBM Screen Reader -geen ondersteuning van spraaksyntheseprogramma's -------------------- -ondersteuning van spraaksynthesizers: IBM Screen Reader/2 -geen ondersteuning van spraaksyntheseprogramma's ==================== 5. Te verwachten spraaksyntheseprogramma's Volgende Nederlandssprekende spraaksyntheseprogramma's zijn reeds verkrijgbaar of in ontwikkeling: ==================== Figuur 3 ==================== -product: Apollo, Juno, Gemini -producent: Dolphin Systems (Groot-Brittanni‰) -stand van zaken: beschikbaar in de loop van 1998 -------------------- -product: Eurovocs Soft -producent: Technologie en Revalidatie (Belgi‰) -stand van zaken: beschikbaar in september van 1997 -------------------- -product: Keynote Gold Multimedia -producent: PulseData (Nieuw-Zeeland) -stand van zaken: bŠta-versie in omloop -------------------- -product: Multivocs SW -producent: Nikol Electronics (Hongarije) -stand van zaken: productie wordt overwogen ==================== 6. Text Assist en SoundBlaster Text Assist is software die bij SoundBlaster geluidskaarten van de producent Creative Labs geleverd wordt. Deze software maakt het mogelijk om selecteerbare gedeeltes van een Window-scherm te laten uitspreken door de geluidskaart. De kwaliteit van de spraak is te vergelijken met die van de Amerikaanse DECtalk spraaksynthesizer. Nederlands behoort niet tot de mogelijkheden. Tekst uit menu's en foutboodschappen in dialoogvensters kunnen echter niet voorgelezen worden. Toch kan het zijn nut bewijzen als toevoeging bij vergrotingspakketten om gescande of getypte tekst te controleren. Een groeiend aantal GUI-toegangsprogramma's ondersteunen de mogelijkheid om met behulp van de combinatie Text Assist met een geluidskaart spraak weer te geven, als alternatief voor een spraaksynthesizer. 7. Ontwikkelingen bij Microsoft Bij Microsoft werkt men aan een kwalitatief hoogstaand en zichzelf verbeterend tekst-naar spraak systeem. Het project draagt de codenaam Whistler en is nog volop in ontwikkelingsfase. Tevens wordt er nauw samengewerkt met hun Whisper project dat werkt aan spraakherkenning. Deze twee technieken samen worden dan weer ingezet bij het Persona project (ontwikkeling van een gebruikersinterface op basis van een natuurlijke conversatie). Toekomstige programma's gaan zich meer gedragen als een assistent dan als een gereedschap. Het is de Groep Gebruikersinterface van Microsoft die werkt aan dergelijke zaken. Op dit ogenblik is het niet te voorspellen wanneer we gewoon tegen onze computer kunnen praten en dat hij ook met ons via spraak communiceert. In ieder geval een interessante ontwikkeling, zeker als de maker van het meest gebruikte besturingssysteem hiermee bezig is. 8. Eerste indrukken van twee spraaksyntheseprogramma's Wat hieronder volgt zijn slechts impressies van gloednieuwe Nederlandssprekende spraaksyntheseprogramma's die zeker nog verder verfijnd gaan worden. We volgen de ontwikkelingen op de voet en in een toekomstig nummer gaan we er zeker nog dieper op in. 8.1. Eurovocs Soft Met dit product hebben we voor de eerste maal kunnen kennismaken tijdens de informatieavond op 24 juni jongstleden. Eurovocs Soft stuurt rechtstreeks de geluidskaart aan. De bijkomende schakel, Text Assist, wordt niet gebruikt waardoor alle talen die voorzien zijn door de producent (waaronder Nederlands en Frans) zonder meer tot de mogelijkheden behoren. Het Nederlands is van hetzelfde hoge niveau al dat van de hardwarematige Eurovocs en de uitspraak is over het algemeen zeer goed verstaanbaar. Uit de demonstratie bleek dat, om met de combinatie Eurovocs Soft / Windows 95 een werkbare snelheid te behalen, een Pentium PC gewenst is. Tijdens verdere tests stelden we vast dat de Eurovocs Soft af en toe stokt en vrij traag op toetsaanslagen reageert (het duurt even vooraleer de ingetypte tekst ook werkelijk uitgesproken wordt), maar dit verschijnsel zou geheel te wijten zijn aan het schermuitleesprogramma Jaws en dus niet aan de Eurovocs software. Zowel voor de demo tijdens de informatie-avond als voor onze eigen korte test werd een bŠta-versie van Eurovocs Soft gebruikt. Een definitieve versie, waaraan wellicht nog ‚‚n en ander bijgesleuteld wordt, komt pas in september op de markt. Zodra er meerdere soortgelijke producten op de markt zijn, plannen we een uitgebreide vergelijkende test, waarin dit product met verschillende GUI-toegengspaketten aan de tand gevoeld wordt. Voor gedetailleerde productinformatie verwijzen we naar de technische fiche van de Eurovocs Soft in dit nummer. 8.2. Keynote Gold Multimedia Speech Van de producent hebben we een beta-versie gekregen om uit te proberen. Ook deze software stuurt rechtstreeks de geluidskaart aan. Nederlands en Frans zijn alvast aanwezig. Het Nederlands klinkt bevredigend en is verbeterd ten opzichte van eerdere versies. Toch is het nog niet allemaal even verstaanbaar. De Keynote heeft duidelijk problemen met de uitspraak van de letter "r". Het is een nogal Amerikaans klinkende "r". Maar na enige gewenning is het allemaal wel redelijk te verstaan. De stem heeft een aangename melodie en klinkt iets vriendelijker dan de Apollo. De Keynote reageert vlot op toetsaanslagen want direct na een aanslag begint de Keynote met uitspreken. Ook het doorlezen van lange teksten gebeurt zonder haperingen en er wordt even gepauzeerd bij leestekens en punten in zinnen. Opvallend was wel dat ook op een 486 PC nog een werkbare snelheid kon gehaald worden. 9. Besluit Als we uitgaan van een hedendaagse multimedia Pentium PC waarin standaard voldoende RAM geheugen aanwezig is, die voorzien is van een 16-bits geluidskaart en onder Windows 95 werkt dan is een softwarematige spraaksynthesizer zeker het overwegen waard. Onder deze voorwaarden is het goedkoper dan een hardwarematige spraaksynthesizer en bovendien kan een nieuwe versie snel ge‹nstalleerd en dikwijls door de gebruiker zelf uitgevoerd worden. Voor beide spraaksystemen geldt natuurlijk dat een schermuitleesprogramma vereist is. Bij minder krachtige PC-systemen ligt de keuze voor een hardwarematige spraaksynthesizer meer voor de hand.