@@10BEA009.TXT -p09- uittreksel uit IM - jaargang 1, numer 4 - Februari '87 SPRAAKTECHNOLOGIE: Sprekende en luisterende computers ----------------------------------------------------- 1. INLEIDING. Het staat als een paal boven water dat spraak een zeer belangrijk communicatiemiddel is. Reeds eeuwenlang is de mens in de weer om de werking ervan te onderzoeken. Het valt op dat spraak bestudeerd wordt door onderzoekers uit diverse disciplines: taalkundigen, physiologen, medici, logopedisten en ingenieurs. Al deze mensen hebben dan ook zeer verschillende bedoelingen. Als we spreken over de behandeling en de opwekking van spraaksignalen d.m.v. (hoog)technologische hulpmiddelen dan kan men inderdaad spreken van SPRAAKTECHNOLOGIE. In dit artikel wordt getracht u een beter inzicht te geven in deze nog jonge technologie, die trouwens zeer snel evolueert. Zo snel zelfs dat wat we vandaag als het neusje van de zalm beschouwen, volgende maand reeds achterhaald kan zijn. 2. WAT IS SPRAAK? Om de verschillende facetten van computerspraakgeneratie en spraakherkenning te begrijpen moeten we even technisch worden. In de productie van spraak kan men grosso modo twee belangrijke elementen onderscheiden: a. het voortbrengen van de trillingen (stembanden); b. het filteren of vervormen van deze trillingen om verschillende klank te bekomen (stemkolom). a. Productie van trillingen. Spraakklanken worden door de stembanden voortgebracht. Zij zijn bij benadering ofwel: -stemhebbend: De klank ontstaat door het trillen van de stembanden wegens de erdoor stromende lucht. De golfvorm is zo goed als periodisch. Het aantal trillingen per seconde (d.i. de toonhoogte of 'pitch') bepaalt de hoogte van de stem en zorgt eveneens voor intonatie en accentuatie. De toonhoogte wordt gemeten in Herz: 1 Hz is ‚‚n trilling per seconde. -stemloos: De klank ontstaat door de woelige luchttrillingen die het gevolg zijn van het persen van lucht doorheen een vernauwing. Hier is de golfvorm helemaal niet periodisch, maar lijkt goed op ruis. In feite is het 'gekleurde' ruis , ook wel rose ruis genoemd, een ruissoort met constante ruisenergie per octaaf. Deze twee klanken vertonen een quasi vlak frequentiespectrum, d.w.z. dat we nog geen letters kunnen onderscheiden. b. Filtering. Dit spectrum wordt nu gewijzigd door de eigenschappen van de stemkolom (en in mindere mate door de neusholte), zodat het niet meer vlak is, maar formanten gaat vertonen. Deze bepalen de klankkleur en maken dat een klank als een bepaald foneem (/e/,/oe/,/n/,/l/) overkomt. 3.VERSCHILLENDE VORMEN VAN COMPUTER-SPRAAKPRODUCTIE. Nu we weten waaruit klanken en woorden bestaan kunnen we de stap zetten naar de kunstmatige spraaksynthese. Basiselement is hier een electrische schakeling die de hoger beschreven stemproductie nadoet. Een electronische toongenerator, een ruisgenerator en een instelbaar electronische filter vormen samen de VOCODER. a. Weergave van de ingesproken tekst (spraakcompressie). Hierbij moeten de woorden die later door de computer uitgesproken moeten worden, eerst ingesproken worden in een apart computersysteem. Dit bepaalt dan de filterkarakteristieken die nodig zijn in het VOCODER systeem. Omdat alleen filterparameters moeten opgeslagen worden kunnen in een betrekkelijk klein geheugen (64K) ongeveer 400 woorden gestockeerd worden. Een voordeel van deze techniek is de natuurlijk klinkende stem waardoor het werken minder vermoeiend en aangenamer wordt. b. Spraaksynthese uit fonetisch schrift. Hierbij produceert men spraaksignalen uitgaande van fonetisch neergeschreven woorden. De computer bepaalt zelf de filterparameters die nodig zijn om de VOCODER (zie hoger) aan te sturen. De woorden zijn opgeslagen in een electronisch geheugen (geheugen- chips). Men kan met deze techniek 8000 woorden opslaan in een geheugen van 64K bytes (bv. de Commodore 64 home-computer). We moeten toegeven dat de bekomen woorden nu uitgesproken lijken door een min of meer mechanische standaardspreker en dat ook de klemtonen en de intonatie niet altijd perfect zullen zijn. Anderzijds krijgt de gebruiker de mogelijkheid zelf nieuwe woorden in te voeren als hij ze maar fonetisch neerschrijft. c. Synthese uit normale tekst. Bij deze synthese "uit regels" ontbindt men de woorden in overlappende difonen. Voor elke difoon beschikt het programma over een standaardsequentie van spraakparameters, in een bibliotheek in het geheugen opgeslagen. Bij de synthese van een woord of een zin, zoekt het programma de verschillende difoonsequenties op en verbindt deze op een aangepaste wijze. Enkele bijkomende tekens in de tekst kunnen gebruikt worden om de klemtonen en de zgn. melodie van de zin vast te leggen en bij de synthese terug te genereren. Om de bekomen spraak zo natuurlijk mogelijk te laten klinken moet speciale aandacht besteed worden aan de duur der klinkers. Merk op dat dit een taalgebonden manier van werken is. Vreemde (in een andere taal) woorden zullen met een zwaar accent uitgesproken worden. Als nadeel kunnen we aanstippen dat er nog geen echte "tekst naar spraak" mogelijk is. Deze 'Text to Speech' systemen met een redelijke verstaanbaarheid beginnen immers pas nu langzamerhand op de markt te komen. 4. SPRAAKHERKENNING. Indien een computer gesproken tekst dient te herkennen kan dit om 2 redenen: a. Het herkennen van de identiteit van de spreker. Een toepassing van een sprekerafhankelijke spraakherkenning is de telefoonbeantwoorder (m.b.v. een personal computer), die iemand herkent aan zijn stem en zo bepaalt of er een boodschap is voor hem/haar. b. Het herkennen van de inhoud van een boodschap los van de spreker. Sommige computers verstaan reeds nu een aantal gesproken bevelen. Voor continue tekst staat nu reeds vast dat de herkenning pas zal kunnen gebeuren door beroep te doen op linguistische voorkennis. Deze systemen zijn nog in een laboratoriumfase. 5. TOEPASSINGEN. a. Spraaksynthese via spraakcompressie. Als populaire toepassing van spraaksynthese kunnen we het 'Speak and Spell' toestel van de firma Texas Instruments vermelden. Dit draagbaar toestelletje laat toe op een interactieve manier woorden te leren. Er zijn verschillende taalmodules (geheugenchips met woorden in een bepaalde taal) te verkrijgen. Onder deze vorm van spraakgeneratie vallen ook de sprekende rekenmachines, uurwerken en weegschalen, allen met een vaste en beperkte woordenschat. b. Spraaksynthese uit gewone en fonetische tekst. Hiervoor bestaan een aantal toestellen (Votex, DEC Talk, Vox Box, Vox Card, The Cricket) die de hen aangeboden tekst in spraak omzetten. De normale handelsversies kunnen doorlopende tekst meestal maar redelijk uitspreken indien hier en daar in de tekst nog wat codes toegevoegd worden. In feite worden deze spreekcodes dus gevoed met een kruising tussen fonetische en gewone tekst. De resultaten zijn echter heel behoorlijk. Er zijn al verschillende computerprogramma's die de tekst die op het scherm van de computer verschijnt, uitspreken. In feite produceren zij meestal de mengtekst die naar de spreekdoos gestuurd moet worden. Bestaande programma's kunnen zo hoorbaar gemaakt worden i.p.v. te werken met een brailleregel. De meeste van deze programma's werken in het Amerikaans. Nederlandse tekst zal niet of met een zwaar accent uitgesproken worden. Er bestaan sprekende programma's (tekstverwerker, databank,...) die speciaal ontwikkeld zijn voor en/of door visueel gehandicapte mensen. Deze programma's hebben het voordeel dat ze eenvoudiger en logischer te bedienen zijn voor visueel gehandicapte mensen. c. Spraakherkenning. Zoals reeds vermeld kunnen sommige computers een beperkte woordenschat verstaan. Enkele hiervan zijn in de technische fiches opgenomen (Votan Voice System/Terminal). d. combinaties. De combinatie van spraakcompressie en spraakherkenning geeft een zeer mooi resultaat. De computer herkent uw stem, verstaat uw taal en antwoordt in uw taal. Een mogelijke toepassing is een stemgestuurd, stockbeheerprogramma (Votan Voice System/Terminal). 6. BESLUIT. De spraaktechnologie opent grote perspectieven voor de visueel gehandicapte mens. Als bewijs hiervan mogen wij u verwijzen naar de hele reeks technische fiches in dit nummer In de toekomst mogen we nog veel verbeteringen en/of verfijningen verwachten. Vele toestellen spreken verschillende talen, behalve Nederlands. Geleidelijk aan zal hier verandering in komen en zullen we een kunstmatige stem niet of moeilijk kunnen onderscheiden van de menselijke stem ! Gerrit Van den Breede Technisch medewerker BIBLIOGRAFIE: 1. Vanwormhoudt en Martens: "Technologie Transfert Express Benelux" maandblad, nummer 20, december 1984 2. Hit Industries: "Voice systems" documentatie 3. Electronica Vandemecum