From: Christer Ahlström 
Subject: exjobb
To: xjobb@ida.liu.se

Namn:
Christer Ahlström

Titel:
Metod för manipulation av prosodi i naturligt tal

Framläggning: 24 april kl. 10.00 i Herbert Simon (f.d. Elogen), IDA

Sammanfattning:

Detta arbete går ut på att förändra en talsignals prosodiska 
egenskaper. Matematiskt sett betyder det att tiden och frekvensen ska 
kunna skalas oberoende av varandra, ett till synes olösbart problem. 

Tre metoder har undersökts för ändamålet. Den första, PSOLA, är en
klassisk metod. Skalningar utförs genom att stycka upp signalen i
korta bitar och sätta samman dem med ett nytt avstånd sinsemellan. Om
signalen inte behöver skalas mycket är detta en bra metod, både med
avseende på beräkningsintensitet och röstkvalitet. Den andra metoden,
LPC, bygger på källa/filter-teorin. Ett pulståg driver ett
tidsvariabelt filter som definieras av en autoregressiv modell.
Resultaten blir tyvärr aldrig riktigt bra. LPC:s stora styrka ligger
snarare i talkodningssammanhang där metoden erbjuder en kraftigt
komprimerad representation av talet.

Den tredje och sista metoden, sinusmodellering, delar upp signalen i
parametrar för frekvens, fas och amplitud. Rekonstruktionen matar in
dessa parametrar i en cosinusoscillator som återskapar signalen. Stora
skalfaktorer kan hanteras och de stora nackdelarna är tunga
beräkningar och vissa problem med injustering av modellen. Den
sinusmodell jag utgått från har två problem. Dels ger den ifrån sig
klickande ljud och dels förändras formantstrukturen vid
frekvensskalning. Dessa brister har rättats till vilket beskrivs i
rapporten.

Slutligen har alla metoderna implementerats i ett grafiskt gränssnitt
så att vem som helst kan experimentera med talsignalerna utan att
känna till den bakomliggande teorin.


Juha Takkinen, <juhta@ida.liu.se>
Last modified: Tue Apr 16 16:04:44 2002