TDDD01 Språkteknologi
Föreläsningsöversikt
Alla litteraturhänvisningar är till kursens huvudbok, Jurafsky & Martin (2009), nedan förkortad JM.
Föreläsningarna 2-10 är gemensamma med kursen 729G17.
OH-bilder
Läggs ut här efter hand
OH0: Introduktion (Lingvistiska grunder)
OH1: Kursupplägg, textanalys, ordklasstaggning
OH2: Lexikon som reguljära mängder
OH3: Informationsutvinning
OH4: Syntaktisk analys
OH5: Statistiska språkmodeller
Introföreläsning: Lingvistiska grunder
Den här föreläsning ger en grundläggande introduktion (eller repetition) av lingvistiska begrepp som används i kursen och en kort översikt av förhållandet mellan språkteknologi och datavetenskap.
- Skillnader mellan naturliga språk och programspråk,
- Ordklasser,
- Morfologisk analys,
- Syntaktisk analys,
Litteratur:JM kap 3.1 om morfologi, 5.1 om ordklasser, 12.1-12.3 om syntax.
Föreläsning 2: Introduktion till språkteknologi och textanalys
Föreläsningen ger först en kort introduktion till ämnet språkteknologi, kursens uppläggning och krav. Därefter går vi in på själva ämnet:
- Textanalys och korpusarbete.
- Vanliga typer av lingvistisk bearbetning.
- Automatisk ordklasstaggning (förberedelse för Lab 1)
Litteratur: JM kapitel 1, som ger en introduktion till språkteknologi som forskningsområde, samt 5.2-5.4 om ordklasstaggning.
Föreläsning 3: Lexikon som reguljära mängder.
Reguljära mängder är strängmängder som kan definieras med reguljära uttryck eller ekvivalenta modeller som ändliga automater (FSA). Föreläsningen visar några olika metoder att organisera ett lexikon som en reguljär mängd, t.ex. efter ordens morfologiska strukur.
Föreläsningen tar också upp matchning av felskrivna ord mot ett lexikon med hjälp av redigeringsavstånd.
Litteratur: JM Kap 2.1-2; 3.2-3.5; 3.11
Föreläsning 4: Informationsutvinning med delproblem.
Den här föreläsningen tar upp informationsutvinning som ett generellt problem och de vanligaste komponenterna i sådana system: namnigenkänning, koreferens och anaforisk referens, relationsbestämning, och händelserepresentationer.
Föreläsningen visar också hur man kan märka upp namn och annan relevant information med reguljära definitioner och substitutioner.
Litteratur: JM 21.3-21.8 (21.6 kursivt); 22-22.2
Föreläsning 5: Syntaktisk analys
Parsning innebär att söka en heltäckande representation av den syntaktiska strukturen i en mening. Parsning baseras i regel på någon slags formell grammatik och föreläsningen har kontextfri grammatik som exempel. Eftersom fullständig parsning är svår att utföra på godtycklig text, och tillämpningar som informationsutvinning eller översättning inte kräver det, används ofta partiella varianter. Chunkning är ett exempel som innebär att man begränsar sig till att identifiera relevanta fraser i texten. Chunkning baseras på ordklasstaggning. Transformationsbaserad inlärning (TBL) är en metod som kan tillämpas både på ordklasstaggning och chunkning.
Litteratur: JM Kap. 5.6, 13 utom 13.4.1, 22.4.2
Föreläsning 6: Statistiska språkmodeller
Sannolikhetsmodeller används för att hantera en mängd olika beslutsproblem i språkteknologin. Den här föreläsningen tar främst upp s.k. n-grammodeller, och deras tillämpning på problemet att predicera ord i en lokal kontext. De används också som integrerade delar av t.ex. taligenkänningssystem och översättningssystem enligt modellen "The Noisy Channel".
Litteratur: JM Kap. 4.1-4.7, utom 4.5.2, 4.5.3, 4.7.1
Föreläsning 7: Automatisk översättning
Föreläsningen ger en översikt av de vanligaste modellerna för automatisk översättning (direktöversättning, transfer, statistiska metoder) och deras respektive fördelar och begränsningar. Föreläsningen tar också upp något om generering av översättningsdata ur parallella korpusar.
Litteratur: JM Kap. 25-25.9 utom 25.5.2, 25.6.1
Föreläsning 8: Utvärderingsmetoder
Utvärdering är en viktig aspekt av all språkteknologisk systemutveckling. Föreläsningen tar dels upp vanliga kvantitativa mått (korrekthet, recall, precision) som används för utvärdering av generiska komponenter som taggningssystem, dels olika saker man bör tänka på för att genomföra en utvärdering så korrekt som möjligt. Metoder att utvärdera system där bra kvantitativa mått är svåra att hitta diskuteras också.
Litteratur: JM: sid 130-131; 489-490; 513-514; 25.9
Föreläsning 9: Semantisk analys, särskilt ordbetydelser.
Litteratur: JM Kap 19.1-19.3; 20.1-20.5 utom 20.4.2
Två näraliggande problem som ofta återkommer i språkteknologiska tillämpningar är att identifiera relevanta flerordsenheter och att bestämma vilken av sina möjliga betydelser ett ord har i en specifik kontext (word sense disambiguation). Föreläsningen tar upp olika metoder att lösa dessa problem.
Föreläsningen tar också upp hur semantisk information kan representeras i ett lexikon och semantiska relationer som bas för lexikonorganisation med WordNet som mest kända exempel.
Föreläsning 10: Frågebesvarande system
Den här föreläsningen tar upp frågebesvarande system och delproblemen att bestämma vad för slags svar som efterfrågas och metoder för att lokalisera och bestämma svaret i en given textmängd. Föreläsningen tar också upp systemet Watson.
Litteratur: JM Kap 23.1-23.2.
Föreläsning 11: Textsammanfattning
Föreläsningen tar upp problemet att identifiera det viktigaste i en text och sedan använda denna information för att skapa en läsbar sammanfattning. Fokus ligger på att sammanfatta enstaka dokument.
Litteratur: JM 23.3-4 (ej 23.4.2), 23.6
Tillbaka till Sidans topp.
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2013-01-29
