TDDD02 Språkteknologi för informationssökning
Föreläsningsöversikt och oh-bilder
Oh-bilder
Läggs upp här efter hand
- Föreläsning 1
- Föreläsning 2
- Föreläsning 3
- Föreläsning 4 (En exempeltext)
- Föreläsning 5
- Föreläsning 6
- Föreläsning 7 (reviderad 12/12)
Föreläsning 1: Från informationssökning till språkteknologi
Den här föreläsningen ger en översikt av kursen som helhet och introducerar ett antal grundläggande begrepp och processer i språkteknologi och informationssökning.
- Kursens mål och uppläggning
- Grundläggande begrepp i informationssökning
- Grundläggande begrepp i lingvistisk textbearbetning
- Dokumentrepresentationer som tf*idf-vektorer
- Prestandamått: precision och recall
Litteratur: Våge et al. kapitel 2, 5, 7, 10 t.om. sid. 161. Mote: sid. 1-14
Föreläsning 2: Reguljära uttryck, ändliga automater och stora ordmängder
Den här föreläsningen tar upp fritextsökning och textmanipulation med användning av reguljära uttryck. Här ingår också elementa ur formell språkteori med fokus på reguljära språk.
- Varianter av sökning och textmanipulation
- Reguljära uttryck och substitutioner,
- Tillämpning på igenkänning och extraktion av 'benämnda entiteter'
- Textnormalisering med reguljära substitutioner,
- Att representera lexikon och index reguljärt.
Litteratur: Webbmaterial om reguljära uttryck. Mote: sid 15-22
(Referensboken, Kap 2)
Föreläsning 3: Ordprediktion
Den här föreläsningen behandlar problemet att identifiera ord och fraser utifrån ofullständig eller motstridig information. För detta syfte introduceras två metoder: redigeringsavstånd och ngram-modeller.
- Redigeringsavstånd,
- Statistiska språkmodeller, ssk N-grammodeller,
- Utjämning ("smoothing"),
- Perplexitet som mått på prediktionsförmåga
- Tillämpning på stavningskontroll och informationssökning
Litteratur:Wikipedia om Levenshtein distance, Language models och N-gram models; Mote: sid 23-27.
(Referensboken: Kap 3.11; 4.1-4.7)
Föreläsning 4: Klassificering av ord och dokument
Föreläsningen tar upp några viktiga klassificeringsgrunder för ord i dokument (ordklass, betydelse) och för texter som helheter (ämnesområde, genre). Som huvudmetod för klassificering använder vi Naive Bayes.
- Metoden Naive Bayes,
- Alternativ till Naive Bayes,
- Ordklasstaggning,
- Ordbetydelsebestämning,
- Dokumentklassificering
Litteratur: Wikipedia om naive Bayes. Mote: sid 28-35, Våge et al. 165-170.
(Referensboken: Kap 5.3-5.4, 20.1-20.5)
Föreläsning 5: Informationsutvinning
Informationsutvinning skiljer sig från dokumentsökning genom att det är specifika fakta som söks, och från text mining genom att dessa fakta är uttryckta i texten, eller infererbara från vad som står där. Föreläsningen tar upp en typisk användningssituation och går sedan igenom olika delmoment av ett informationsutvinningssystem.
- Informationsutvinning: definition och exempel,
- Standardarkitektur för ett utvinningssystem,
- Namnigenkänning,
- Taggning och chunkning,
- Relationsbestämning,
- Referenskedjor och referentbestämning
Litteratur: Artikeln av Cunningham.
(Referensboken: Kap 5.3, 13.5, 22.1-22.2; 22.4)
Föreläsning 6: Frågebesvarande system (QA-system)
Den här föreläsningen tar upp frågebesvarande system med fokus på enkla faktafrågor och interaktiva guider.
- Att besvara faktafrågor med hjälp av webben,
- Två arkitekturer (klassificering vs. strängtransformationer)
- Utvärdering av frågebesvarande system,
- Interaktiva assistenter
- Djup Q/A - Systemet Watson
Litteratur: Artikeln av Brill, Douglas och Banko.
(Referensboken: Kap 23.2)
Föreläsning 7: Textsammanfattning.
Ett sammanfattningssystem är ett system vars uppgift är att uttrycka det väsentligaste innehållet i en text med några få meningar. Föreläsningen diskuterar metoder för att bestämma de viktigaste meningarna i en text.
Litteratur: Våge et al. 170-185; Artikeln av Das & Martins, sid 1-4, 11-14, 23-25.
(Referensboken: Kap 23.3-23.4)
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2012-12-12
