Göm menyn

TDDD02 Språkteknologi för informationssökning

Föreläsningsöversikt och oh-bilder


Oh-bilder

Läggs upp här efter hand

  1. Föreläsning 1
  2. Föreläsning 2
  3. Föreläsning 3
  4. Föreläsning 4 (En exempeltext)
  5. Föreläsning 5
  6. Föreläsning 6
  7. Föreläsning 7 (reviderad 12/12)

 

Föreläsning 1: Från informationssökning till språkteknologi

Den här föreläsningen ger en översikt av kursen som helhet och introducerar ett antal grundläggande begrepp och processer i språkteknologi och informationssökning.

  • Kursens mål och uppläggning
  • Grundläggande begrepp i informationssökning
  • Grundläggande begrepp i lingvistisk textbearbetning
  • Dokumentrepresentationer som tf*idf-vektorer
  • Prestandamått: precision och recall

Litteratur: Våge et al. kapitel 2, 5, 7, 10 t.om. sid. 161. Mote: sid. 1-14

 

Föreläsning 2: Reguljära uttryck, ändliga automater och stora ordmängder

Den här föreläsningen tar upp fritextsökning och textmanipulation med användning av reguljära uttryck. Här ingår också elementa ur formell språkteori med fokus på reguljära språk.

  • Varianter av sökning och textmanipulation
  • Reguljära uttryck och substitutioner,
  • Tillämpning på igenkänning och extraktion av 'benämnda entiteter'
  • Textnormalisering med reguljära substitutioner,
  • Att representera lexikon och index reguljärt.

Litteratur: Webbmaterial om reguljära uttryck. Mote: sid 15-22
(Referensboken, Kap 2)

 

Föreläsning 3: Ordprediktion

Den här föreläsningen behandlar problemet att identifiera ord och fraser utifrån ofullständig eller motstridig information. För detta syfte introduceras två metoder: redigeringsavstånd och ngram-modeller.

  • Redigeringsavstånd,
  • Statistiska språkmodeller, ssk N-grammodeller,
  • Utjämning ("smoothing"),
  • Perplexitet som mått på prediktionsförmåga
  • Tillämpning på stavningskontroll och informationssökning

Litteratur:Wikipedia om Levenshtein distance, Language models och N-gram models; Mote: sid 23-27.
(Referensboken: Kap 3.11; 4.1-4.7)

 

Föreläsning 4: Klassificering av ord och dokument

Föreläsningen tar upp några viktiga klassificeringsgrunder för ord i dokument (ordklass, betydelse) och för texter som helheter (ämnesområde, genre). Som huvudmetod för klassificering använder vi Naive Bayes.

  • Metoden Naive Bayes,
  • Alternativ till Naive Bayes,
  • Ordklasstaggning,
  • Ordbetydelsebestämning,
  • Dokumentklassificering

Litteratur: Wikipedia om naive Bayes. Mote: sid 28-35, Våge et al. 165-170.
(Referensboken: Kap 5.3-5.4, 20.1-20.5)

 

Föreläsning 5: Informationsutvinning

Informationsutvinning skiljer sig från dokumentsökning genom att det är specifika fakta som söks, och från text mining genom att dessa fakta är uttryckta i texten, eller infererbara från vad som står där. Föreläsningen tar upp en typisk användningssituation och går sedan igenom olika delmoment av ett informationsutvinningssystem.

  • Informationsutvinning: definition och exempel,
  • Standardarkitektur för ett utvinningssystem,
  • Namnigenkänning,
  • Taggning och chunkning,
  • Relationsbestämning,
  • Referenskedjor och referentbestämning

Litteratur: Artikeln av Cunningham.
(Referensboken: Kap 5.3, 13.5, 22.1-22.2; 22.4)

 

Föreläsning 6: Frågebesvarande system (QA-system)

Den här föreläsningen tar upp frågebesvarande system med fokus på enkla faktafrågor och interaktiva guider.

  • Att besvara faktafrågor med hjälp av webben,
  • Två arkitekturer (klassificering vs. strängtransformationer)
  • Utvärdering av frågebesvarande system,
  • Interaktiva assistenter
  • Djup Q/A - Systemet Watson

Litteratur: Artikeln av Brill, Douglas och Banko.
(Referensboken: Kap 23.2)

 

Föreläsning 7: Textsammanfattning.

Ett sammanfattningssystem är ett system vars uppgift är att uttrycka det väsentligaste innehållet i en text med några få meningar. Föreläsningen diskuterar metoder för att bestämma de viktigaste meningarna i en text.

Litteratur: Våge et al. 170-185; Artikeln av Das & Martins, sid 1-4, 11-14, 23-25.
(Referensboken: Kap 23.3-23.4)


Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2012-12-12