Göm menyn

TDDD02 Språkteknologi för informationssökning

Kursinformation


Kursmål

Kursen ska ge kunskap om grundläggande metoder för analys och tolkning av ord, meningar och texter och färdigheter i deras tillämpning på informationssökning. Efter fullgjord kurs ska du kunna:

  • Förklara innebörden av morfologisk, syntaktisk och semantisk analys av meningar och texter
  • Redogöra för, och tillämpa, metoder baserade på reguljära uttryck, ngrammodeller, vektorbaserade modeller på problemet att klassificera ord och ordsekvenserer i text
  • Redogöra för arkitekturer och problem i tillämpningar som informationsutvinning, frågebesvarande system, sammanfattningssystem, och en- och flerspråkig informationssökning
  • Utvärdera algoritmer och system med avseende på korrekthet, precision och recall.

Kursinnehåll

  • Informationssökning på Internet.
  • Språkteknologi i traditionell informationssökning: tokenisering, lemmatisering, suffixborttagning (stemming).
  • Grundläggande lingvistik: morfologi, syntax, semantik, diskursanalys. Semantiska relationer. Ordnät.
  • Metoder för analys och klassificering av ord: ordklasstaggning, ordprediktion, betydelsebestämning. Frasanalys och frasigenkänning.
  • Avancerad informationsåtkomst: namnigenkänning, frågebesvarande system, informationsutvinning, automatisk sammanfattning, flerspråkig informationssökning.
  • Utvärdering av klassificeringsproblem.

Organisation

Undervisningen utgörs av föreläsningar och laborationshandledning. Föreläsningarna går igenom de viktigaste momenten av kursinnehållet. Laborationerna omfattar dels övningar, dels examinationsmoment i form av uppgifter som ska redovisas skriftligt.

Kurslitteratur

Kursbok

Lars Våge, Hercules Dalianis, Lars Iselid: Informationssökning på Internet. Studentlitteratur 2008. Denna bok är en lättillgänglig och översiktlig presentation av metoder och system för sökning på Internet. Många av de metoder som kursen tar upp är dock inte beskrivna i detalj utan för dessa hänvisas till anvisade webbsidor eller referenslitteraturen.

Lämpliga kapitel att läsa är kapitlen 1, 2, 5, 7, 8, 10.

 

Artiklar och webbsidor

 

Oh från föreläsningar

Dessa återfinns på sidan Föreläsningsöversikt.

 

Referensbok

Daniel Jurafsky and James H. Martin: Speech and language processing : an introduction to natural language processing, computational linguistics and speech recognition. Pearson Education International/Prentice Hall, 2009. Kapitel 2-5, 19-20, 22-23. Denna bok är lite för stor för kursens behov, men den är en standardreferens för språkteknologi och täcker alla språkteknologiska modeller som tas upp i kursen.

 


Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2012-10-12