TDDD02 Språkteknologi för informationssökning
Kursinformation
Kursmål
Kursen ska ge kunskap om grundläggande metoder för analys och tolkning av ord, meningar och texter och färdigheter i deras tillämpning på informationssökning. Efter fullgjord kurs ska du kunna:
- Förklara innebörden av morfologisk, syntaktisk och semantisk analys av meningar och texter
- Redogöra för, och tillämpa, metoder baserade på reguljära uttryck, ngrammodeller, vektorbaserade modeller på problemet att klassificera ord och ordsekvenserer i text
- Redogöra för arkitekturer och problem i tillämpningar som informationsutvinning, frågebesvarande system, sammanfattningssystem, och en- och flerspråkig informationssökning
- Utvärdera algoritmer och system med avseende på korrekthet, precision och recall.
Kursinnehåll
- Informationssökning på Internet.
- Språkteknologi i traditionell informationssökning: tokenisering, lemmatisering, suffixborttagning (stemming).
- Grundläggande lingvistik: morfologi, syntax, semantik, diskursanalys. Semantiska relationer. Ordnät.
- Metoder för analys och klassificering av ord: ordklasstaggning, ordprediktion, betydelsebestämning. Frasanalys och frasigenkänning.
- Avancerad informationsåtkomst: namnigenkänning, frågebesvarande system, informationsutvinning, automatisk sammanfattning, flerspråkig informationssökning.
- Utvärdering av klassificeringsproblem.
Organisation
Undervisningen utgörs av föreläsningar och laborationshandledning. Föreläsningarna går igenom de viktigaste momenten av kursinnehållet. Laborationerna omfattar dels övningar, dels examinationsmoment i form av uppgifter som ska redovisas skriftligt.
Kurslitteratur
Kursbok
Lars Våge, Hercules Dalianis, Lars Iselid: Informationssökning på Internet. Studentlitteratur 2008. Denna bok är en lättillgänglig och översiktlig presentation av metoder och system för sökning på Internet. Många av de metoder som kursen tar upp är dock inte beskrivna i detalj utan för dessa hänvisas till anvisade webbsidor eller referenslitteraturen.
Lämpliga kapitel att läsa är kapitlen 1, 2, 5, 7, 8, 10.
Artiklar och webbsidor
- Manual till reguljära uttryck, t.ex. http://www.zytrax.com/tech/web/regex.htm.
- Hamish Cunningham, "Information Extraction, Automatic". Encyclopedia of Language and Linguistics, 2nd Edition, Elsevier, 2005. (PDF - preprint.)
- Peter Norvig: How to write a spelling corrector. En tillämpning av modellen Noisy Channel, som används i Lab 2, kombinerat med redigeringsavstånd.
- Kevin Mote: Natural Language Processing - A Survey, sid. 1-38. Detta är en populärvetenskaplig introduktion till hela området språkteknologi, i form av en kandidatuppsats från Washington State University. De första 38 sidorna ger korta översikter av flera av de tekniker som kursen tar upp och sätter in dem i det större sammanhanget av modellering av språkförståelse på dator.
- Wikipedia, artiklar om
- Dipanjan Das and André Martins, A Survey on Automatic Text Summarization, November 2007. Kapitel 1, 2 och 5-5.2 om Single-document summarization och utvärdering av sådana system.
- Eric Brill, Susan Dumais and Michele Banko: An Analysis of the AskMSR Question-Answering System. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2002:257-264.
Oh från föreläsningar
Dessa återfinns på sidan Föreläsningsöversikt.
Referensbok
Daniel Jurafsky and James H. Martin: Speech and language processing : an introduction to natural language processing, computational linguistics and speech recognition. Pearson Education International/Prentice Hall, 2009. Kapitel 2-5, 19-20, 22-23. Denna bok är lite för stor för kursens behov, men den är en standardreferens för språkteknologi och täcker alla språkteknologiska modeller som tas upp i kursen.
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2012-10-12
