TDDD02 Språkteknologi för informationssökning
Inläsnings- och övningsfrågor TDDD02
Lars Ahrenberg
Tentan kommer att innehålla 10-12 frågor. Tentafrågorna kommer att vara av samma typ som de frågor som återfinns här men kombinerade (eller uppdelade) så att varje fråga kan bedömas med maximalt 3 poäng.
Vad är en term-dokumentmatris för en dokumentsamling?
Vad menas med stoppord i samband med informationssökning?
Vad är skillnaden mellan stemming och lemmatisering?
Antag att vi representerar dokument i en vektorrymd där varje vektor har tio element. En given sökfråga fick representationen <0,1,1,0,0,0,0,0,0,0>. Vilken av följande tre dokument är mest relevant för denna sökfråga, och varför?
D1: <0,1,0,1,0,1,1,0,0,0>
D2: <1,0,0,1,1,0,0,1,1,0>
D3: <1,1,1,0,1,1,0,0,0,1>
Antag att vi använder termer för att representera boktitlar och följande boktitlar är givna:
T1: Konsten att leva billigt i Paris.
T2: Konsten att leva.
T3: Paris i konsten.
(a) Vilken är termfrekvensen för 'leva' i de tre titlarna?
(b) Vilken är den inversa dokumentfrekvensen (idf) för 'leva' för dessa tre titlar?
(c) Ange en matris för de tre titlarna där raderna svarar mot termerna konsten, leva, och Paris, och elementen i matrisen ges av måttet tf*idf.
Vilka är de centrala funktionerna i ett dokumentsökningssystem?
Vad menas med att indexera en dokumentsamling?
Ange (i) ett reguljärt uttryck, (ii) en ändlig automat för strängmängderna L1 och L2 nedan, definierade över alfabetet {a, b}:
L1: {bb, bab, baab, baaab, baaaab, ... }
L2: {ab, abab, ababab, abababab, ... }
Ange reguljära uttryck för följande ordformer: (i) svenska ord som slutar på erna och därutöver innehåller minst en vokal, (ii) ord som bara innehåller stora bokstäver och eventuellt ett bindestreck någonstans mitt i ordet, (iii) ord som slutar på två identiska konsonanter som dagg eller natt. (Om du vill kan du tillåta dig att införa variabler för olika teckenmängder, men var då noga med att definiera dem explicit. Exempel: V = {a,e,i,o,u,y,å,ä,ö}.)
Representera orden se, sed, sedan, ser, sedd, sa, sade, sagt i ett bokstavsträd, dvs en deterministisk tillståndsautomat.
Ange (i) en reguljär substitution, t.ex som den anges i sed, som relaterar engelska ord som slutar på -y, och deras böjningsformer som slutar på -ies, t.ex. try ~ tries, terrify ~ terrifies.
Vad menas med redigeringsavståndet (eng. minimal edit distance) mellan två strängar?
Vad är redigeringsavståndet mellan strängarna psykolog och syckolog, och hur räknar man ut det?
Vad menas med en betingad sannolikhet?
Vad menas i sannolikhetslära med att två händelser, A och B, är oberoende?
Vad är en statistisk språkmodell?
Vad är (i) ett bigram, (ii) en bigramsannolikhet, (iii) ett trigram, (iv) en trigramsannolikhet?
Antag att vi i en korpus som omfattar 100 000 ord hittar ordet det 1200 gånger, ordet är 1500 gånger, och sekvensen det är, 300 gånger. Vad är Maximum Likelihood-uppskattningen av (i) sannolikheten för att är kommer efter det utifrån denna korpus, (ii) ordet det:s unigramsannolikhet?
Varför är Maximum Likelihood-uppskattningen, dvs den relativa frekvensen, inte den bästa uppskattningen av sannolikheter i en statistisk språkmodell?
Ange ett uttryck för sannolikheten av ordsekvensen det var mörkt ute i termer av sannolikheter för de ingående bigrammen.
Vad menas med Add-1 smoothing (för utsmetning, eller utjämning av sannolikheter)? Vilken är den största nackdelen med Add-1 som utjämnningsmetod?
Hur kan man använda ngram-sannolikheter i samband med stavningskontroll?
Nämn två olika sätt att kombinera ngram av olika storlek i samma statistiska språkmodell.
Ange något mått på en språkmodells kvalitet när det gäller att predicera ord i sekvens.
Förklara modellen Den brusiga kanalen (eng. Noisy Channel) och ange några problem som den tillämpas på.
Förklara modellen Naive Bayes för att klassificera ord och dokument. Varför kallas den naiv?
Vad menas med (i) ordklasstaggning, (ii) chunkning, (iii) namnigenkänning?
Hur definieras måtten korrekthet (eng. accuracy), precision och recall?
Ett IR-system returnerar 15 dokument som svar på en viss fråga. Tre av dem är relevanta. I hela dokumentdatabasen finns 12 relevanta dokument. Vad är systemets precision? Vad är dess recall?
Ett namnigenkänningssystem testas på en text som innehåller 30 namn. Systemets precision anges till 100%. Kan vi dra någon slutsats om hur många namn systemet har hittat?
Vad menas med F-mått?
I nedanstående text förekommer ett antal (markerade) namnuttryck. (a) Vilket eller vilka av dessa är svårast att skilja från ett icke-namn med hjälp av reguljära uttryck?, (b) Vilka av dem är lättast att klassificera utifrån matchning av ett reguljärt uttryck? Motivera dina svar.
London är EU:s största metropol med sina 7,4 miljoner invånare och med förorter cirka 14 miljoner invånare. Vid den senaste folkräkningen var nästan 22 procent av befolkningen född utanför EU. Storlondon har en yta på 1 579 kvadratkilometer. Londonregionen som helhet inkluderande närbelägna orter och även viss landsbygd, omfattar en yta på omkring 16 200 kvadratkilometer.
Vad är skillnaden mellan ett lemma och ett lexem (eller betydelse)?
Vad är WordNet?
Vad innebär (automatisk) ordbetydelsebestämning (eng. word sense disambiguation)? Vad är skillnaden mellan sampelbaserad och textbaserad betydelsebestämning?
Formulera beslutsregeln för ordbetydelsebestämning om man använder Naive Bayes.
Nämn tre olika typer av indikatorer som används för ordbetydelsebestämning.
Anta att namnet Ericsson förekommer i en text med syftning ibland på en person ibland på företaget Ericsson. Hur skulle vi kunna skilja dem åt?
Vad innebär informationsutvinning (eng. information extraction)?
Vilka komponenter ingår i standardarkitekturen för ett informationsutvinningssystem?
Ange tre vanliga sätt att referera till en redan omnämnd entitet i en text, där det första refererande uttrycket är ett fullständigt namn.
Vilka olika mått används för att mäta prestanda för ett informationsutvinningssystem?
Vad menas med en boot-strapping metod? Förklara hur man kan använda boot-strapping för att skapa en mängd reguljära uttryck med hög prestanda för att känna igen relationer i textdokument, t.ex. relationen mellan ett företag och den ort där företaget har sin verksamhet.
Vad är ett frågebesvarande system (eng. question-answering system)?
Vilka är de centrala komponenterna i en standardarkitektur för ett frågebesvarande system?
Vad menas med en frågas svarstyp i ett frågebesvarande system och hur kan den bestämmas?
Systemet AskMSR utnyttjar webbens redundans för att svara på frågor. Vad menas med det?
Hur fungerar extraktionsmetoden för textsammanfattning?
Ange tre olika indikatorer på att en mening i en text kan vara en kandidat att ta med i en (extraktionsbaserad) sammanfattning av en given text.
Vad innebär ROUGE-måttet för utvärdering av textsammanfattningssystem?
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2012-12-04
