Informationsansvarig: Lars Ahrenberg, fornamn.efternamn@liu.se
Sidan uppdaterades senast: 2011-03-07
LiU » IDA » Grundutbildning » Kurs »
729G09 »
vt11 »
Lab2 »
Lab 2
I denna laboration kommer ni använda texter som fått en automatisk lingvistisk analys av verktyget Machinese Syntax från det finska företaget Connexor.
Efter Laboration 2 ska du kunna:
Ni kommer att jobba med en text som är uppmärkt med hjälp av Machinese Syntax: lab2text.fdg. Ni kan jämföra den uppmärkta texten med ursprungstexten (lab2text.txt). Sätt er in i hur utdata från Machinese Syntax representeras genom att studera:
Material om du känner dig osäker på att arbeta i Unix-miljö och vill se grundläggande Unix-kommandon:
Följande texter beskriver de Unix-verktyg ni behöver för att bygga lexikon och fraslistor.
Utifrån den upptaggade texten ska ni skapa lexikon/ordlistor för ordtyper. Med hjälp av dessa filer kan man besvara frågor som "Vilka ord finns i texten?", "Hur många ordtyper innehåller den?" eller "Hur ser fördelningen mellan olika ordklasser ut?". Uppgift 1 och 2 ska redovisas genom att ni lämnar in skript och lexikonfiler/fraslistor till era handledare
Skapa lexikon/ordlistor för ordtyper (varje rad ska vara unik) på varsin fil enligt a), b) och c). Tänk på att även få med konstruktioner som "det här" och "till och med" vilka analyseras som ett ord av Conexor.
När ni jobbar med uppgift 1a-c, observera ord som tycks ha blivit felaktigt lemmatiserade eller felaktigt kategoriserade, som ni kan skriva om i uppgift 1d och e.
...bilar bil N
bilarna bil N
bildade bilda V
bildar bilda V
...
...bil N 15
bilda V 3
billig A 2
bo N 2
bo V 5
...
...A 432
ADV 212
N 1502
V 542
...
Skapa tre filer med "fraser", dvs ordsekvenser som följer givna mönster:
Fraslistorna kan göras genom att skapa bigram (resp. trigram) med ordklasser och låta graforden vara med på samma rad. Därefter kan ni använda verktyget "grep" för att söka efter ett visst mönster: tvåordsfraser greppas i bigramsfilen, och nominalfraser med tre ord måste sökas bland trigrammen.
Skriv en A4 sida där ni jämför verktygets ordklasser och morfologiska särdrag med dem i Nusvensk grammatik. Vilka skillnader finns det? Finns alla morfologiska särdrag med i verktygets uppmärkning? Reflektera över vilka för- och nackdelar som finns med den uppdelning av ordklasser och morfologiska särdrag som görs av Connexor respektive Nusvensk Grammatik. Förtydliga er diskussion med exempel från texten.
Uppgift 1 och 2 måste vara godkända för att bli godkänd på labben. För G krävs inskickade ordlistor och skript av rimlig kvalitet samt en godkänd felanalys där det framgår att ni kan använda begrepp som ordklass, lemma och morfologiska särdrag på ett korrekt sätt.
För att kunna få VG krävs även utförligare analys av de grammatiska kategorierna med tydlig koppling till litteraturen i uppgift 3.
För att redovisa uppgifterna ska ni skicka in era svar, skript och resulterande lexikonfiler/fraslistor via e-post till Christian Smith. Redovisning ska som bekant också ske skriftligt, men här räcker det med att ni skriver ut skripten och lämnar in i labbomslag med underskrifter. Den skriftliga redovisningen måste vara underskriven av alla medlemmar i labbgruppen.
För senaste inlämningsdag se sidan Inlämningsdatum.