Göm menyn

729G09 Språkvetenskaplig databehandling

Lab 2


Laboration 2 : Syntax och ordklasstaggning

Inledning

I denna laboration kommer ni använda texter som fått en automatisk lingvistisk analys av verktyget Machinese Syntax från det finska företaget Connexor.

Efter Laboration 2 ska du kunna:

  • använda kommandoradsverktyg i Unix för att sammanställa lexikon och fraslistor från lingvistiskt uppmärkt text,
  • utvärdera och analysera verktyg för lingvistisk analys.

Förberedelser

Textmaterial

Ni kommer att jobba med en text som är uppmärkt med hjälp av Machinese Syntax: lab2text.fdg. Ni kan jämföra den uppmärkta texten med ursprungstexten (lab2text.txt). Sätt er in i hur utdata från Machinese Syntax representeras genom att studera:

Grundläggande Unix

Material om du känner dig osäker på att arbeta i Unix-miljö och vill se grundläggande Unix-kommandon:

Unix-verktyg för textbehandling

Följande texter beskriver de Unix-verktyg ni behöver för att bygga lexikon och fraslistor.

  • cut, paste, sort och uniq - extrahera textkolumner, räkna frekvenser och sortera.
  • grep - verktyg för att söka i text med reguljära uttryck
  • sed - verktyg för att utföra "sök och ersätt" i text
  • tr - verktyg för att byta ut tecken mot varandra t.ex. ändra alla stora bokstäver till små bokstäver.
  • Skript i Unix en kort introduktion till hur man skriver skript.

Inlämningsuppgifter

Utifrån den upptaggade texten ska ni skapa lexikon/ordlistor för ordtyper. Med hjälp av dessa filer kan man besvara frågor som "Vilka ord finns i texten?", "Hur många ordtyper innehåller den?" eller "Hur ser fördelningen mellan olika ordklasser ut?". Uppgift 1 och 2 ska redovisas genom att ni lämnar in skript och lexikonfiler/fraslistor till era handledare

Uppgift 1

Skapa lexikon/ordlistor för ordtyper (varje rad ska vara unik) på varsin fil enligt a), b) och c). Tänk på att även få med konstruktioner som "det här" och "till och med" vilka analyseras som ett ord av Conexor.

När ni jobbar med uppgift 1a-c, observera ord som tycks ha blivit felaktigt lemmatiserade eller felaktigt kategoriserade, som ni kan skriva om i uppgift 1d och e.

  1. Skapa en lista över alla graford med lemma och tillhörande ordklass i bokstavsordning enligt följande exempel. Varje rad ska vara unik:
  2. ...

    bilar bil N

    bilarna bil N

    bildade bilda V

    bildar bilda V

    ...

  3. Skapa en lista över alla stammar i bokstavsordning med tillhörande ordklass och frekvens (i den ordningen):
  4. ...

    bil N 15

    bilda V 3

    billig A 2

    bo N 2

    bo V 5

    ...

  5. Skapa en lista över alla ordklasser med frekvens:
  6. ...

    A 432

    ADV 212

    N 1502

    V 542

    ...

  7. Vilka felaktiga analyser verkar Machinese Syntax göra vad gäller lemma och ordklass? Hitta minst 3 ord med felaktigt identifierade lemman och minst 3 ord med felaktiga ordklasser.
  8. Undersök om det finns någon systematik i de fall när Machinese Syntax misslyckas med ordklass- eller lemmabestämning. Är vissa typer av ord svårare att bestämma än andra och i så fall vilka?
Uppgift 2

Skapa tre filer med "fraser", dvs ordsekvenser som följer givna mönster:

Fraslistorna kan göras genom att skapa bigram (resp. trigram) med ordklasser och låta graforden vara med på samma rad. Därefter kan ni använda verktyget "grep" för att söka efter ett visst mönster: tvåordsfraser greppas i bigramsfilen, och nominalfraser med tre ord måste sökas bland trigrammen.

  1. En fil med nominalfraser (NP) som utgörs av "DET N", t.ex. "ett vapen", "en kaka"...
  2. En fil med treordiga nominalfraser av typen "det gröna huset", "en vit anka", "några lekande barn" ... Se till att få med alla framförställda attribut. Fundera på vilka ord som kan fungera som framförställda attribut och undersök vilka ordklasser dessa tilldelas av Machinese syntax.
  3. En fil med possessiva nominalfraser av typen "Svantes väska", "hundens ögon" alltså fraser där ett substativ tillhör ett annat substantiv (uttryckt som ett substantiv i genitiv). Titta noga på de nominalfraser ni får ut och försök att filtrera listan på olika sätt så att den består av så många possessiva nominalfraser som möjligt. Se till att er sökning inte är alltför anpassad till den befintliga texten, metoden ni väljer ska också fungera på andra texter.
  4. Vilka felaktiga analyser verkar Machinese Syntax göra vad gäller morfologiska särdrag? Ge minst 2 exempel på felaktigt angivna särdrag.
  5. Ge ytterligare 6 olika exempel på ord (oavsett feltyp) som inte är korrekt analyserade av Machinese Syntax.
Uppgift 3 (VG-fråga)

Skriv en A4 sida där ni jämför verktygets ordklasser och morfologiska särdrag med dem i Nusvensk grammatik. Vilka skillnader finns det? Finns alla morfologiska särdrag med i verktygets uppmärkning? Reflektera över vilka för- och nackdelar som finns med den uppdelning av ordklasser och morfologiska särdrag som görs av Connexor respektive Nusvensk Grammatik. Förtydliga er diskussion med exempel från texten.

Inlämning och examination

Uppgift 1 och 2 måste vara godkända för att bli godkänd på labben. För G krävs inskickade ordlistor och skript av rimlig kvalitet samt en godkänd felanalys där det framgår att ni kan använda begrepp som ordklass, lemma och morfologiska särdrag på ett korrekt sätt.

För att kunna få VG krävs även utförligare analys av de grammatiska kategorierna med tydlig koppling till litteraturen i uppgift 3.

För att redovisa uppgifterna ska ni skicka in era svar, skript och resulterande lexikonfiler/fraslistor via e-post till Christian Smith. Redovisning ska som bekant också ske skriftligt, men här räcker det med att ni skriver ut skripten och lämnar in i labbomslag med underskrifter. Den skriftliga redovisningen måste vara underskriven av alla medlemmar i labbgruppen.

För senaste inlämningsdag se sidan Inlämningsdatum.


Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2012-02-20