Göm menyn

729G49 Språk och datorer


På denna sida hittar du instruktioner och material för fördjupningsuppgiften samt information om betygskriterierna.

Bakgrund och frågeställning

I fördjupningsuppgiften ska du tillämpa kursens metoder på en frågeställning inom automatisk läsbarhetsanalys.

Begreppet läsbarhet syftar på ”summan av sådana språkliga egenskaper hos en text, vilka gör den mer eller mindre svårtillgänglig för läsaren” (Björnsson, 1968, s. 13). Hur läsbar en text är beror bl.a. på dess mängd, dess uppbyggnad, samt på komplexiteten hos olika morfologiska och syntaktiska formationer som förekommer i den. Däremot brukar man t.ex. inte betrakta textens typografiska utformning som en del av läsbarheten; fokus ligger alltså på rent språkinterna egenskaper.

Automatisk läsbarhetsanalys är en betydande forskningsinriktning på Institutionen för datavetenskap och bedrevs bl.a. i projektet Digital inkludering i det uppkopplade samhället för grupper med speciella behov, där den användes för kvalitetsstyrning av texter. Ett konkret mål i detta projekt var att skapa system som ger beslutsstöd till textproducenter inom den offentliga sektorn och t.ex. automatiskt flaggar för när texten på en webbsida behöver anpassas till personer med läs- och skrivsvårigheter.

Den konkreta frågeställning som du ska bearbeta i fördjupningsuppgiften är:

Kan man mäta läsbarheten hos en text?

Slides från Arne Jönssons gästföreläsning

Komplexitetsmått

För att kunna svara på frågeställningen ska du utföra en studie där du beräknar två konkreta mått för syntaktisk komplexitet: nominalkvot och dependenslängd.

Nominalkvot

Nominalkvoten (eng. nominal ratio) är kvoten mellan ord med nominal karaktär (dit räknas substantiv, prepositioner och particip) och ord med verbal karaktär (dit räknas verb, pronomen och adverb). Detta har föreslagits som ett mått på hur abstrakt en text är. Heimann Mühlenbock (2013) skriver: ”En hög nominalkvot indikerar ett högre och stilistiskt mera utvecklat språknivå med hög informationstäthet och som därför är svårare och kräver mer tid att förstå (Melin and Lange, 2000).”

Mer information om nominalkvot hittar du i denna doktorsavhandling, som även inkluderar referenser till ytterligare litteratur:

Katarina Heimann Mühlenbock. I see what you mean. Assessing readability for specific target groups. Doktorsavhandling, Göteborgs universitet, 2013.

Dependenslängd

Dependenslängd mäter avståndet mellan ett ord och dess huvud. Att använda detta avstånd som komplexitetsmått bygger på antagandet att texter med stora avstånd mellan sammanhängande ord är svårare att förstå än texter med mindre avstånd: Om avståndet är långt behöver ord hållas kvar i arbetsminnet under än längre tid än om avståndet är kort. Den genomsnittliga dependenslängden av en text borde därför spegla hur komplex den är.

Mer information om dependenslängd och vad den kan användas till hittar du i denna uppsats:

Fredrik Sandh. Alzheimers sjukdom och syntaktisk komplexitet – en pilotstudie av dependenslängd och relaterade mått. Examensarbete, Uppsala universitet, 2013.

Betygskriterier

För att bli godkänd på denna uppgift ska du

  • implementera ett skript som beräknar nominalkvot och dependenslängd för en given korpus
  • använda ditt skript för att jämföra syntaktisk komplexitet hos två olika korpusar
  • redovisa din metod, dina resultat, din diskussion och dina slutsatser i en akademisk rapport

För betyget VG krävs en omfattande diskussion med välutvecklade omdömen. En sådan diskussion kräver en utökning av din studie bortom de ramar som presenteras nedan. Du skulle t.ex. kunna undersöka andra komplexitetsmått än nominalkvot och dependenslängd, inkludera andra data än de givna korpusarna, eller utföra andra typer av analyser. Även en välskriven metodkritik som mynnar ut i konkreta förslag på hur studien kan förbättras kan motivera det högre betyget.

Diskussionsdelen av din rapport bedöms enligt dokumentet Assessment criteria for critical judgements (på engelska).

Steg 1: Bekanta dig med datamaterialet

Datamaterialet för din studie består av två korpusar med automatiskt uppmärkta meningar ur nyhetsartiklar från Göteborgsposten, en större svensk dagstidning, och 8 sidor, en nyhetstidning på lättläst svenska.

Nyhetsartiklarna kommer från perioden 2004–2011 och har sammanställts utifrån rådata från Språkbanken. Varje ord är annoterat med bl.a. ordklass och huvudord. Dessa annotationer ska du använda för att beräkna nominalkvot och dependenslängd.

Ladda ner datafilerna och titta på dem i terminalen med ett kommando såsom less. Du kan också försöka öppna filerna i en texteditor, men tänk på att de är ganska stora. Dataformatet i filerna är samma som i CoNLL-X Shared Task on Multilingual Dependency Parsing. Du behöver också läsa dokumentationen om de taggar som används i Språkbankens resurser. Det finns även en mer utförlig annoteringsmanual.

Steg 2: Implementera komplexitetsmåtten

Nästa steget i uppgiften är att implementera ett Python-skript som beräknar komplexitetsmåtten. Skriptet ska ta namnet på en fil i CoNLL-X-format som argument och skriva ut nominalkvoten och dependenslängden för denna fil. Exempel för hur det kan se ut:

python complexity.py foo.conllx
Nominal ratio: 1.000
Average dependency length: 1.000

Specifika anvisningar:

  • Ignorera dependenser vars huvudord har position 0.
  • Skriv ut både nominalkvot och genomsnittlig dependenslängd med 3 positioner efter kommatecknet (som i exemplet ovan).

Steg 3: Skriv rapporten

När du har fått resultat ska du redovisa din studie i en rapport. Rapporten ska innehålla följande rubriker:

  1. Inledning. Förklara syftet med studien och studiens frågeställning med egna ord.
  2. Teori. Definiera och förklara måtten dependenslängd och nominalkvot med egna ord.
  3. Data. Beskriv datamaterialet med egna ord. Vilken information finns? Hur är informationen representerad?
  4. Metod. Beskriv hur du genomfört ditt arbete. Tänk på det vetenskapliga begreppet replikerbarhet.
  5. Resultat. Presentera dina resultat på ett objektivt sätt. Du ska inte analysera resultaten i detta avsnitt.
  6. Diskussion. Ge din tolkning av resultaten och diskutera dem i kontexten av studiens frågeställning.
  7. Slutsatser. Dra tydliga slutsatser utifrån dina resultat och din diskussion. Vad blev svaret på frågeställningen?

(Dessa rubriker kommer från Johan Åbergs Anvisning för exjobbsrapporter.)

När du refererar till andra källor än kurshemsidan (t.ex. vetenskapliga artiklar) ska din rapport även innehålla en rubrik för referenserna. När det gäller formatet för referenserna kan du med fördel använda samma som i 729G01 Kognitionsvetenskaplig introduktionskurs.

Din rapport ska ha mellan 2 000 och 4 000 ord, motsvarande ca. 4–8 sidor text. Detta riktsnöre exkluderar titeln, bilder, tabeller, matematiska formler och referenser. Rapporten ska vara väl genomarbetad och korrekturläst. Om du gör en utökad studie (för VG) kan din rapport vara längre.

Steg 4: Få och ge återkoppling (valfri)

Resultatseminarium

Om du vill ha återkoppling på dina resultat får du det på ett resultatseminarium då ditt och de andra deltagarnas resultat diskuteras. Tiden för resultatseminariet hittar du i kursschemat.

För att få på resultatseminariet ska du ha lämnat in ett dokument i Lisam som innehåller dina resultat. Ni behöver inte läsa varandras resultat/utkast innan detta seminarium.

Inlämningsdatum resultatseminarium: 2024-05-07

Rapportseminarium

Om du vill ha återkoppling på din rapport kan du lämna in ett utkast på den som ett underlag för ett rapportseminarium. På detta seminarium ger du även återkoppling på de andra deltagarnas rapportutkast.

Instruktioner: Lämna in din rapport som ett PDF-dokument i Lisam med ditt LiU-ID som filnamn

Exempel:marjo123.pdf

Inlämningsdatum rapportseminarium: 2024-05-21

Bedömning: Denna inlämning är inte betygsgrundande, men du får återkoppling på ditt utkast från examinator och de övriga deltagarna i din seminariegrupp.

Ditt rapportutkast läses av examinator och de övriga deltagarna i din seminariegrupp, samtidigt som du läser de övriga deltagarnas utkast. Du får de andras utkast via epost dagen efter inlämningsdatumet och förväntas ha läst dem när du kommer på ditt seminarium.

Tiden för ditt seminarium hittar du i kursschemat. Varje seminarium tar ca. 45 minuter. När du kommer på seminariet ska du vara förberedd på att ta emot och ge konstruktiv återkoppling på rapportutkasten, samt att diskutera uppgiften i sin helhet. Examinator kommer finnas med på varje seminarium.

Steg 5: Lämna in rapporten

I slutet på kursen lämnar du in den slutgiltiga versionen av din rapport efter att du har reviderat den utifrån den återkoppling som du fått på seminariet och eventuella nya idéer som du haft sedan dess.

Instruktioner: Lämna in din rapport som ett PDF-dokument i Lisam med ditt LiU-ID som filnamn

Exempel: marjo123.pdf

Bifoga din kod som en Python-fil.

Inlämningsdatum: 2024-05-31

Bedömning: Examinator bedömer din rapport med ett av betygen U, G eller VG enligt betygskriterierna. Detta betyg blir samtidigt ditt betyg på examinationsmomentet UPG1.


Sidansvarig: Marcel Bollmann
Senast uppdaterad: 2024-03-18