Göm menyn

729G09 Språkvetenskaplig databehandling

Laboration 4, VT2014


 

Laboration 4: Korpuslingvistik: kvinnor och män i språket

Syfte

Den här laborationen ger övning i användning av webbaserade korpusverktyg och korpuslingvistiska metoder för att undersöka språkanvändning. Uppgifterna handlar om skillnader mellan ord som associerar till kön. Både svenska och engelska ska undersökas.

Litteratur

Sid 109-123 (Studying ideology and culture) ur boken Corpora in Applied Linguistics av Susan Hunston. Denna text ger olika exempel på hur man kan studera kulturella och ideologiska föreställningar via korpusar och specifikt några exempel på underordning/överordning.

Artikeln finns att hämta i lådan '729G09 ut' i tvärkorridoren mitt emot Annika Silvervargs rum.

Upplägg

Laborationen har tre obligatoriska deluppgifter och en valfri VG-uppgift. I de obligatoriska uppgifterna ska du använda angivna korpusverktyg. I VG-uppgiften får du tänka mera fritt över hur en given frågeställning kan undersökas med dessa korpusverktyg. Anvisningar för redovisning finns i anslutning till varje uppgift och längst ner på sidan. OBS! att redovisningen ska avslutas med en diskussion av resultaten från alla tre (eller fyra) uppgifter du valt.

System och korpusar

  1. Språkbankens Korp för svenska. En användarhandledning finns under den hjulformade ikonen uppe till höger på sidan.
  2. BYU:s korpussajt (här kan ni testa både brittisk och amerikansk engelska

OBS! BYU-konto behövs. Man kan prova BYU-systemet utan lösenord men efter ca 10 sökningar blir man ombedd att registrera sig. För att ha detta klart till labbtillfället - en person per labgrupp räcker - bör ni göra följande: Gå till BYU korpussida http://www.americancorpus.org/ och klicka på Enter-knappen. Längst till höger finns ett login-fält. Tryck på länken Register så kommer en sida upp med ett formulär. Ange de efterfrågade uppgifterna och kategorisera dig som 'Student (undergraduate)'.

För de andra systemen behövs ingen registrering.

Eftersom alla korpussökningar görs via webbläsare går det bra att använda egen dator eller jobba hemifrån.

Uppgifter

Uppgift 1: Frekvensjämförelser

Undersök frekvensen av orden han, hon, hen i svenska texter från sociala medier. Här ska du använda Språkbankens Korp-verktyg med tidsstämplade bloggtexter (delkorpusar av Bloggmix). Du hittar dessa genom att klicka på den lilla triangeln till vänster om 'Sociala medier' i listan över alla korpusar och sedan klicka vidare till bloggtexterna.

 

  • Finns det signifikanta skillnader i frekvenserna för han gentemot hon i bloggtexterna?
  • Går det att se någon förändring över tid? I så fall, hur ser förändringen ut? Är den statistiskt signifikant?
  • Undersök frekvenserna för samma ordpar i någon annan, större korpus. Är frekvensförhållandena desamma?
  • Undersök ordet hen i bloggtexterna. Går det att se någon förändring över tid?
  • Undersök frekvenser för 'han eller hon' och 'hon eller han' i samma delkorpusar där hen förekommer. (För detta syfte använder du Utökad sökning.) Jämför frekvenserna för detta uttryck med frekvenserna för hen. Finns det ett statistiskt samband?
  • Kan alla förekomster av hen förklaras som en ersättning för det längre han eller hon?

Att tänka på:

  • Vad ger mest relevant information: att använda strängbaserad sökning eller sökning på lemgram (ord + ordklass)?
  • Vilken slags frekvenser är bäst att använda: absoluta eller relativa frekvenser?
  • Hur kan man undersöka den tidsmässiga förändringen?
  • Hur avgöra statistisk signifikans?

Redovisning: Redovisa vilken/vilka korpusar ni valt för de olika frågorna och hur ni genomfört uppgiften. Frekvensuppgifter redovisas i tabellform (det går bra att använda Excelblad). Besvara sedan frågorna ovan utifrån de frekvensdata ni fått fram.

Uppgift 2: Kollokationer

I den här uppgiften ska ni undersöka om det finns typiska egenskaper som kopplas till ord för kvinnor och män i engelska. Både amerikansk och brittisk engelska ska undersökas. Eftersom egenskaper språkligt sett oftast signaleras av adjektiv och handlingar oftast av verb kan ni använda kombinationer av sökningar på ord med ordklassfilter.

Ni använder BYU Corpus-sajten http://corpus.byu.edu/. Den amerikanska korpusen hittas i BYU Corpus of American English och den engelska i British National Corpus (BNC).

Ett första steg är att försöka hitta mängder av ord som "kollokerar" med ett visst huvudord. Om vi testar med orden "boy" och "girl" i BYU Corpus of American English gör man så här:

  1. Markera "Compare" i Display-tabben.
  2. Skriv in sökordet ("boy" och "girl") i de två Word(s)-fältet.
  3. Klicka på "CONTEXT" och skriv in * (behövs inte alltid).
  4. Välj 1 eller 2 i första listrutan till höger om "CONTEXT" och "0" i sista listrutan.
  5. Klicka på "POS LIST" och välj "adj.ALL". (Innebär att sökningen bara sker efter adjektiv som finns ett eller två ord före "boy".)
  6. Välj genre (IGNORE för alla genrer, Spoken för talspråk, Newspaper för tidningstext, osv)
  7. Välj "RELEVANCE" som metod för SORTING, och antingen FREQUENCY eller MUTUAL INFO "3" som värde på MINIMUM (markera kryssrutan).
  8. Klicka på SEARCH.

I resultatfönstret visas kollokationsresultatet sorterat antingen efter frekvens eller MI-måttet (Mutual Information) som anger ett rankning efter relevans. Alla ord under Context är ord som förekommer 1 eller 2 ord före sökordet (i det här fallet 'boy'). Kolumnen frekvens anger hur ofta orden förekommer ihop med sökordet, medan kolumnen SCORE anger hur starkt associerade de är.

När ni ska studera hur ett ord används i mer detalj klickar ni på siffran i kolumnen W1 eller W2 och får då upp konkordanser för ordet ifråga med kontextordet.

Tips för undersökningen:

  • Börja med några vanliga ordpar och ta fram deras mest associerade adjektivattrribut.
  • Försök gruppera attributen i olika semantiska kategorier som ålder, utseende, kompetens, etnicitet etc. och titta även på om de kan klassificeras som positiva, neutrala, eller negativa.
  • Finns det några mönster? Ser det likadant ut i amerikansk och brittisk engelska?
  • Formulera någon hypotes att gå vidare med, dvs att undersöka på fler ordpar. Det kan t.ex. handla om någon semantisk kategori som verkar vara mer använd med det ena könet. Använd då, förutom era egna observationer, gärna ideer från Hunstons artikel.

Redovisning: Beskriv hur ni la upp arbetet, vilken hypotes ni undersökt och vilka resultat ni kom fram till. Redovisa grunddata i form av tabeller och hur ni grupperat associerade ord semantiskt. Gick det att hitta mönster? Finns skillnader mellan amerikansk och brittisk engelska, och i så fall, vilka?

Uppgift 3. Samordningar

I den här uppgiften ska ni undersöka följande

Hypotes: Ordningen mellan delarna i en samordnad nominalfras är inte slumpmässig. T.ex. kan ordningen visa på vad som anses eller har ansetts vara viktigast eller haft högst status, och då hamna på första position i en samordning. Om detta stämmer borde man alltså kunna undersöka t.ex. samordningar med uttryck för kvinnliga och manliga företeelser. Om det manliga har värderats högst eller värderas högst borde det alltså finnas fler uttryck av formen "mansord och kvinnoord" än tvärtom. Undersök ett antal sådana här samordningar i  olika korpusar för svenska och engelska och se om mönstret håller hela vägen. Använd Google Ngrams för att se om det finns en historisk förändring under 1900-talet. Uttryck man kan börja med är på engelska t.ex.

  • man and woman vs. men and women
  • boys and girls vs. girls and boys
  • husband and wife vs. wife and husband
  • ...

och på svenska t.ex.:

  • män och kvinnor vs. kvinnor och män
  • bror och syster, vs. syster och bror
  • killar och tjejer, vs. tjejer och killar
  • morfar och mormor vs. mormor och morfar
  • ...

Tänk på att det finns fler än en böjningsform av ord och uttryck. Det betyder att ni bör kolla varianter som singular/plural, bestämd och obestämd form. Försök att komma på par som inte stöder hypotesen.

Minst åtta olika par ska testas på varje språk.

Redovisning: Sammanställ resultaten med frekvensinformation om de samordningar ni testat i en tabell. Minst åtta olika par per språk ska ni ha testat (i ett par ingår det att olika böjningsvarianter undersöks, t.ex. ska ni som minimum testa singular- och pluralvarianter). För varje undersökt par ska ni ange använd korpus och frekvens. Diskutera sedan om hypotesen har stöd i de data ni tagit fram. Notera eventuella skillnader mellan olika ordpar, olika korpusar och mellan svenska och engelska.

Några tips

För svenska använder ni Utökad sökning i Korp. Om sökning i hela Korp tar lång tid, begränsa sökningen till någon eller ett par delkorpusar.

I Google Ngrams skriver ni in de samrdningar ni vill jämföra och väljer start- och slutär.

I BYU använder ni "LIST"-alternativet och alternativet "FREQUENCY" under SORTING.

  • Ni kan söka på alla varianter på en gång genom att använda hakparenteser:
  • [girl] and [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy
  • Ni kan få fram frekvenser i olika delar av korpusen med alternativet CHART

 

Uppgift 4 (VG-Uppgift). Kvinnligt och manligt - varför säger man så?

Det här är en fri uppgift där vi vill att ni försöker fundera över uttryck som:

  • kvinnlig VD/manlig VD
  • kvinnlig hockeyspelare/manlig hockeyspelare
  • manlig förskollärare/kvinnlig förskollärare
  • tvåbarnsmamma/tvåbarnspappa
  • ensamstående pappa/mamma
  • kvinnlig bilmekaniker/manlig bilmekaniker
  • kvinnlig författare/manlig författare

Fundera över vad uttrycken står för. Vilket uttryck borde vara vanligast, och varför? Kan det bero på hur vanliga eller ovanliga deras referentmängder är? Finns det uttryck där frekvensen hos referentmängderna inte alls är relevant, utan helt andra faktorer?

Redovisning: Berätta hur ni genomförde uppgiften och redovisa framtagna data i en tabell. Formulera hypoteser som kan förklara frekvensskillnaderna, när de är stora. Använd Hunstons artikel för inspiration.

 

Redovisning och betyg

Redovisningen av laborationen ska ha en del för varje uppgift som ni gjort (tre eller fyra) samt en avslutande diskussion där ni jämför era egna resultat med de hypoteser som formuleras i Hunstons artikel. Denna avslutande diskussion ska omfatta minst 150 ord.

För betyget G:

Ni ska i er rapport ha presentera era kvantitativa resultat och en diskussion kring dessa resultat med jämförelser mellan manligt och kvinnligt, och i förkommande fall mellan olika korpusar och språk. Den avslutande diskussionen ska visa att ni läst och förstått Hunstons artikel i relevanta delar.

För betyget VG:

Ni skall uppfylla kraven för betyget G ovan, samt ha gjort VG-uppgiften. Resultatdiskussionen utifrån Hunstons artikel ska visa på insikter i användning och värdering av korpusdata.

Ni skickar er redovisning i epost till Lars. Frekvensdata och klassificeringar kan redovisas i separata filer. Se dock till att det är klart vilka data ni hänvisar till, när ni hänvisar till data i rapporten.

För deadline, se Inlämningsdatum.


Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2014-05-15