729G09 Språkvetenskaplig databehandling
Laboration 4
Korpuslingvistik: kvinnor och män i språket
Syfte
Den här laborationen ger övning i användning av webbaserade korpusverktyg och korpuslingvistiska metoder för att undersöka språkanvändning. I laborationen används genomgående ordpar där det ena ordet betecknar något manligt (man, kille, far, son, ...) och det andra något kvinnligt (kvinna, tjej, mor, dotter, ...). Den övergripande frågan är "Framställs män och kvinnor olika i vanliga texttyper (och, i så fall, vad beror det på)?" Både svenska och engelska ska undersökas.
Litteratur
Sid 109-123 (Studying ideology and culture) ur boken Corpora in Applied Linguistics av Susan Hunston. Denna text ger olika exempel på hur man kan studera kulturella och ideologiska föreställningar via korpusar och specifikt några exempel på underordning/överordning.
Upplägg
Alla uppgifter handlar om skillnader och likheter i användning mellan ord som refererar till kvinnor och ord som refererar till män. Laborationen har tre obligatoriska deluppgifter och en valfri VG-uppgift.
- Uppgift 1: Frekvensjämförelser och genreskillnader
- Uppgift 2: Kollokationer
- Uppgift 3: Samordningar
- VG-uppgift: Kvinnligt och manligt -- varför säger man så?
För varje uppgift finns angivet hur den ska redovisas. Ni ska också göra en samlad redovisning av alla tre (eller fyra) uppgifter som ni gjort och då diskutera om och hur era egna resultat kan besvara den övergripande frågan om män och kvinnor generellt framställs på olika sätt i svenska och engelska texter och hur de förhåller sig till de hypoteser som Hunston tar upp i sin artikel.
System och korpusar
- Språkbankens Korp för svenska. En användarhandledning finns under den hjulformade ikonen uppe till höger på sidan.
- Google Ngrams, för sökningar på engelska och förändringar över tid.
- BYU:s korpussajt (här kan ni testa både brittisk och amerikansk engelska
- BYU Corpus of American English och
- deras gränssnitt till
British National Corpus (BNC).
OBS! BYU-konto behövs. Man kan prova BYU-systemet utan lösenord men efter ca 10 sökningar blir man ombedd att registrera sig. För att ha detta klart till labbtillfället - en person per labgrupp räcker - bör ni göra följande: Gå till BYU korpussida http://www.americancorpus.org/ och klicka på Enter-knappen. Längst till höger finns ett login-fält. Tryck på länken Register så kommer en sida upp med ett formulär. Ange de efterfrågade uppgifterna och kategorisera dig som 'Student (undergraduate)'.
För de andra systemen behövs ingen registrering.
Eftersom alla korpussökningar görs via webbläsare går det bra att använda egen dator eller jobba hemifrån.
Uppgifter
Uppgift 1: Frekvensjämförelser och genreskillnader
Undersök frekvensen av orden han, hon, man, kvinna i olika genrer och i texter från olika tider för att besvara följande frågor:
- Finns det signifikanta skillnader i frekvenserna för han gentemot hon, respektive man gentemot kvinna i Korps korpusmaterial som helhet? Om inte, finns det sådana skillnader i några korpusar? Om ja, finns det korpusar där frekvenserna inte skiljer sig signifikant?
- Går det att se förändringar över tid i användningen av dessa ord?
- Uppför sig de engelska motsvarigheterna he, she, man, woman likadant?
I denna uppgift använder ni Korp för svenska och valfritt system för engelska.
Redovisning: Berätta hur ni la upp undersökningen, dvs vilka korpusar ni använt och varför. Redovisa de frekvensuppgifter ni fått fram från olika korpusar i tabellform (det går bra att använda Excelblad). Besvara sedan frågorna ovan utifrån de frekvensdata ni fått fram.
Uppgift 2: Kollokationer
I den här uppgiften ska ni undersöka om det finns typiska egenskaper som kopplas till ord för kvinnor och män. Eftersom egenskaper språkligt sett oftast signaleras av adjektiv och handlingar oftast av verb kan ni använda kombinationer av sökningar på ord med ordklassfilter. Uppgiften görs både på svenska och engelska, men måste lösas på olika sätt eftersom de olika korpusverktygen har olika funktionalitet.
För svenska använder ni Korp och en funktion som heter Ordbild. Figuren visar en ordbild för substantivet 'individ' över alla dess böjningsformer. Man måste först göra en KWIC-sökning på respektive ord och får sedan på sidan med KWIC-konkordansen en flik där det står Ordbild. Öppnar man den fliken visas frekvenslistor med de 15 vanligaste orden av olika slag som förekommer tillsammans med nyckelordet. Vid varje ord finns möjlighet att plocka upp en konkordans för kombinationen av just det ordet med nyckelordet.

Ett alternativ är att använda s.k. Utökad sökning och filtrera på ordklass för orden före eller efter nyckelordet.
För engelska ska ni använda BYU Corpus-sajten http://corpus.byu.edu/. Välj antingen amerikansk engelska eller brittisk engelska. Den amerikanska hittas i BYU Corpus of American English och den engelska i British National Corpus (BNC).
Ett första steg är att försöka hitta mängder av ord som "kollokerar" med ett visst huvudord. Om vi testar med orden "boy" och "girl" i BYU Corpus of American English gör man så här:
- Markera "Compare" i Display-tabben.
- Skriv in sökordet ("boy" och "girl") i de två Word(s)-fältet.
- Klicka på "CONTEXT" och skriv in * (behövs alltid inte).
- Välj 1 eller 2 i första listrutan till höger om "CONTEXT" och "0" i sista listrutan.
- Klicka på "POS LIST" och välj "adj.ALL".
(Innebär att sökningen bara sker efter adjektiv som finns ett eller två
ord
före "boy".) - Välj genre (IGNORE för alla genrer, Spoken för talspråk, Newspaper för tidningstext, osv)
- Välj "RELEVANCE" efter SORT, och (MINIMUM) FREQUENCY eller MUTUAL INFO "3" (markera kryssrutan).
- Klicka på SEARCH.

I resultatfönstret visas kollokationsresultatet sorterat antingen efter frekvens eller MI-måttet (Mutual Information) som anger ett rankning efter relevans. Alla ord under Context är ord som förekommer 1 eller 2 ord före sökordet (i det här fallet 'boy'). Kolumnen frekvens anger hur ofta orden förekommer ihop med sökordet, medan kolumnen SCORE anger hur starkt associerade de är.
När ni ska studera hur ett ord används i mer detalj klickar ni på siffran i kolumnen W1 eller W2 och får då upp konkordanser för ordet ifråga med kontextordet.
Tips för undersökningen:
- Börja med några vanliga ordpar och deras adjektivattrribut.
- Försök gruppera attributen i olika semantiska kategorier som ålder, utseende, kompetens, etnicitet etc. och titta även på om de kan klassificeras som positiva, neutrala, eller negativa.
- Finns det några mönster? Ser det likadant ut i svenska och engelska?
- Formulera någon hypotes att gå vidare med, dvs att undersöka på fler ordpar. Använd då, förutom era egna observationer, gärna ideer från Hunstons artikel.
Redovisning: Beskriv hur ni la upp arbetet och vilka resultat ni kom fram till. Redovisa grunddata i form av tabeller och hur ni grupperat associerade ord semantiskt. Gick det att hitta mönster? Finns det skillnader mellan svenska och engelska?
Uppgift 3. Samordningar
I den här uppgiften ska ni undersöka följande
Hypotes: Ordningen mellan delarna i en samordnad nominalfras är inte slumpmässig. T.ex. kan ordningen visa på vad som anses eller har ansetts vara viktigast eller haft högst status, och då hamna på första position i en samordning. Om detta stämmer borde man alltså kunna undersöka t.ex. samordningar med uttryck för kvinnliga och manliga företeelser. Om det manliga har värderats högst eller värderas högst borde det alltså finnas fler uttryck av formen "MAN och KVINNA" än "KVINNA och MAN". Undersök ett antal sådana här samordningar i olika korpusar och på hela nätet och se om mönstret håller hela vägen. Använd Google Ngrams för att se om det finns en historisk förändring under 1900-talet. Uttryck man kan börja med är på engelska t.ex.
- man/woman (men/women etc.)
- boy/girl
- husband/wife
- brother/sister
- grandfather/grandmother
- father/daugher
- mother/son
- actor/actress
och på svenska t.ex.:
- man/kvinna ("man och kvinna", "män eller kvinnor"...)
- pojke/flicka
- make/maka
- man/hustru
- bror/syster
- kille/tjej
- morfar/mormor
- farfar/farmor,
- far/dotter (ev. pappa/dotter)
- mor/son (mamma/son)
- ...
Tänk också på att det finns fler konjunktioner än "och" och att det finns fler än en böjningsform av ord och uttryck. Det betyder att ni bör kolla varianter som "män och kvinnor", "män eller kvinnor" också.
Minst fem olika grundformspar ska testas på varje språk.
Redovisning: Sammanställ resultaten med frekvensinformation om de samordningar ni testat i en tabell. Notera om det skett förändringar under perioden 1900-2000. Minst fem olika grundformspar per språk ska ni ha testat (i ett grundformspar ingår det att olika böjningsvarianter undersöks, t.ex. ska ni som minimum testa singular- och pluralvarianter). För varje undersökt par ska ni ange använd korpus och frekvens. Diskutera sedan om hypotesen har stöd i de data ni tagit fram. Notera eventuella skillnader mellan olika ordpar, olika korpusar och mellan svenska och engelska.
Några tips för BYU-sökningar

Se till att ni använder "LIST"-alternativet och alternativet "FREQUENCY" under SORTING.
- Ni kan söka på alla varianter på en gång genom att använda hakparenteser:
- [girl] and [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy
- Ni kan söka variera konjunktion genom att använda lodstreck |:
- [girl] and|or [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy samt även efter kombinationer av and/or.
- Ni kan få fram frekvenser i olika delar av korpusen med alternativet CHART
VG-Uppgift. Kvinnligt och manligt - varför säger man så?
Det här är en fri uppgift där vi vill att ni försöker fundera över uttryck som:
- kvinnlig VD/manlig VD
- kvinnlig hockeyspelare/manlig hockeyspelare
- manlig förskollärare/kvinnlig förskollärare
- tvåbarnsmamma/tvåbarnspappa
- ensamstående pappa/mamma
- kvinnlig bilmekaniker/manlig bilmekaniker
- kvinnlig författare/manlig författare
Fundera över vad uttrycken står för. Vilket borde vara vanligast i samhället i stort? T.ex. finns det fler kvinnliga direktörer än manliga och speglas detta i vilket uttryck som är vanligast?
Redovisning: Berätta hur ni genomförde uppgiften och redovisa framtagna data i en tabell. Formulera hypoteser som kan förklara frekvensskillnaderna, när de är stora. Använd Hunstons artikel för inspiration.
Redovisning och betyg
Redovisningen av laborationen ska ha en del för varje uppgift som ni gjort (tre eller fyra) samt en avslutande diskussion där ni jämför era egna resultat med de hypoteser som formuleras i Hunstons artikel. Denna avslutande diskussion ska omfatta minst 150 ord.
För betyget G:
Ni ska i er rapport ha presentera era kvantitativa resultat och en diskussion kring dessa resultat med jämförelser mellan manligt och kvinnligt, och i förkommande fall mellan olika korpusar och språk. Den avslutande diskussionen ska visa att ni läst och förstått Hunstons artikel i relevanta delar.
För betyget VG:
Ni skall uppfylla kraven för betyget G ovan, samt ha gjort VG-uppgiften. Resultatdiskussionen utifrån Hunstons artikel ska visa på insikter i bedömningen av korpusdata.
Laborationen redovisas både på papper och elektroniskt. Pappersdelen behöver inte innehålla alla datasammanställningar utan det räcker att ni skickar in dessa elektroniskt. Se dock till att det är klart vilka data ni hänvisar till, när ni hänvisar till data i rapporten.
Pappersversioner lämnas i underskrivna labbomslag på det vanliga stället. Elektroniska versioner skickas till Lars. För deadline, se Inlämningsdatum.
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2013-05-06
