729G09 Språkvetenskaplig databehandling
Lab 4
Laboration 4: Korpuslingvistik
Syfte
Den här laborationen är friare än de tidigare laborationerna och är mer
projektorienterad.
Den ska ge insikter om korpuslingvistik och om att
undersöka ideologiska spår i språket
via korpuslingvistik.
Upplägg
Laborationen består av tre deluppgifter:
- Uppgift 1: Kvinnligt och manligt i språket - Samordningar
- Uppgift 2: Manliga och kvinnliga egenskaper uttryckta språkligt
- Uppgift 3: Fördomar eller varför säger man så?
Laborationerna är schemalagda i PC-pulen i hus
E, IDA. Valfri webbläsare kan användas varför det också går bra att arbeta hemma eller varsomhelst.
Förberedelser
- OBS! Viktigt Man kan prova BYU-systemet utan
lösenord men efter ca 10 sökningar blir man ombedd att registrera sig. För
att ha detta klart till labbtillfället bör du snarast göra följande:
Gå till BYU korpussida
http://www.americancorpus.org/ och klicka på Enter-knappen.
Längst till höger finns ett login-fält. Skriv in din epost-adress i fältet
EMAIL och tryck på LOG (IN). I den undre halvan av fönstret dyker det upp
ett meddelande som lyder:
"Sorry, but there is no entry for you in the registration database
Please click here to register."
Klicka på "click here" och registrera dig med ett eget lösenord.
- Läs igenom sid 109-123 ur Susan Hunstons bok Corpora in Applied Linguistics (delas ut på föreläsningen, ev. överblivna ex finns att
hämta utanför Lars rum.
Uppgift 1. Kvinnligt och manligt i språket -- Samordningar
I den här uppgiften ska ni använda Internet och korpusplatser på Internet för att
göra mer undersökande studier av hur språk används i olika sammanhang. Uppgiften
omfattar både engelska och svenska. Men eftersom korpusresurserna är
mer utvecklade för engelska ligger tonvikten på engelska.
Hypotes: Ordningen mellan delarna i en samordnad nominalfras är inte
slumpmässig. T.ex. kan ordningen visa på vad som anses eller har
ansetts vara viktigast eller haft högst status, och då hamna på första
position i en samordning. Om detta stämmer borde man alltså kunna undersöka
t.ex. samordningar med uttryck för kvinnliga och manliga företeelser. Om
det
manliga har värderats högst eller värderas högst borde det alltså finnas
fler uttryck av formen "MANLIGT och KVINNLIGT" än "KVINNLIGT
och MANLIGT". Undersök ett antal sådana här samordningar i olika
korpusar och på hela nätet och se om mönstret håller hela vägen. Använd Google Ngrams
för att se om det finns en historisk förändring under 1900-talet. Uttryck
man kan börja med är på engelska t.ex.
- man/woman (men/women etc.)
- boy/girl
- husband/wife
- brother/sister
- grandfather/grandmother
- father/daugher
- mother/son
- actor/actress
och på svenska t.ex.:
- man/kvinna ("man och kvinna", "män eller kvinnor"...)
- pojke/flicka
- make/maka
- man/hustru
- bror/syster
- kille/tjej
- morfar/mormor
- farfar/farmor,
- far/dotter (ev. pappa/dotter)
- mor/son (mamma/son)
- kille/tjej
- ...
Tänk också på att det finns fler konjunktioner än "och" och att det finns fler än en böjningsform av ord och uttryck.
Det betyder att ni bör kolla varianter som "män och kvinnor", "män eller
kvinnor" också.
Minst fem olika grundformspar ska testas på varje språk.
Korpusar
De korpusar som ska användas är följande:
För engelska:
- Internet (Google) för sökningar på wbben, och
- Google Ngrams, för sökning av historisk utveckling, och
- BYU:s korpussajt (här kan ni testa
både brittisk och amerikansk engelska
Obs! Om ni inte registrerat er förut kommer ni att få en begäran
om att registrera er. Gör i så fall det så kommer en länk för registreringen på eposten inom en stund.
För svenska:
- Internet (Google), och
- (Språkbanken (här får ni prova flera
olika subkorpusar, t.ex. olika pressamlingar, och romansamlingar).
Att göra:
- Sammanställ resultaten med frekvensinformation om de samordningar
ni testat i en tabell. Notera om det skett förändringar under perioden 1900-200.
- Minst fem olika grundformspar per språk ska testas (i ett
grundformspar ingår det att olika böjningsvarianter undersöks, t.ex.
ska ni som minimum testa singular- och pluralvarianter).
- Presentera resultaten för varje språk i en tabell.
För varje undersökt par ska ni ange använd korpus och frekvens. Notera ev
historisk förändring i en egen kolumn.
- Diskutera resultaten. Var de förväntade?
- Ser det olika ut i olika korpusar och för olika språk? Är det
skillnad mellan engelska och svenska?
Om ni tittar på Språkbanken: ser ni någon skillnad mellan svenska i olika textgenrer, t.ex. mellan
romaner och tidningstext?
- Finns det några mönster? Finns det fall när mönstret bryts? Det kan vara
lämpligt att se om parametrar som ålder och generationsgränser spelar roll.
Kan det i så fall finnas någon möjlig förklaring till det? Här kan ni behöva
att undersöka ytterligare exempelpar för att se om mönstret håller.
- För VG: Undersök om det syns några tydliga
skillnader mellan antingen (a) tidningstexter och skönlitteratur för ett givet språk, eller
(b) amerikansk och brittisk engelska. För (a) kan ni välja om ni vill göra
det för brittisk eller amerikansk engelska eller svenska.
Några tips för BYU-sökningar

Se till att ni använder "LIST"-alternativet och alternativet "FREQUENCY"
under SORTING. Ni behöver inte använda citationstecken i BYU-gränssnittet
när ni söker efter flerordsfraser, och det finns några andra fördelar
jämfört med Google:
- Ni kan söka på alla varianter på en gång genom att använda
hakparenteser:
- [girl] and [boy] betyder att sökmotorn söker efter alla
böjningsvarianter av girl och boy
- Ni kan söka variera konjunktion genom att använda lodstreck |:
- [girl] and|or [boy] betyder att sökmotorn söker efter alla
böjningsvarianter av girl och boy samt även efter kombinationer av
and/or.
- Ni kan få fram frekvenser i olika delar av korpusen med alternativet CHART
Uppgift 2. Manliga och kvinnliga egenskaper uttryckta språkligt
I den här uppgiften ska ni undersöka om det finns typiska egenskaper som
kopplas till manligt respektive kvinnligt. Eftersom egenskaper
språkligt sett oftast signaleras av adjektiv och handlingar
oftast av verb kan ni använda kombinationer av sökningar på ord med
ordklassfilter. Den här uppgiften görs enbart på engelska, och ni ska
undersöka ev. skillnader mellan amerikansk och brittisk engelska.
I den här uppgiften ska ni använda BYU Corpus-sajten
http://corpus.byu.edu/ och
både BYU Corpus of American English
och deras gränssnitt till
British
National Corpus (BNC).
Ett första steg är att försöka hitta mängder av ord som "kollokerar" med
ett visst
huvudord. Om vi testar med orden "boy" och "girl" i BYU Corpus of American
English
gör man så här:
- Markera "Compare" i Display-tabben.
- Skriv in sökordet ("boy" och "girl") i de två Word(s)-fältet.
- Klicka på "CONTEXT" och skriv in * (behövs alltid inte).
- Välj 1 eller 2 i första listrutan till höger om "CONTEXT" och "0" i sista
listrutan.
- Klicka på "POS LIST" och välj "adj.ALL".
(Innebär att sökningen bara sker efter adjektiv som finns ett eller två
ord
före "boy".)
- Välj genre (IGNORE för alla genrer, Spoken för talspråk, Newspaper för
tidningstext, osv)
- Välj "RELEVANCE" efter SORT, och (MINIMUM) FREQUENCY eller MUTUAL INFO "3" (markera kryssrutan).
- Klicka på SEARCH.

I resultatfönstret visas kollokationsresultatet sorterat antingen efter frekvens eller MI-måttet
(Mutual Information) som anger ett rankning efter relevans.
Alla ord under Context är ord som förekommer 1 eller 2 ord
före sökordet (i det här fallet 'boy'). Kolumnen frekvens anger hur ofta
orden förekommer ihop med sökordet, medan kolumnen SCORE anger hur
starkt associerade de är.
När ni ska studera hur ett ord används i mer detalj
klickar ni på siffran i kolumnen W1 eller W2
och får då upp konkordanser för ordet ifråga med kontextordet.
Tips för undersökningen:
-
Fokusera på adjektiv (som i exemplet ovan).
-
Försök gruppera resultaten i olika semantiska
kategorier. T.ex.
-
ålder
-
utseende
-
etnicitet (ursprung)
-
postiva egenskaper
-
negativa egenskaper
-
Finns det några mönster? Finns det några
skillnader mellan amerikansk och
brittisk engelska?
- Ordningen är inte så viktig, men det räcker om ni tar med de trettio-fyrtio första
och ignorerar räknar alla som slutar på "year-old" som ett och samma (90-year-old, 70-year-old...)
-
Framförallt ska ni använda
kollokationsanalyserna som grund.
Att göra:
- Analysera ordparen man-woman, boy-girl, father-mother,i både amerikansk och brittisk engelska.
- Sammanställ sökresultaten för egenskaper i en tabell.
- Gruppera dessa efter semantiska kriterier (t.ex. utseende, intellektuell egenskap,
ålder, positivt, negativt, osv.).
- Använd idéer från
Hunstons artikel om Ideology in a general corpus.
- Diskutera resultaten. Finns det några mönster? Vad skiljer mellan
amerikansk och brittisk engelska?
Uppgift 3. Fördomar eller varför säger man så?
Det här är en fri uppgift där vi vill att ni försöker fundera över uttryck
som:
- kvinnlig VD/manlig VD
- kvinnlig hockeyspelare/manlig hockeyspelare
- manlig förskollärare/kvinnlig förskollärare
- tvåbarnsmamma/tvåbarnspappa
- ensamstående pappa/mamma
- kvinnlig bilmekaniker/manlig bilmekaniker
- kvinnlig författare/manlig författare
Fundera över vad uttrycken står för. Vilket borde vara vanligast i
samhället i stort? T.ex. finns det fler kvinnliga direktörer än manliga
och speglas detta i vilket uttryck som är vanligast?
Exemplen ovan är bara några exempel på attityder som speglas i språket.
Det finns fler områden
än skillnader i kön. T.ex. kan ord som signalerar
etnicitet och olika minoriteter också undersökas.
Att göra:
- Analysera uttryckens frekvens ovan med hjälp av Google och/eller Språkbanken.
- Sammanställ
sökresultaten i en tabell.
- Resonera kring möjliga förklaringar till varför det ser ut som det
gör. Använd idéer från
Hunstons artikel om Ideology in a general corpus.
Betygssättning
För betyget
G:
Ni ska i er rapport ha presentera era kvantitativa
resultat och en diskussion kring dessa
resultat med jämförelser mellan
manligt och kvinnligt, och i förkommande fall mellan olika
korpusar och
språk.
För betyget VG:
Ni skall uppfylla kraven för betyget G ovan, gjort en noggrann och
insiktsfull analys och för båda
momenten givit tydliga kopplingar till
anvisad litteratur. För uppgift 1 ska ni också ha gjort VG-uppgiften. För uppgift 3 ska ni utökat uppgiften med minst 7 uttryck utöver dem som är angivna.
Redovisning
Laborationen redovisas genom att ni lämnar in en
rapport med tre delar (för uppgift 1, 2 och 3).
Rapporten lämnas in både elektroniskt och i pappersformat till Lars.
Era insamlade data behöver inte skrivas ut och infogas i labbrapporten
utan det räcker med att ni skickar den fil (kan vara en Excel-fil) där ni
har era data som en bilaga med e-post, gärna i samma e-postmeddelande
som själva rapporten.
Referenser
- Ylva Berglund. Korpuslingvistik på Internet - Resurser för språkinlärande.
2000.
http://hem.passagen.se/ylvaberg/ITDAG.htm.
- Utdrag ur Susan Hunston, Corpora in Applied Linguistics, sid 109-123, 2002.
Upphovsman till denna laboration är Magnus Merkel. Laborationen är lätt omgjord till VT 2011
.