Informationsansvarig: Lars Ahrenberg, fornamn.efternamn@liu.se
Sidan uppdaterades senast: 2011-04-01
LiU » IDA » Grundutbildning » Kurs » 729G09 » vt11 » Lab4 » Lab 4


A till Ö | Andra sökmöjligheter

[ Hoppa direkt till textinnehållet ]
Gå till LiU.se

729G09 (VT 2012)

Laborationer

Övningar

729G09 Språkvetenskaplig databehandling

Lab 4


 

Laboration 4: Korpuslingvistik

Syfte

Den här laborationen är friare än de tidigare laborationerna och är mer projektorienterad. Den ska ge insikter om korpuslingvistik och om att undersöka ideologiska spår i språket via korpuslingvistik.

 

Upplägg

Laborationen består av tre deluppgifter:

  • Uppgift 1: Kvinnligt och manligt i språket - Samordningar
  • Uppgift 2: Manliga och kvinnliga egenskaper uttryckta språkligt
  • Uppgift 3: Fördomar eller varför säger man så?

Laborationerna är schemalagda i PC-pulen i hus E, IDA. Valfri webbläsare kan användas varför det också går bra att arbeta hemma eller varsomhelst.

Förberedelser

  • OBS! Viktigt Man kan prova BYU-systemet utan lösenord men efter ca 10 sökningar blir man ombedd att registrera sig. För att ha detta klart till labbtillfället bör du snarast göra följande: Gå till BYU korpussida http://www.americancorpus.org/ och klicka på Enter-knappen. Längst till höger finns ett login-fält. Skriv in din epost-adress i fältet EMAIL och tryck på LOG (IN). I den undre halvan av fönstret dyker det upp ett meddelande som lyder:

    "Sorry, but there is no entry for you in the registration database Please click here to register."

    Klicka på "click here" och registrera dig med ett eget lösenord.

  • Läs igenom sid 109-123 ur Susan Hunstons bok Corpora in Applied Linguistics (delas ut på föreläsningen, ev. överblivna ex finns att hämta utanför Lars rum.

 

Uppgift 1. Kvinnligt och manligt i språket -- Samordningar

I den här uppgiften ska ni använda Internet och korpusplatser på Internet för att göra mer undersökande studier av hur språk används i olika sammanhang. Uppgiften omfattar både engelska och svenska. Men eftersom korpusresurserna är mer utvecklade för engelska ligger tonvikten på engelska.

Hypotes: Ordningen mellan delarna i en samordnad nominalfras är inte slumpmässig. T.ex. kan ordningen visa på vad som anses eller har ansetts vara viktigast eller haft högst status, och då hamna på första position i en samordning. Om detta stämmer borde man alltså kunna undersöka t.ex. samordningar med uttryck för kvinnliga och manliga företeelser. Om det manliga har värderats högst eller värderas högst borde det alltså finnas fler uttryck av formen "MANLIGT och KVINNLIGT" än "KVINNLIGT och MANLIGT". Undersök ett antal sådana här samordningar i  olika korpusar och på hela nätet och se om mönstret håller hela vägen. Använd Google Ngrams för att se om det finns en historisk förändring under 1900-talet. Uttryck man kan börja med är på engelska t.ex.

  • man/woman (men/women etc.)
  • boy/girl
  • husband/wife
  • brother/sister
  • grandfather/grandmother
  • father/daugher
  • mother/son
  • actor/actress

och på svenska t.ex.:

  • man/kvinna ("man och kvinna", "män eller kvinnor"...)
  • pojke/flicka
  • make/maka
  • man/hustru
  • bror/syster
  • kille/tjej
  • morfar/mormor
  • farfar/farmor,
  • far/dotter (ev. pappa/dotter)
  • mor/son (mamma/son)
  • kille/tjej
  • ...

Tänk också på att det finns fler konjunktioner än "och" och att det finns fler än en böjningsform av ord och uttryck. Det betyder att ni bör kolla varianter som "män och kvinnor", "män eller kvinnor" också.

Minst fem olika grundformspar ska testas på varje språk.

Korpusar

De korpusar som ska användas är följande:

För engelska:
  1. Internet (Google) för sökningar på wbben, och
  2. Google Ngrams, för sökning av historisk utveckling, och
  3. BYU:s korpussajt (här kan ni testa både brittisk och amerikansk engelska

Obs! Om ni inte registrerat er förut kommer ni att få en begäran om att registrera er. Gör i så fall det så kommer en länk för registreringen på eposten inom en stund.

För svenska:

  1. Internet (Google), och
  2. (Språkbanken (här får ni prova flera olika subkorpusar, t.ex. olika pressamlingar, och romansamlingar).

Att göra:

  1. Sammanställ resultaten med frekvensinformation om de samordningar ni testat i en tabell. Notera om det skett förändringar under perioden 1900-200.
    • Minst fem olika grundformspar per språk ska testas (i ett grundformspar ingår det att olika böjningsvarianter undersöks, t.ex. ska ni som minimum testa singular- och pluralvarianter).
    • Presentera resultaten för varje språk i en tabell. För varje undersökt par ska ni ange använd korpus och frekvens. Notera ev historisk förändring i en egen kolumn.
  2. Diskutera resultaten. Var de förväntade?
    • Ser det olika ut i olika korpusar och för olika språk? Är det skillnad mellan engelska och svenska? Om ni tittar på Språkbanken: ser ni någon skillnad mellan svenska i olika textgenrer, t.ex. mellan romaner och tidningstext?
    • Finns det några mönster? Finns det fall när mönstret bryts? Det kan vara lämpligt att se om parametrar som ålder och generationsgränser spelar roll. Kan det i så fall finnas någon möjlig förklaring till det? Här kan ni behöva att undersöka ytterligare exempelpar för att se om mönstret håller.
    • För VG: Undersök om det syns några tydliga skillnader mellan antingen (a) tidningstexter och skönlitteratur för ett givet språk, eller (b) amerikansk och brittisk engelska. För (a) kan ni välja om ni vill göra det för brittisk eller amerikansk engelska eller svenska.

Några tips för BYU-sökningar

Se till att ni använder "LIST"-alternativet och alternativet "FREQUENCY" under SORTING. Ni behöver inte använda citationstecken i BYU-gränssnittet när ni söker efter flerordsfraser, och det finns några andra fördelar jämfört med Google:

  • Ni kan söka på alla varianter på en gång genom att använda hakparenteser:
  • [girl] and [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy
  • Ni kan söka variera konjunktion genom att använda lodstreck |:
  • [girl] and|or [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy samt även efter kombinationer av and/or.
  • Ni kan få fram frekvenser i olika delar av korpusen med alternativet CHART

 

Uppgift 2. Manliga och kvinnliga egenskaper uttryckta språkligt

I den här uppgiften ska ni undersöka om det finns typiska egenskaper som kopplas till manligt respektive kvinnligt. Eftersom egenskaper språkligt sett oftast signaleras av adjektiv och handlingar oftast av verb kan ni använda kombinationer av sökningar på ord med ordklassfilter. Den här uppgiften görs enbart på engelska, och ni ska undersöka ev. skillnader mellan amerikansk och brittisk engelska.

I den här uppgiften ska ni använda BYU Corpus-sajten http://corpus.byu.edu/ och både BYU Corpus of American English och deras gränssnitt till British National Corpus (BNC).

Ett första steg är att försöka hitta mängder av ord som "kollokerar" med ett visst huvudord. Om vi testar med orden "boy" och "girl" i BYU Corpus of American English gör man så här:

  1. Markera "Compare" i Display-tabben.
  2. Skriv in sökordet ("boy" och "girl") i de två Word(s)-fältet.
  3. Klicka på "CONTEXT" och skriv in * (behövs alltid inte).
  4. Välj 1 eller 2 i första listrutan till höger om "CONTEXT" och "0" i sista listrutan.
  5. Klicka på "POS LIST" och välj "adj.ALL". (Innebär att sökningen bara sker efter adjektiv som finns ett eller två ord
    före "boy".)
  6. Välj genre (IGNORE för alla genrer, Spoken för talspråk, Newspaper för tidningstext, osv)
  7. Välj "RELEVANCE" efter SORT, och (MINIMUM) FREQUENCY eller MUTUAL INFO "3" (markera kryssrutan).
  8. Klicka på SEARCH.

I resultatfönstret visas kollokationsresultatet sorterat antingen efter frekvens eller MI-måttet (Mutual Information) som anger ett rankning efter relevans. Alla ord under Context är ord som förekommer 1 eller 2 ord före sökordet (i det här fallet 'boy'). Kolumnen frekvens anger hur ofta orden förekommer ihop med sökordet, medan kolumnen SCORE anger hur starkt associerade de är.

När ni ska studera hur ett ord används i mer detalj klickar ni på siffran i kolumnen W1 eller W2 och får då upp konkordanser för ordet ifråga med kontextordet.

Tips för undersökningen:

  • Fokusera på adjektiv (som i exemplet ovan).

  • Försök gruppera resultaten i olika semantiska kategorier. T.ex.

    • ålder

    • utseende

    • etnicitet (ursprung)

    • postiva egenskaper

    • negativa egenskaper

  • Finns det några mönster? Finns det några skillnader mellan amerikansk och brittisk engelska?

  • Ordningen är inte så viktig, men det räcker om ni tar med de trettio-fyrtio första och ignorerar räknar alla som slutar på "year-old" som ett och samma (90-year-old, 70-year-old...)
  • Framförallt ska ni använda kollokationsanalyserna som grund.

Att göra:

  1. Analysera ordparen man-woman, boy-girl, father-mother,i både amerikansk och brittisk engelska.
  2. Sammanställ sökresultaten för egenskaper i en tabell.
  3. Gruppera dessa efter semantiska kriterier (t.ex. utseende, intellektuell egenskap,
    ålder, positivt, negativt, osv.).
  4. Använd idéer från Hunstons artikel om Ideology in a general corpus.
  5. Diskutera resultaten. Finns det några mönster? Vad skiljer mellan amerikansk och brittisk engelska?

 

Uppgift 3. Fördomar eller varför säger man så?

Det här är en fri uppgift där vi vill att ni försöker fundera över uttryck som:

  • kvinnlig VD/manlig VD
  • kvinnlig hockeyspelare/manlig hockeyspelare
  • manlig förskollärare/kvinnlig förskollärare
  • tvåbarnsmamma/tvåbarnspappa
  • ensamstående pappa/mamma
  • kvinnlig bilmekaniker/manlig bilmekaniker
  • kvinnlig författare/manlig författare

Fundera över vad uttrycken står för. Vilket borde vara vanligast i samhället i stort? T.ex. finns det fler kvinnliga direktörer än manliga och speglas detta i vilket uttryck som är vanligast?

Exemplen ovan är bara några exempel på attityder som speglas i språket. Det finns fler områden
än skillnader i kön. T.ex. kan ord som signalerar etnicitet och olika minoriteter också undersökas.

Att göra:

  1. Analysera uttryckens frekvens ovan med hjälp av Google och/eller Språkbanken.
  2. Sammanställ sökresultaten i en tabell.
  3. Resonera kring möjliga förklaringar till varför det ser ut som det gör. Använd idéer från Hunstons artikel om Ideology in a general corpus.

Betygssättning

För betyget G:

Ni ska i er rapport ha presentera era kvantitativa resultat och en diskussion kring dessa resultat med jämförelser mellan manligt och kvinnligt, och i förkommande fall mellan olika korpusar och språk.

För betyget VG:

Ni skall uppfylla kraven för betyget G ovan, gjort en noggrann och insiktsfull analys och för båda momenten givit tydliga kopplingar till anvisad litteratur. För uppgift 1 ska ni också ha gjort VG-uppgiften. För uppgift 3 ska ni utökat uppgiften med minst 7 uttryck utöver dem som är angivna.

Redovisning

Laborationen redovisas genom att ni lämnar in en rapport med tre delar (för uppgift 1, 2 och 3). Rapporten lämnas in både elektroniskt och i pappersformat till Lars. Era insamlade data behöver inte skrivas ut och infogas i labbrapporten utan det räcker med att ni skickar den fil (kan vara en Excel-fil) där ni har era data som en bilaga med e-post, gärna i samma e-postmeddelande som själva rapporten.

Referenser

  • Ylva Berglund. Korpuslingvistik på Internet - Resurser för språkinlärande. 2000. http://hem.passagen.se/ylvaberg/ITDAG.htm.
  • Utdrag ur Susan Hunston, Corpora in Applied Linguistics, sid 109-123, 2002.

Upphovsman till denna laboration är Magnus Merkel. Laborationen är lätt omgjord till VT 2011

.