Insamling och enkel analys av egen korpus

I den här laboratoionen skall ni skapa en egen korpus och sen göra några enkla analyser av den.

Man kan samla in en egen korpus på flera olika sätt. Det vanligaste är att på något sätt samla in webbsidor. Detta innefattar två huvudmoment, att hitta och samla in sidorna samt att plocka ut de intressanta delarna, oftast vill man ha texten på sidan utan övrig sidinformation. Det finns flera olika färdiga verktyg för korpusinsamling, för en översitk över några verktyg se här, som oftast förutsätter att man vet ungefär vilka sidor man vill samla in och går de igenom hela webbplatsen och samlar in alla sidorna, man pratar om att använda en webcrawler på engelska och att använda en spindel på svenska.

Ett enkelt sätt att samla ihop en egen korpus, som vi skall använda i den här labben, är att spindla nätet genom att ange ett antal nyckelord och sen låta en sökmotor hitta relevanta länkar som spindeln sen använder för att söka igenom internet och slutligen filtrerar ut texten. Det verktyg vi använder heter BootCat och arbetar i ett antal steg som finns väl beskrivna i en enkel tutorial som ni kan följa och som förklaras nedan.

Installera

Börja med att ladda ner och installera BootCat på er dator via följande länk.

Bestämma plats för korpusen

Starta BootCat. För att kunna analysera er korpus med de verktyg vi använder i kursen är det viktigt att ni sparar den i Dropbox. Detta gör man genom att i menyn Edit välja Options. Då får man upp en ruta där man kan välja var man vill placera sin korpus, tryck på Browse och leta sen upp er Dropbox. Stäng Options-rutan med Close och tryck Next.

Projektdefinition

I nästa ruta skall ni ge projektet ett namn samt tala om vilket språk det är på. Resten kan lämnas orört. Klicka sen på Next.

Välja varifrån data skall hämtas

I nästa steg kommer möjligheten att välja var vi hittar våra data. Här väljer vi Simple mode.

Välj sökmotor

Man kan sen välja sökmotor, t.ex. Google. Fortsätt med Next.

Ange söktermer

Nu är det dags att fundera över vad det är man vill använda för söktermer för att skapa sin korpus. Dessa ligger sen till grund för hur sökmotorn identifierar vilka webbsidor som skall hämtas så det lönar sig att fundera till lite på vilka termer man vill använda. Man skriver in dem en per rad, och är det flerordsuttryck skriver man dem på samma rad och sen Next.

Generera tupler

För att göra sökningen bättre vill man kombinera de olika sötermerna i tupler av olika längd. Initialt skapas ett antal tupler av olika längd, antalet tupler och längden beror på hur många söktermer som skapades i steget innan. Trycker man på Generate tuples skapas ett antal tupler. I vårt exempel skapdes 10 tupler av längd 3 . Om man ändrat tupellängd eller antal tupler måste man explicit tala om att man vill generera nya tupler genom att trycka på Generate tuples. Man kan också experimentera med vilka tupler man vill ha med genom att klicka i kryssrutan för varje tupel eller manuallt redigera varje rad genom att klicka på Edit tuples och sen ta bort eller lägga till ord precis som man vill. Fortsätt med Next.

Val av webbplatser

I nästa steg kan man välja vilka webbplatser man vill ha med. Initialt väljer de värden som finns men lägger till att vi söker svenska webbplatser, .se. Notera texten i rött där det står att du måste trycka på Generate queries.

Söka webbsidor

Nu är det dags att skapa korpusen genom att använda en sökmotor i en webbläsare. Först ombeds du öppna frågorna i en webbläsare, om man väljer Open ALL in Browser får man upp en varningsruta om det är ok att fortsätta. Oftast är det bara att trycka Yes. Har man många frågor kan man kanske ta dem en och en men i vårt fall går det bra att ta alla på en gång och det kommer upp en ny ruta som talar om var frågorna sparas. Bara tryck Ok.

I nästa steg måste man spara varje sökning i mappen queiries, den som angavs i förra rutan. Detta är tyvärr lite bökigt. Först går man in i webbläsaren under Arkiv. Där väljer man alternativet Spara, Spara sida som.. om man använder webbläsaren Chrome på en Mac, och väljer den mapp som heter queries. Första gången kan man behöva navigera runt men därefter är det bara att trycka på kortkommandot för att spara, command S på en Mac, så går det fortare. När alla frågor sparats trycker man på Collect URLs och kommer till en ny ruta där man kan välja bort vissa källor genom att klicka i kryssrutorna. När du är klar tryck på Next och du är klar för själva korpusinsamlingen.

Samla in korpusen

Nu är det bara att trycka på Build corpus och efter ett tag finns det en korpus. Det kan ta lite tid men det finns en tidslinje som talar om hur det går.
Man kan sen titta på sin korpus genom att klicka i rutan Open corpus folder och då hitta en massa mappar och filer med allt som skapats under processen.

Analys

För vår del är det korpusen som är mest intressant, det som finns i mappen corpus. Den analyseras sedan med språkteknologiska verktyg. En enkel analys som kan räkna ord i utvalda källor och visa texten finns här. Det tar lång tid att starta sidan första gången.

Page responsible: arnjo@ida.liu.se
Last updated: 2020-05-08