Seminarium och laborationer i språkteknologi för studenter i Medie- och kommunikationsvetenskap
Deadline för redovisning 4 maj
Lämna bar in en fil i TEAMS under rubriken Filer för er grupp.
Lärare: Arne Jönsson, Lars Ahrenberg, Daniel Holmer, NlpLab, IDA
Seminarium
Tid: 21 april 10.15-12
Plats: TEAMS
Bilder från introduktionsföreläsningen.
Laborationer
Tid: 23 april 10.15-12
Plats: TEAMS
Plats: TEAMS
Före seminariet
- Läs artiklarna i litteraturlistan nedan
- Pröva gärna på de angivna systemen och övningarna
Litteraturlista
De två första artiklarna är introduktioner med något olika utgångspunkter. Den första är tekniskt orienterad och ger en översikt av olika tillämpningar av automatisk textanalys. Den andra kopplar ihop språkteknologi och text mining till humanistisk forskning med främst litteraturvetenskapliga exempel.
De två andra artiklarna är exempel på fallstudier med inriktning på extraktion av relevanta data ur digitaliserade dokument.
- Kapitel 1 ur ChengXiang Zhai and Sean Massung, 'Text Data Management and Analysis', Morgan & Claypool, 2016: 3-13.
- Nina Tahmasebi and Simon Hengchen, 'The Strengths and Pitfalls of Large-Scale Text Mining for Literary Studies', Samlaren, 2019.
- J. Jarlbrink, P. Snickars och C. Colliander, 2016. Maskinläsning: om massdigitalisering, digitala metoder och svensk dagspress
- Eva Pettersson, Jonas Lindström, Benny Jacobsson, Rosemarie Fiebranz, 2016: HistSearch - Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text. Proceedings of the 3rd HistoInformatics Conference, Krakow, Poland, 11 July, 2016.
Laborationer
Laborationerna utförs i grupper om 2 studenter. Enklast är det att de befintliga uppsatsparen labbar ihop.
Det är viktigt att ni kommer väl förbredda till de 2 laborationstillfällena. Läs igenom anvisningarna och försök gärna göra laborationerna på egen hand. Mycket i laboration 1 kan göras i förväg, för laboration 2 kan man förbereda sig genom att installera BootCat på sin egen dator och därefter prova att skapa sin egen korpus enligt anvisningarna. Laboration 3 kan också köras direkt.
Vi kommer att finnas tillgängliga för handledning i TEAMS under de två laborationspassen och där har varje grupp en egen kanal för att ställa frågor.
Länkar till laborationerna:
- Prova på verktyg och dataset på Språkbanken
- Samla in och analysera eget dataset
- Klassificering av texter. Följ länk till binder, OBS! Det tar tid, kanske en minut eller mer, innan systemet kommer upp.
Redovisning
Momentet är obligatoriskt och redovisas genom att, i TEAMS, ladda upp en fil med svar på de frågor som finns under respektive labb.
Omfattning ungefär en halv till en A4-sida per laboration är tillräckligt. Det viktiga är att ni provat på att använda de olika språkteknologiska verktygen och redovisar era erfarenheter av det.
Deadline för redovisning 4 maj
Länkar till språkteknologiska resurser
Välkomna!
Arne Jönsson, Lars Ahrenberg
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2021-04-27