Seminarium om Big data, Text mining och digitala metoder
Ingående i kursen Kritiska och reflexiva förhållningssätt till kulturvetenskaplig teori och metod vid Tema Q
Seminarieledare: Arne Jönsson och Lars Ahrenberg, NlpLab, IDA
Tid: onsdag 13 maj 2020 kl. 13-15
Plats: Zoom
Meeting ID: 679 1596 9194
Password: 576246
Före seminariet
- Läs artiklarna i litteraturlistan nedan
- Pröva på de angivna systemen och övningarna
Vi tänker oss att seminariet omfattar en kort presentation av deltagarna, en kort introduktion till ämnet av Arne och Lars, och därefter en diskussion av de anvisade artiklarna (i första hand) och övningarna.
Bilder från seminariets introduktion
Litteraturlista
De två första artiklarna är introduktioner med något olika utgångspunkter. Den första är tekniskt orienterad och ger en översikt av olika tillämpningar av automatisk textanalys. Den andra kopplar ihop språkteknologi och text mining till humanistisk forskning med främst litteraturvetenskapliga exempel.
De två andra artiklarna är exempel på fallstudier med inriktning på extraktion av relevanta data ur digitaliserade dokument. Sista artikeln presentar en fallstudie gjord vid LiU.
- Kapitel 1 ur ChengXiang Zhai and Sean Massung, 'Text Data Management and Analysis', Morgan & Claypool, 2016: 3-13.
- Nina Tahmasebi and Simon Hengchen, 'The Strengths and Pitfalls of Large-Scale Text Mining for Literary Studies', Samlaren, 2019.
- J. Jarlbrink, P. Snickars och C. Colliander, 2016. Maskinläsning: om massdigitalisering, digitala metoder och svensk dagspress
- Eva Pettersson, Jonas Lindström, Benny Jacobsson, Rosemarie Fiebranz, 2016: HistSearch - Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text. Proceedings of the 3rd HistoInformatics Conference, Krakow, Poland, 11 July, 2016.
- Lars Ahrenberg, Henrik Danielsson, Staffan Bengtsson, Hampus Arvå, Lotta Holme, Arne Jönsson, Studying Disability Related Terms with Swe-Clarin Resources, Proceedings of the CLARIN Annual meeting, 2019
System och övningar
- Prova på verktyg och dataset på Språkbanken
- Samla in och analysera eget dataset
- Klassificering av texter. Följ länk till binder, OBS! Det tar tid, kanske en minut eller mer, innan systemet kommer upp.
Länkar till språkteknologiska resurser
Välkomna!
Arne Jönsson, Lars Ahrenberg
Sidansvarig: Lars Ahrenberg
Senast uppdaterad: 2020-05-11