Thesis Projects

We are happy to supervise and/or examine Master’s theses related to natural language processing and text mining – both internal projects (related to our own research) and external projects (commissioned by a company or organisation from the public sector).

Spårning i text

I det här projektet vill vi ta fram och testa NLP-teknik för att följa diskussionen om ett förslag över tid. Förslaget kan till exempel komma från en statlig utredning, sedan skickas ut på remiss och kommenteras av olika remissinstanser och därefter eventuellt läggas fram i en regeringsproposition i mer eller mindre modifierad form. Denna process kan följas i de texter som produceras: utredningen (oftast en SOU), remissvaren, propositionen.

En användare, som kan vara en journalist eller en forskare, tänks ha ett konkret förslag att utgå ifrån. Han eller hon kan tänkas vilja få ut:

Alla ställen i texterna där förslaget är formulerat.
Närliggande text som anger argument för eller emot förslaget.

Det första kräver teknik för parafrasering, dvs. metoder som kan känna igen samma innehåll oavsett hur det formulerats. En sådan teknik är meningsinbäddning (sentence transformers) men det finns många andra som kan undersökas.

Det andra resultatet kräver teknik för argumentigenkänning som ofta bygger på klassificering. Dels vill man kunna skilja på meningar som uttrycker argument och sådana som inte gör det, dels vill man givet två meningar kunna avgöra om de ingår i någon form av argument eller inte. Om de gör det kan det åtminstone ske på två sätt: antingen att mening 1 stöder mening 2 eller att mening 1 motsäger mening 2.

Resultaten ska tillämpas på en befintlig korpus med utredning, remissvar och propositioner. Det kan ingå i projektet att skapa fler korpusar med samma uppbyggnad för träning och testning.

Tänkt omfattning på arbetet är 30hp vilket innebär parafrasering och åtminstone delar av argumentextraktionen. För 16hp kan arbetet begränsas till antingen parafrasering eller argumentigenkänning.

Kontakt: Lars Ahrenberg

Teknik för automatisk textanpassning

Automatisk textanpassning innebär att skriva om texter så att de blir enklare att läsa för personer med olika läs- och skrivsvårigheter. I vårt projekt fokuserar vi på personer med dyslexi eller utvecklingsstörning, men undersöker också normalläsande. Just nu har vi följande möjliga projekt:

Utveckling av metod för att undersöka textanpasning för personer med dyslexi. I ett tidigare projekt har vi utvecklat en metod, och ett instrument, för att undersöka hur elever med utvecklingsstörda uppfattar anpassade texter. I detta projekt behöver vi utveckla en metod och instrument för att på samma sätt undersöka hur personer med dyslexi skall undersökas. Detta innefattar också att göra en första pilotstudie av det utvecklade instrumentet.
Skapa syntetisk korpus för modellbaserad textförenkling. Modellbaserad textförenkling innebär att man tränar ett neuralt nätverk på en parallel korpus bestående av normalsvenska meningar och förenklade meningar. Vi har en sådan korpus men den är alldeles för liten och skulle därför vilja skapa en större genom att syntetiskt utöka den.
Styckesbaserad abstraktiv textsammanfattning. Abstraktiv textsammanfattning innebär att skariva nya meningar utifrån en modell som tränats på texter, och dess sammanfattningar. Just nu har vi en sådan som fungerar på hela texter men skulle vilja använda den på stycken vilket rent tekniskt är trivialt. Uppgiften innebär därför främst att undersöka kvaliteten på de abstraktiva sammanfattningar som blir resultatet av att begränsa sammanfattaren till stycken snarare än hela texter och att eventuellt undersöka olika sätt att träna om modellen för ett få bättre resultat.
Omdesign av Friendlyreader. Freindlyreader är en tjänst där vi samlat alla våra verktyg för textanpassning, automatisk textsammanfattning, textfröenkling, synonymutbyte samt textkomplexitetmätningar. Tjänsten finns upp och fungerar men den skulle behöva en bättre design, som också anpassats till våra målgrupper.
Hur upplevs textanpassningar av typiska läsare. Vi behöver undersöka hur olika typer av textanpassningar uppfattas av typiska läsare.
Testa elever med utvecklingsstörning. Det instrument som utvecklats för att undersöka hur personer med utvecklingsstörning uppfattar anpassade texter skall användas för att göra tester på personer med utvecklingsstörning.
Utveckling och utvärdering av modul för synonymhantering. Synonymerna skall vara ord som på något sätt är enklare att förstå, de kan vara vanligare, kortare, mer prototypiska etc. Man kan också vilja ge dem ett epitet, t.ex. skriva staden Madrid istället för bara Madrid, och man vill undvika tvetydiga synonymer och förkortningar etc. Arbetet innebär att implementera ett flertal olika tekniker för synonymutbyte i textanpassningstjänsten friendlyreader och att också utvärdera dem på barn med utvecklingsstörning.

Kontaktinfo: Arne Jönsson, arne.jonsson@liu.se

Completed projects

Rebecca Lindblom.
News Value Prediction with Textual Features and Machine Learning.
Commissioned by iMatrics AB.

Pontus Svensson.
Automatic Captioning for News Articles.
Commissioned by Consid AB.

Robin Ellgren.
Exploring Emerging Entities and Named Entity Disambiguation in News Articles.
Commissioned by iMatrics AB.

Teodor Riddarhaage.
Natural Language Processing and Machine Learning for Web Page Segmentation.
Commissioned by Opera Software AB.

Jesper Hedlund and Emma Nilsson Tengstrand.
Can the Text of Authors’ Books Help Predict how Similar they are as Authors?
Commissioned by Storytel AB.

Alexander Häger.
En utvärdering av kontext-medvetna rekommendationssystem inom musik.
Commissioned by Spotify, Boston.

Ludvig Westerdahl.
Predicting Stock Movements using Text Analysis on Quarterly Reports.
Master’s thesis, 2020. Commissioned by Redeye AB.

Min-Chun Shih.
Exploring Cross-lingual Sublanguage Classification with Multi-lingual Word Embeddings.
Master’s thesis, 2020.

Ludvig Noring.
Predicting News Article Popularity.
Master’s thesis, 2020. Commissioned by Schibsted Media Group.

Simon Keisala.
Using a Character-Based Language Model for Caption Generation.
Master’s thesis, 2019.

Harald Pettersson.
Sentiment Analysis and Transfer Learning Using Recurrent Neural Networks: An Investigation of the Power of Transfer Learning.
Master’s thesis, 2019. Commissioned by Findwise AB.

Harald Grant.
Extractive Multi-Document Summarization of News Articles.
Master’s thesis, 2019. Commissioned by Schibsted Media Group.

Johannes Palm Myllylä.
Domain Adaptation for Hypernym Discovery via Automatic Collection of Domain-Specific Training Data.
Master’s thesis, 2019. Commissioned by Fodina Language Technology AB.

Max Lund.
Duplicate Detection and Text Classification on Simplified Technical English.
Master’s thesis, 2019. Commissioned by Etteplan AB.

Anna-Katharina Fürgut.
Mining Symptom Phrases within Free-Text Answers to Anamnesis Questionnaires.
Master’s thesis, 2019. Commissioned by Doctrin AB.

Milda Poceviciute.
Machine Learning Framework for Automated Case Assignment of Radiology Report Requests.
Master’s thesis, 2019. Commissioned by Sectra AB.

Gustav Gränsbo.
Word Clustering in an Interactive Text Analysis Tool.
Master’s thesis, 2019. Commissioned by Gavagai AB.

Daniel Roxbo.
A Detailed Analysis of Semantic Dependency Parsing with Deep Neural Networks.
Master’s thesis, 2019.

Sanne Ingvarsson.
Using Machine Learning to Learn from Bug Reports.
Master’s thesis, 2019. Commissioned by Sectra AB.

Oscar Johansson.
Weight Estimation and Evaluation of User Suggestions in Mobile Browsing.
Master’s thesis, 2019. Commissioned by Opera Software AB.

Alice Reinaudo.
Determining Book Topics with Large-Scale Multi-Label Hierarchical Classification.
Master’s thesis, 2019. Commissioned by Storytel AB.

Fredrik Öhrström.
Cluster Analysis with Meaning: Detecting Texts that Convey the Same Message.
Master’s thesis, 2019. Commissioned by Etteplan AB.

Sijin Cheng.
Relevance Feedback-Based Optimization of Search Queries for Patents.
Master’s thesis, 2019. Commissioned by IamIP Sverige AB.

Riley Capshaw.
Relation Classification using Semantically-Enhanced Syntactic Dependency Paths.
Master’s thesis, 2019.

Jesper Bäck.
Domain Similarity Metrics for Predicting Transfer Learning Performance.
Master’s thesis, 2018. Commissioned by Sectra AB.

Lina Gunarsson.
Semiautomatic De-Identification of Patient Data.
Master’s thesis, 2018. Commissioned by Sectra AB.

Justus Johansson-Lindkvist.
Automatic De-Identification of Personally Identifiable Information.
Master’s thesis, 2018. Commissioned by Sectra AB.

Simon Lindblad.
Labeling Clinical Reports with Active Learning and Topic Modeling.
Master’s thesis, 2018. Commissioned by Sectra AB.

Francesco Cucari.
Development of an Artificial Intelligence System for Localizing Bugs in Large Industrial Software Projects.
Master’s thesis, 2018. Commissioned by Ericsson AB.

Nils Axelsson.
Dynamic Programming Algorithms for Semantic Dependency Parsing.
Master’s thesis, 2017.

Jesper Segeblad.
Putting a Spin on SPINN: Representations of Syntactic Structure in Neural Network Sentence Encoders for Natural Language Inference.
Master’s thesis, 2017.

Zonghan Wu.
Neural Networks for Dependency Parsing.
Master’s thesis, 2016.

Sophie Joelsson.
Developing a Web Application: A Usability Approach.
Master’s thesis, 2015.

Bachelor’s theses (15 credits)

Completed projects

Joakim Gylling.
Transition-Based Dependency Parsing with Neural Networks.
Bachelor’s thesis, 2017.

Wiktor Strandqvist.
Neural Networks for Part-of-Speech Tagging.
Bachelor’s thesis, 2016.

Sarah Hantosi Albertsson.
Textuella särdrag som kvalitet. En studie om att automatiskt mäta kvalitet i teknisk dokumentation.
Bachelor’s thesis, 2015. External project at Saab AB.

Martina Nyberg.
Kommunikativa funktioner hos emotikoner i svenska twitterinlägg.
Bachelor’s thesis, 2015. External project at Gavagai AB.

Page responsible: Arne Jönsson
Last updated: 2022-11-01

IDA - Department of Computer and Information Science

Thesis Projects

Completed projects

Bachelor’s theses (15 credits)

Completed projects