Hide menu

Automatisk termextraktion

 

Omfattning: 30hp eller 15hp
Lämplig utbildning: Kognitionsvetare eller datavetare med genomgången kurs i språkteknologi.

Bakgrund

I projektet "Enspråkig och flerspråkig termextraktion" studerar vi algoritmer för automatisk termextraktion. Termextraktion ur text är en viktig del i uppbyggnaden av semantiska resurser som ontologier, taxonomier och ordnät som sedan används bl.a. för sökning, informationsutvinning och översättning. Att skapa sådana resurser är en tidskrävande process som man därför gärna vill automatisera i så stor utsträckning som möjligt.

Det finns kommersiella system för termextraktion av vilka SDL MultiTerm Extract kan vara det mest använda. Det finns också fria system från enkla frekvensbaserade system som ExtPhr32 till mer avancerade miljöer som Text2Onto.

Syfte

Syftet med arbetet är att jämföra algoritmer och system för termextraktion från enspråkiga data. Jämförelsen ska genomföras både för svenska och engelska textmaterial.

Beroende på bakgrund och intresse kan arbetet ges olika inriktning och omfattning. Ett 15-poängsarbete kan ta sikte på en utvärdering av Text2Onto-omgivningen och jämföra den med SDL MultiTerm Extract. Ett 30-poängsarbete kan inriktas på en egen implementering av ett termextraktionssystem som sedan jämförs med ett eller flera befintliga system. En alternativ inriktning är att jämföra effekten av olika resurser och modulkombinationer för termextraktion så som ordklassmönster, frekvensmått och statistiska fördelningsmått inom och mellan ämnesområden.

Kontakta

Magnus Merkel

Thesis proposals

Are you interested in doing your Bachelor or Master's thesis work at CILTLab?

Cognitive Science Seminars

Language Technology Seminar


Page responsible: Lars Ahrenberg
Last updated: 2009-05-19