Hide menu

WEBBKLUSTRING

Prototyp


Detta projekt syftar till att utveckla en tjänst till nytta för en effektivare informationssökning och sållande bland information. Huvudmålet är en tjänst för dokumentdisambiguering, dvs rutiner som letar efter skillnader i dokument och därmed kan avgöra om två dokument innehåller samma information. Detta till förmån för mer effektiv informationssökning då en användare snabbt kan få en indikation om exempelvis en sökträff på dennes favoritsökmotor innehåller information utöver den som finns i en tidigare sökträff och om således ny information är att vänta.

Tidigare projekt innefattar Webblättläst (finansierat av .SE) och EasyReader (finansierat av PTS). Webblättläst är en tjänst som rangordnar sökträffar baserat på hur lättlästa de är medan EasyReader skapar lättlästa texter genom att sammanfatta dem.

Resultat från dessa utnyttjas i utvecklingen av detta projekt i form av ett färdigt webbaserat ramverk från Webblättläst och implementation av teknik för att avgöra kärnmeningen hos dokument vid automatisk analys (vektorrumsmodeller, FriendlyReader). Inom projektet kommer vi också att till viss del integrera dessa tidigare tjänster. Tekniker för att gruppera dokument baserat på typ existerar (tex Carrot^2, Clustify), men ett enkelt gränssnitt, lätt tillgängligt på webben, som snabbt visar vilka dokument man bör läsa för att få ny information givet andra dokument existerar inte.

Kvaliteten av dokumentklustringen kommer delvis att utvärderas med automatiska mått, framförallt läsbarhet, relevans och informationsinnehåll. Läsbarhet täcks in av lexikala mått också använda och beprövade under projektet Webblättläst, relevans utgörs av rankningen av träffarna från en sökmotors resultat medan mått på informationsinnehåll kommer att undersökas inom ramen för det föreslagna projektet.

Sammanfattningsvis kommer tjänsten att kunna göra följande:
  • Identifiera webbsidor med samma innehåll (utesluta dubletter)
  • Sammanfatta texter
  • Avgöra läsbarhet hos hemsidor
Detta för att underlätta informationssökning för ovana användare samt personer med läs- och skrivsvårigheter, vilket i sin tur sänker tröskeln för inhämtande av information och förvärvande av kunskap.

Mallar för koncept och personaanlys

Rapporter


Projektet finansieras av Internetfonden och SICS East Swedsih ICT AB.

Projektledare: Arne Jönsson
Projektmedlemmar: Mattias Arvola, Henrik Danielsson, Johan Falkenjack, Joel Hinz, Christan Smith, Naga Venkata Tallapragada, Evelina Rennes, Torbjörn Kvist

Page responsible: Webbklustring
Last updated: 2014-01-29