Hide menu

Diginclude

Korpus

Vi har samlat in en korpus bestående av webbsidorna hos samtliga svenska myndigheter med lättlästa texter, såsom de såg ut i augusti 2017. Korpusen är uppdelad på de sidor som på något sätt kallas lättlästa respektive de andra sidorna. Totalt samlade vi in 2247 dokument (26461 meningar) på lättläst svenska och 115027 dokument (1333474 meningar) på vanlig svenska.

Dessa webbsidor har sedan parallellställts genom att för varje myndighet utgår från varje mening på lätt svenska och leta upp motsvarande meningar på standardsvenska. För denna parallellställning har vi använt tre olika algoritmer som tidigare använts för engelska (Song och Roth 2015), Average Alignment, Maximum Alignment samt Hungarian Alignment. Den bästa av dessa var Maximal alignment som genererade 59513 meningspar. Den är sparad i följande format: enkel mening <tab> standardmening <tab> likhetsmått <cr>

Song, Y. and Roth, D. (2015). Unsupervised sparse vector densification for short text similarity. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1275-1280

Officiell webbsida på RISE


The project is financed by Vinnova


Page responsible: Arne Jönsson
Last updated: 2018-10-23