EPOK-programmet:
Elektronisk Publicering Och Kommunikation

Projektkatalog

by Lars Aronsson

1. Inledning

Detta är en katalog över olika delprojekt som jag vill genomföra i anslutning till Projekt Runeberg. Tanken är att denna katalog ska kunna tjäna som underlag för diskussioner och bidragsansökningar.

På andra platser redovisas vad som har gjorts i Projekt Runeberg under hösten 1998 och svar på de frågor som jag reste den 9 september [3].

1.1 Behov av policy

Organisatorisk stadga och identitet behövs för fortsatt arbete med Projekt Runeberg, och bör vara en fördel vid bidragsansökningar. Den separata redovisningen av min utredning om retrospektiv digitalisering [4] föreslår en samordning av Projekt Runeberg med LiU EP.

En del inköp som jag gör, resulterar i att material (böcker) och utrustning (som första projektförslaget i listan nedan) formellt tillfaller min firma. Om detta är bra eller dåligt, har jag inte reflekterat över. Här behövs kanske någon sorts policybeslut. För mig är det lika lätt att själv göra de inköp som jag anser nödvändiga och i efterhand fakturera universitetet, som att skicka kvitton och räkningar till universitetet för betalning. Under experimentella faser, som i höstas, krävs ett stort mått av självständighet och flexibilitet vid sådana inköp.

1.2 Omvärldsbevakning

En del pekare till mer information finns i länklistan [2].

Under 1999 håller "elektronisk publicering" på att etablera sig som ett forsknings- och undervisningsämne inom svenska högskolor.

Under början av 1999 inleds EU:s femte ramprogram (5FP), som löper i fyra år och som för temaområdet "user-friendly information society" har en budget om 3600 miljoner Euro (32 miljarder SEK).

Amerikanska Digital Library Initiative har gått in på fas 2 (DLI2) och där finns öppningar för amerikanska projekt som samarbetar med en utomamerikansk partner.

I takt med att bandbredden ökar och även förståelsen för hur Internet fungerar, öppnas möjligheter för nya format och slag av material. Medan text ur böcker var aktuellt redan för flera år sedan, är de elektroniska faksimilutgåvorna och bildarkiven nu här på allvar. Projekt Runebergs satsning i höstas på detta område ligger precis rätt i tiden. Längre fram kommer flera satsningar att dyka upp som använder ljud, rörliga bilder och grafiktunga presentationer av geografiska data.

2. Projektkatalog

2.1 Lagringsutrymme

Projekt Ruenbergs samlingar lagras på och tillhandahålls från disk som är ansluten till Lysators webserver. Där finns i dagsläget en disk om 6 gigabyte. Denna är överfull. 2 gigabyte fylls av höstens inscannade faksimilbilder av boksidor. 2 gigabyte fylls av sparade årgångar av loggfiler från webservern (se föreslaget analysprojekt nedan). 400 megabyte fylls av mellanlagrade konverterade faksimilbilder för presentation på webben. Övrigt utrymme fylls av tidigare e-texter och illustrationer till dessa. Med fortsatt inscanning och ökad popularitet för servern, kommer utrymmesbehovet att öka både för faksimilbilder och loggfiler.

Lysators utrustning är till största delen donerad gratis till föreningen. Diskstrukturen på webservern har tidvis varit så instabil att det äventyrat serverns tillgänglighet, vilket inte är ett bra, eftersom denna webserver utgör förutsättningen för Projekt Runeberg och är en stor del av Linköpings universitets ansikte utåt.

Forskningsingenjör Peter Eriksson, IFM, har rekommenderat en rackmonterad låda av fabrikat Andataco med dubblerad redundant strömförsörjning och plats för åtta diskar. Denna låda och en disk om 18 gigabyte har inköpts för Projekt Runebergs omedelbara behov. Utrustningen är levererad och installerad i Lysators datorhall i hus G. Den kommer att tas i drift inom kort. Efterhand kan Projekt Runeberg fylla fler fack. De fack som tills vidare inte fylls av Projekt Runeberg kommer att utnyttjas av Lysators övriga verksamhet som en kompensation för att Projekt Runeberg använder servern.

Beslutet om och den ekonomiska risken för detta inköp har jag tagit på mig själv, vilket betyder att lådan tills vidare tillhör mig. Det vore rimligt att universitetet löste in den för inköpspriset, som är 20.965 kronor plus moms. Det är samma pris och rabatter som IFM betalar för motsvarande utrustning.

2.2 Produktion

Konkret idé: För 1999 föreslås ett produktionsprojekt om 200.000 boksidor till en  budget av en miljon kronor. Moms tillkommer på priset. Material för digitalisering väljs fritt inom området för Projekt Runeberg.

Den metod för produktion av "elektroniska faksimilutgåvor" som jag utvecklade för Projekt Runeberg under hösten 1998, är mogen att tas i bruk. Under utvecklingsfasen digitaliserades 20.000 boksidor och det är realistiskt att planera för en utgivning om 200.000 boksidor under året 1999, vilket motsvarar 10--20 hyllmeter.

Jämfört med hittillsvarande arbetsmetoder för framställning av elektroniska textutgåvor, har detta nya produktionssätt två stora fördelar: dels att resultatet blir mer tillförlitligt, eftersom läsaren kan se i en faksimilbild hur den tryckta förlagan ser ut, och slipper därmed att misstänka avskrivningsfel, dels att produktionen kan utföras inom förutsägbara tidramar och till förutsägbara kostnader.

Kostnaden uppskattas kunna hållas inom 5 SEK/boksida för "vanlig litteratur" (ej uppslagsverk), och detta inkluderar samtliga steg i processen, från inköp av litteratur till färdig website. Denna kostnad är jämförbar med mikrofilmning, vilket är ett ekonomiskt genombrott, speciellt som elektroniska faksimilutgåvor har högre tillgänglighet än både mikrofilm och böcker på papper. Samtidigt består "deliverables" från ett sådant digitaliseringsprojekt av TIFF-filer på CD-ROM, ett format som motsvarar mikrofilm vad gäller långsiktig arkivering.

Under arbetets gång kan produktionsmetoderna förhoppningsvis vidareutvecklas, så att framtida projektförslag kan pressa kostnaden ytterligare.

Förhoppningsvis kan delar av materialet tas från vissa speciella källor, som redovisas nedan, men då detta är beroende av utomstående institutioners välvilliga samarbete, bör sådant inte förutsättas i anslagsansökan.

Lämpligt material att digitalisera inom ett sådant produktionsprojekt anges av följande avsnitt.

2.2.1 Svensk litteratur

Digitalisering av upphovsrättsfri svensk litteratur är grundalternativet och tjänar även som "utfyllnad" om material ur andra kategorier skulle saknas. Lämpligt material är:

"Samlade skrifter" som redigerats professionellt (ej "populär" eller billighetsutgåva) och utgivits i sin helhet (ej urval), i vissa fall med kommentarer, efter författarens död. En förutsättning är att både författarens skrifter, kommentaren och eventuella illustrationer är fria från upphovsrätt. Sådana "samlade skrifter" är stora, lätt identifierbara objekt och administrationen runt utgivningen blir minimal i förhållande till antalet publicerade boksidor.

Hela årgångar av äldre tidskrifter. Så länge artiklarna inte utgör fristående verk, räknas upphovsrätten från utgivningsåret, inte författarnas dödsår. Det gör att tidskrifter fram till 1920-talet kan komma ifråga för utgivning.

Enstaka kända verk ("praktutgåvor") som kan förmodas bli publikmagneter, utan behov av kopplingar till resten av samlingarna. Hittillsvarande exempel på detta är Bibeln och den vackert illustrerade Bilder ur Nordens Flora. Verk som har efterfrågats är

 Statens offentliga utredningar (SOU) är intressanta ur historisk och samhällsvetenskaplig synpunkt, samt fria från upphovsrätt. Regeringskansliet publicerar elektroniskt SOU från 1995 och framåt, men Projekt Runeberg skulle kunna åta sig äldre nummer. Eventuellt bör ett samarbete inledas med regeringskansliet och/eller riksdagsbiblioteket, varvid SOU-utgivningen flyttas till den mer osäkra kategorin "Material ur förvaltade utgivningsserier", nedan.

2.2.2 Dansk litteratur

Projekt Runeberg har från början kallats ett nordiskt projekt, trots att mer än 80 procent av samlingarna utgjorts av svensk litteratur. Den senare tiden har dominansen ökat ytterligare, och det svenska materialet utgör idag kanske 95 procent. För att råda bot på detta, borde insatser göras på andra nordiska språk. Närmast tillhands ligger dansk litteratur. Intresset för Internet är stort i Danmark, liksom kopplingen mellan kultur och Internet.

Inte bara våra samlingar av e-texter lider av denna svenska slagsida, utan även vårt register med författarpresentationer, Nordic Authors. Registret fungerar som en ryggrad i Projekt Runeberg. Under januari 1999 har registret, som domineras av 11.000 svenska namn, vuxit med 5.000 danska namn, dels genom min egen insats, dels genom möjligheten att länka till befintliga danska sajter som presenterar författare. Grunden till en "dansk kampanj" är därmed lagd.

Av dansk litteratur på nätet har den största samlingen skapats av Det Kongelige Bibliotek i Köpenhamn (KB) [1] i samarbete med Dansk Sprog- og Litteraturselskab (DSL). Samlingarna är idag större än Projekt Runebergs utbud av dansk litteratur, men mindre än Projekt Runebergs utbud av svensk litteratur.

Genom att tillämpa den utvecklade tekniken för elektroniska faksimilutgåvor, kan Projekt Runeberg göra en viktig insats för dansk litteratur på nätet. Samtidigt skulle uppmärksamheten för Projekt Runeberg öka utanför Sverige. För att få en överraskningseffekt, kan ett lager av dansk litteratur digitaliseras och annonseras samlat.

Den föreslagna satsningen på dansk litteratur kan tjäna som mönster för efterföljande satsningar på norsk och finsk litteratur.

2.2.3 Lokalt arkivmaterial

Enligt samtal med Erik Sandewall 10 sept 1998 finns någon samling av provinsialläkarrapporter från 1700-talet framåt, som kunde vara intressant att publicera elektroniskt. Är detta i anslutning till Länsmuseet? Jag har inga detaljerade anteckningar från mötet eller andra kunskaper, men tror att detta kunde vara ett lämpligt projekt för den befintliga tekniken.

Emellertid kan materialet till sin natur vara svårt att infoga i just Projekt Runeberg, eftersom det inte rör sig om "litteratur".

2.2.4 Material ur förvaltade utgivningsserier

En del material som det skulle vara mycket intressant att publicera på nätet skyddas endera av upphovsrätt eller av andra rättigheter, till exempel varumärkesskydd. En del material i form av utgivningsserier och årsskrifter är kanske gammalt nog för att vara fritt från upphovsrätt, men den utgivande institutionen fortlever och en elektronisk utgivning bör då planeras i samarbete med institutionen.

Sådant samtycke kan vara vanskligt att vinna, beroende på revirtänkande och vaga planer på utgivning i egen regi. Inom ramen för ett stort produktionsprojekt bör sådan utgivning kunna tas in utan kostnad för respektive institution, enbart på bekostnad av annat litterärt material som annars skulle ha digitaliserats.

Några sådana förslag räknas upp nedan.

Svenska Vitterhetssamfundet (SVS), där min kontakt är professor Johan Svedjedal i Uppsala, har sedan 1910-talet arbetat med framtagning och utgivning av textkritiska versioner av klassisk svensk litteratur. Utgivningen består av redigerad text samt fotnoter. Totalt rör det sig om kanske 6 hyllmeter. Huvudtexten är fri från upphovsrätt, eftersom det här rör sig om äldre svenska författare. Fotnoterna berättigar till upphovsrätt, men SVS har redan från starten varit så finurliga att rättigheterna tillhör SVS och inte den för varje tillfälle anlitade redaktören. Det är alltså juridiskt enkelt för SVS att låta publicera verken elektroniskt.

Svenska Fornskriftsällskapet, där jag ännu inte har någon bra kontakt, är en direkt parallell till SVS, men har ägnat sig åt skrifter före år 1500, både på fornsvenska och latin. FSS har ännu inte fått upp ögonen för Internet, så detta arbete måste rimligen komma efter ett lyckat projekt tillsammans med SVS eller efter en generationsväxling inom FSS.

Bokförlaget Corona i Malmö, där min kontakt är VD Lars Welinder, äger rättigheterna till varumärket Nordisk familijebok, som övertagits från förlagshuset Norden och Baltiska förlaget, som utgav tredje och fjärde upplagorna av det stora uppslagsverket på 1930-40-50-talet. Corona utgav i början 1990-talet en helt liten uppslagsbok i två band (även på CD-ROM), som trots skillnaden i omfång och innehåll gavs namnet "Nordisk familjebok, femte upplagan". För publicering på Internet är andra upplagan från 1920-talet intressant. Detta är fritt från upphovsrätt, om upphovsrätten räknas från utgivningsåret, men namnet är ett inarbetat varumärke för förlaget Corona. Om samförstånd nås, kunde kanske även tillstånd utverkas för publicering av tredje och fjärde utgåvan (1930-40-50-tal). Detta innehåll har inte använts av Corona och borde vara ekonomiskt ointressant.

Ny Teknik, där jag ännu inte har någon kontakt, är Sveriges största tidskrift för ingenjörer. Dess rötter finns i Teknisk tidskrift som började utges på 1870-talet. Årgångar av denna finns att köpa på antikvariat och kunde bli ett intressant material på nätet. Genom att samverka med den nuvarande tidningens redaktion, kunde bättre publicitet skapas för en sådan utgivning. På så vis kunde kanske även tillstånd utverkas att använda material som omfattas av upphovsrätt (1930-40-50-tal).

De statliga akademierna, t.ex. KVA, IVA, KVHAA och Svenska Akademien, där jag ännu inte har några kontakter, har utgivit skriftserier och årsböcker över flera hundra år. Dessa kunde digitaliseras och publiceras på nätet. Även om äldre material inte omfattas av upphovsrätt, bör en sådan satsning ske i samarbete med respektive institution. Risken är stor att de anser sig för stolta för att för att överlåta detta på någon utomstående part, så ett genomtänkt upplägg krävs.

2.3 Redaktör för Projekt Runeberg

Konkret idé: Projektanställning eller kontraktering på minst halvtid av en redaktör för Projekt Runeberg, eventuellt i samverkan med LiU EP.

Under 1996--1998 provades en modell där IT-rådet finansierade en redaktörstjänst för Projekt Runeberg med projektanställning på kvartstid, en termin i taget. Erfarenheterna av detta är goda. En brist var att arbetsuppgifternas natur inte var kända på förhand. Med nuvarande kännedom om dem bör en arbetsbeskrivning utformas, där den utåtriktade delen av verksamheten betonas.

En redaktörstjänst för Projekt Runeberg skulle även delvis kunna användas för LiU EP:s syften.

2.4 Sökmöjlighet i Projekt Runeberg

Konkret idé: Utredning, utveckling, implementering av söksystem för Projekt Runeberg.

Projekt Runeberg erbjuder inte fulltextsökning. Det är en stor brist.

De data som tillkommit på senare tid, inom de elektroniska faksimilutgåvorna, lämpar sig bra för sökning på ett strukturerat och intelligent sätt. Detta borde tas till vara.

Många sökmotorer arbetar som Altavista, dvs de hämtar websidor genom webservern, precis som vilken surfare som helst, och indexerar det som kommer ut. Detta angreppssätt vore dåligt i Projekt Runeberg, eftersom man då får med sidhuvud och annat "administrativt" skräp som man inte vill ha träff på vid fulltextsökningar.

Däremot har Projekt Runebergs filkatalog god struktur, där man lätt kan programmera en sökmotor att prioritera träffar i data av hög kvalitet, eller att enbart söka i verk av en viss författare, från en viss tidsperiod, eller på ett visst språk.

Det Projekt Runeberg erbjuder idag är sökning på boktitlar och författarnamn. Detta görs med ett program som utvecklades inom IDA:s projektkurs PUM för ett par år sedan. Programmet har vissa brister, både i funktion och effektivitet, som bör analyseras och åtgärdas. Programmet bör troligen ersättas av och integreras med ett nytt sökprogram som även erbjuder fulltextsökning.

Det är möjligt att PUM-kursen kunde användas som arbetskraft en gång till, men för funktionens och utvecklingstidens skull borde andra metoder övervägas.

2.5 Analys av webserverns loggar och tillgänglighet

Följande är två förslag till tillämpad forskning baserade på digitala bibliotek som LiU EP eller Projekt Runeberg.

2.5.1 Logganalys

Sedan starten i december 1992 har Projekt Runeberg, med vissa luckor, sparat hela årgångar av accessloggar från gopher- och webservern. Dessa loggar redovisar en historik över användningen av samlingarna, och ger därmed en bild både av samlingarnas tillväxt och av användningens tillväxt. Detta är textfiler som för närvarande växer med 20.000 rader per dygn.

Analys av användningsmönster av digitala bibliotek är ett nytt forskningsområde som begränsas av tillgången på data att analysera. Inom Projekt Runeberg finns en unik möjlighet att studera långa tidsserier loggar från en jämförelsevis stor och enhetlig samling innehåll.

Samtidigt som de gamla loggarna kan vara intressanta, skapas också ständigt nya och här finns en möjlighet att påverka presentationen av Projekt Runeberg för att se vilken återverkning det får på användningsmönstret. Datum för pressmeddelanden och annonseringar kan relateras till händelser i loggarna.

2.5.2 Teknisk serveranalys

En viktig framgångsfaktor för en stor webserver, till exempel ett digitalt bibliotek, är dess prestanda i form av tillgänglighet, svarstid och bandbredd. Detta är parametrar som sällan uppmärksammas idag, men som kommer att bli viktigare i takt med att användningen av vissa tjänster ökar och användarna blir mer beroende av dem.

En forsknings- eller utvecklingsgrupp som sysselsätter sig med frågor runt elektronisk publicering borde kunna ordna reguljära mätningar av prestanda både på de egna och utomstående webservrar. Ungefär som AltaVista söker av innehållet för att indexera det, kan en mätrobot söka av olika webservers för att analysera deras prestanda och tillgänglighet.

Tillförlitliga mätningar kan bara göras utanför den egna organisationen, från en annan nätanslutning. Denna projektidé lämpar sig därför bra för samarbete mellan högskolor. Redovisningen från sådana mätningar bör vara viktig input till informationsansvariga som har i uppdrag att publicera information via webben.

2.6 Uppslagsverk och/eller geografiskt namnregister

Konkret idé: Utveckla metoder för smart länkning mellan relaterade avsnitt i olika böcker, som ett ramverk för elektronisk publicering av uppslagsverk och liknande. Som ett resultat skulle hela Projekt Runeberg kunna bli ett enda stort uppslagsverk.

Kopplingar finns till Jan Strids behov.

Införande av ett geografiskt namnregister som stöd i Projekt Runeberg.

Projekt Runebergs samlingar struktureras idag på två sätt, nämligen efter bokutgåvor, som på ett bibliotek, och efter de personer som figurerar, främst som författare. Registret Nordic Authors samlar författarpresentationer, men innehåller också programkod som automatiskt skapar länkar till förekommande levnadsbeskrivningar i de verk som publiceras.

Det går alltså lätt att hitta all information som finns om en viss person i alla Projekt Runebergs utgåvor. Det går inte lika lätt att hitta all information som handlar om andra entiteter, till exempel historiska händelser eller geografiska platser.

Personer och personhistorisk forskning (biografi) kan representeras som en graf där personerna är noder. Länkarna mellan noderna kan vara släktskap eller bekantskap. Detta låter sig enkelt översättas till websidor, för websidorna är ju noder och länkarna är hypertextlänkar.

Historiska händelser och geografiska platser är däremot områden med otydliga gränser inom kontinuerliga rum. De händelser och platser som vi ger namn åt är abstraktioner som kan överlappa och innesluta varandra. Medan det är entydigt vilken person som skrev Hemsöborna, är det inte lika entydigt när den industriella revolutionen tog sin början, eller var Mälardalen har sina gränser (Strängnäs? Flen? Nyköping?).

En lösning på problemet är att upprätta ett namnregister, gazetteer, som fastställer definitioner av vad som ska avses med ett visst platsnamn och tilldelar det en identitetskod. Ett exempel är de svenska länsbokstäverna. Dessa koder kan sedan användas som metadata för den information som anknyter till en viss plats, och sedan kan en enkel sökmotor eller databas hitta all information som har liknande märkning. Objekten i ett namnregister kan överlappa, som Mälardalen överlappar Södermanland, eller innesluta varandra, som kommuner innesluts i ett län. Objekt i ett namnregister behöver inte vara yttäckande områden, utan kan vara linjestrukturer, som vägar och floder, eller punkter, som kyrkor och minnesstenar.

Inget hindrar att namnregistrets princip utsträcks även till tidsdimensionen, som ju också är ett kontinuum. Dels sker detta när ett geografiskt område har betydelse under en begränsad tid, som när Vadstena kommun upphörde 1970 för att senare återuppstå. Men dessutom kan namnregistret representera händelser som det trettioåriga kriget, vilket är ett samlingsbegrepp för (union av) ett antal krigshandlingar var och en med sin utsträckning i tid och rum, precis som ett län är en union av kommuner.

Här finns stora möjligheter att samverka med de resurser som Jan Strid förfogar över, till exempel inspelningar av olika dialekter, som ju starkt relaterar till geografiska områden och tidsepoker. Utbytet skulle vara ömsesidigt. Samtidigt som namnregistret behövs som struktur och sökhjälpmedel för detta innehåll, så behövs också innehållet för att ge namnregistret ett syfte.

En publicering av Nordisk familjebok (se ovan) skulle också bidra med intressanta artiklar om olika geografiska och historiska företeelser, på ett för projektets behov närmast heltäckande sätt.

3. References

[1]Det Kongelige Bibliotek (KB), København,
Danmarks nationalbibliotek. Presenterar författare och publicerar elektroniska textutgåvor av dansk litteratur på nätet i samarbete med Dansk Sprog- og Litteraturselskab (DSL). Länkar till Projekt Runeberg.
http://www.kb.dk/
[2]Other Digital Library Projects,
Projekt Runebergs lista över länkar till kusiner på nätet och annan intressant information.
http://www.lysator.liu.se/runeberg/admin/foreign.html
[3] Lars Aronsson, Retrospektiv digitalisering vid Linköpings universitet, förslag inlämnat till IT-rådet 9 sept 1998.
[4]Lars Aronsson, Utredning om retrospektiv digitalisering, 15 febr 1999


Aronsson was here
Thu Feb 18 18:39:45 1999

Maintenance information:
Latest update 17.5.1999 by EMTEK group.
Edit mode
html, position code D.epok.retrod.projcat.