Göm menyn

732G16 Databaser: design och programmering

Projekt - Introduktion

Syfte

När man arbetar med mycket stora datamängder kommer man till en punkt där man inte kan hantera alla data med R eller liknande programspråk. I dessa fall är en lösning att lagra datat i en databas och använda databasteknik för att komprimera eller göra viss analys som reducerar mängden data man sedan behöver arbeta med vid analys med hjälp av R eller liknande. Detta projekt illustrerar en sådan situation.

Beskrivning av projektets analysuppgift

På ett universitet kan man fundera över hur det kommer sig att olika studenter är olika framgångsrika när det gäller att ta kurser. Man skulle kunna göra statistiska analys för att undersöka ifall studenternas förkunskaper när de kommer till universitetet har någon inverkan (korrelation). Nu vill vi studera förhållandet mellan studenternas meritpoäng från gymnasiet (antagningspoäng) och hur många poäng de tar på högskolan.

Givet data om studenter, deras antagningspoäng, vilka kurser de gått och vilka betyg de fått på dessa kurser, ska ni med hjälp av linjär regression undersöka eventuella samband mellan antagningspoäng och tagna kurspoäng för olika urval av studenter och typer av kurser.

Översikt

  • I Projekt del A ska ni designa er databas i form av ER-diagram och relationsschema, som kommer att användas i del B och C. Projekt del A kräver inte tillgång till dator och görs inte i datorsal. Notera att detta moment har kursens första deadline.
  • I Projekt del B ska data importeras från en csv-fil till databasen ni designade i del A. Därför måste del A vara godkänd innan ni kan börja med del B. Ni ska i R skriva kod som arbetar mot databasen.
  • I Projekt del C ska datat ni lagrat i Projekt del B först bearbetas i databasen och sedan analyseras med hjälp av R och sammanställas i en liten rapport.

Sidansvarig: Eva Ragnemalm
Senast uppdaterad: 2024-03-27