Göm menyn

732G16 Databaser: design och programmering

Uppgift 4 - Bearbeta data och analysera med R

Motivation & Syfte

SQL är bra när man vill välja ut, sammanställa eller manipulera stora datamängder. I den här övningen kommer du att få använda vyer för att sammanställa data utifrån vissa kriterier, en ganska vanlig databasuppgift.

När man väl har skapat vyer för den data man vill arbeta med så behöver man hämta ut denna data till någon miljö där man kan göra analyser. Detta skulle kunna vara SAS, SPSS, STATA, eller som i detta fall R.

I R kan man sedan göra de statistiska analyser som behövs för att bekräfta eller förkasta de hypoteser man ställt.

Förberedelser

Fundera på vilka vyer som behöver skapas givet att vi vill göra linjär regression för att ta reda på om det finns ett samband mellan antagningspoäng och tagna kurspoäng för olika urval av studenter. Vi vill gruppera på program och göra tre analyser per program:

  • Med hänsyn till alla kurser
  • Med hänsyn till obligatoriska kurser
  • Med hänsyn till valbara kurser

Genomförande

Skapa vyerna i MySQL

I kodskelettet finns det en fil som heter "Z:\732G16\uppg4\CreateViews.txt". I denna fil skriver ni all SQL kod som ni behöver för att skapa vyerna. Det kan vara bra att längst upp i filen ha SQL kod som tar bort vyerna man skapat, så att man kan köra filen flera gånger om man gör ändringar.

När du vill köra din SQL kod öppnar du MySQL klienten och exekverar följande:

source Z:\732G16\uppg4\CreateViews.txt

Hämta och analysera data i R

I kodskelettet finns det en fil som heter "Z:\732G16\uppg4\RegressionAnalysis.R". Det är i denna fil som ni skall hämta data från er databas (från era vyer) och genomföra de linjära regressionerna.

För varje modell sparar ni undan ett spridningsdiagram med regressionslinjen i form av en bild. Dessa bilder för ni sedan in i er rapport.

Rapport

Skriv en rapport som innehåller en summering av alla modeller. Denna summering skall innehålla spridningsdiagram med regressionslinjen, visa min/max/medelvärde för tagna poäng samt visa modellen på formen y = kx + m. Jämför också modellerna med varandra och avgör vilka grupperingar som verkar vara relevanta. Förklara i detalj varför en viss modell är relevant eller ej.

Exempel på rapportering av data:

Prog Obligatoriska kurser Valfria kurser Alla kurser
min max mean regr min max mean regr min max mean regr
LIU50007 0 100 49.2 y(x) = 3.42x - 32.11 0 100 49.2 y(x) = 3.42x - 32.11 0 100 49.2 y(x) = 3.42x - 32.11
LIU50008 0 100 49.2 y(x) = 3.42x - 32.11 0 100 49.2 y(x) = 3.42x - 32.11 0 100 49.2 y(x) = 3.42x - 32.11
etc... 0 100 49.2 y(x) = 3.42x - 32.11 0 100 49.2 y(x) = 3.42x - 32.11 0 100 49.2 y(x) = 3.42x - 32.11


Rapporten skall också innehålla en text som förklarar möjliga felkällor som kan ha introducerats i uppgift 3 och uppgift 4. Att skriva "Inga felkällor introducerades i uppg3" är inte ett godkänt svar på denna del av rapporten.

Spara rapporten som en PDF med namnet "732G16-GRUPPNR-rapport.pdf", där ni ersätter GRUPPNR med t ex 1 om ni är med i grupp 1.

Redovisning

Redovisning sker genom att mejla filerna CreateViews.txt, RegressionAnalysis.R och 732G16-GRUPPNR-rapport.pdf till er assistent. I ämnesraden skriver ni "732G16 - Redovisning - Uppg 4".
Muntlig redovisning: TBC

Deadline

2013-05-29

Övrigt


Sidansvarig: infomaster
Senast uppdaterad: 2013-04-02