Göm menyn

732G34 Statistisk analys av komplexa data

Kursinformation


Mål

Kursen 732G34 Statistisk analys av komplexa data, 7.5 hp,  syftar till att vidga den studerandes kunskaper i analys av komplexa datamängder. Kursen består av 5 delar, som vardera studeras under cirka 2 veckor. Olika lärare kommer att ha hand om olika delar, efter sina specialintressen.

Efter avslutad kurs kommer du att

  • kunna använda kunskap om de vanligaste statistiska inferensmetoderna inom analys av longitudinella data, hierarkiska data, överlevnadsdata, trunkerade data samt spatiala data,
  • ha förmåga att bedöma vilken modell som är relevant för dessa typer av data,
  • på ett insiktsfullt sätt kunna tolka resultat av de gjorda analyserna.

Innehåll

Följande delar ingår i kursen.

  1. Longitudinella data. Vecka 44-45. Introduktion till longitudinella data, temporal korrelation, variogram, parametriska modeller för longitudinella data, fixed och random effects. Delmomentsansvarig Mattias Villani.
  2. Hierarkiska data. Vecka 46-47. Introduktion till hierarkiska data, multilevelmodeller, intraklasskorrelation. Delmomentsansvarig Linda Wänström.
  3. Kategoriska och trunkerade data. Vecka 48-49. Kategoriska och trunkerade data: Introduktion till kategoriska och trunkerade data, modeller för oordnade och ordnade kategorier, multinomial logistisk regression, fördelningar för trunkerade data, Tobitregression. Delmomentsansvarig Bertil Wegmann.
  4. Överlevnadsdata. Vecka 50-51. Överlevnadsdata: Introduktion till överlevnadsdata, censorerade data, överlevnadsfunktion, hazardfunktion, Kaplan-Meieranalys, Coxregression. Delmomentsansvarig Karl Wahlin.
  5. Spatiala data. Vecka 2-3. Introduktion till spatiala data, spatial korrelation och beroende, modeller för spatiala data. Delmomentsansvarig Mattias Villani.

Undervisningsformer

Förutom självständiga studier består undervisningen av föreläsningar/lektioner samt datorlaborationer. Föreläsningarna ger en översikt över kursinnehållet och tar upp centrala begrepp och metoder eller kan genomföras som lektioner, och består då av genomgång av övningsuppgifter. Datorlaborationerna illustrerar viktiga moment i kursen och lägger grund för examinationen.

Kurslitteratur

Kurslitteraturen kommer att bestå av utdrag ur böcker samt av vetenskapliga artiklar. Närmare information om litteraturen ges för respektive del.

Examination

Kursen examineras genom individuella laborationsrapporter för respektive delmoment. Varje rapport ger högst 20 poäng (dvs för de fem delarna kan man få högst 100 poäng). För betyget G krävs minst 8 poäng på varje del samt minst 60 poäng totalt. För VG krävs minst 8 poäng på varje del samt minst 80 poäng totalt.

Den som har fått mindre än 8 poäng på någon (några) del(ar) kan komplettera uppgiften t.o.m. den 11/2 2013. Kontakta respektive lärare för att få mer specifika instruktioner. Är man inte godkänd efter detta har man tillfälle att göra nya uppgifter i de delar man inte är godkänd på. Nya uppgifter kan erhållas 3:e juni och lösningar lämnas in senast 10:e juni. Blir man godkänd på dessa uppgifter får man 8 poäng på respektive uppgift.

Programvara

Det är framförallt R, SAS och SPSS som kommer att användas på kursens delmoment.
R och RStudio (rekommenderad arbetsmijö för R) är gratis och kan laddas ned här:
  • R
  • RStudio
  • An Introduction to R

  • Longitudinella data



    Obligatoriskt material Rekommenderat extra material
    • Programkod med beskrivning från boken Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. Kod finns för både R och SAS. Kapitel 2 och 7 är bra, men säkert flera andra kapitel också.
    • Boken Applied Longitudinal Analysis. Det är inget krav att köpa boken, men den är antaligen en bok som du vill ha i din statistikerbokhyllan inför framtida jobbutmaningar.
    Datorlaboration
    Här är anvisningar och uppgifter inför datorlabben på momentet.
    Den rättade labben finns att hämta på IDAs studerandeexpedition fr o m senast tisdag 27 november.
    Här är lite kommentarer på era lösningar.

    Hierarkiska data


    Obligatoriskt material

    Inlämningsuppgift vid Datorlabb



    Kategoriska och trunkerade data





    Överlevnadsdata


    Föreläsningsunderlag

    Litteratur

    Som litteratur rekommenderas följande fyra artiklar.

    Datorlaboration

    Instruktion för examinerande datorlaboration.



    Spatiala data



    Obligatoriskt material Rekommenderat extra material
    • Webbsidan för den bok som jag har baserat mycket av mitt material på.
      Boken finns tydligen som gratis e-bok vid LiUs bibliotek, se här!
    • Slides om analys av areal data där NY counties datamaterial analyseras.
    Intressanta länkar R-kod Datorlaboration
    Här är anvisningar och uppgifter inför datorlabben på momentet.
    Lite extra instruktioner: Ni behöver paketet maptools och några av er verkar ha behövt paketet rgeos (som jag inte verkar ha behövt i min lösning, men man kan ju lösa ett problem på fler är ett sätt).
    I uppgift 1f kan ni behöva rita upp en skatted variogrammodell. Använd kommandot plot(sampleVariogram, modelVariogram), där sampleVariogram är det skattade samplevariogrammet och modelVariogram är den skattade modellvariogrammet (t ex sfärisk modell). Jag har uppdaterat filen med labbuppgifter med denna information.
    Update: Jag har fått frågor om variogrammodeller och nugget, och speciellt frågan om man ska sätta range = 0 i variogrammodellerna. Det ska man inte, och det går inte heller (R klagar). Jag menade bara att ett kommando som t ex vgm(1,"Sph",70,1) ger dig ett variogram med två komponenter varav den ena är en nugget (där range = 0). Det är bara Rs sätt att beskriva en nugget. Egenligen behöver ni inte bry er om detta, jag ville bara peka på att variogrammet har två komponenter.
    Tips: Tänk på att många plot-kommandon, t ex map(), kräver argumentet add = TRUE om man inte vill skriva över det som redan finns i figuren.

    Sidansvarig: infomaster
    Senast uppdaterad: 2013-01-29