Göm menyn

732G12 Data Mining

Kursinformation

HT 2021

HT 2021

Senast uppdaterad 2021-10-13



Allmänt


Undervisningen kommer att ske på campus. Föreläsningarna kommer att hållas i sal, och datorlaborationer kommer att ske i datorsal. Det kommer att vara möjligt att få hjälp online på labbarna, men jag kommer att vara på plats i datorsal under laborationer. Om coronaläget förvärras så kan detta ändras. Se timeeidt för schema


Denna kurs är en introduktion till metoder för att analysera och hitta intressant information från komplexa och/eller stora datamängder. Kursen behandlar olika algoritmer och grundbegrepp inom klassificering, icke-linjär regression, associations- och sekvensanalys samt klustring.


Kursplanen finns här.


Josef Wilzén är lärare och examinator på kursen.


I år kommer Microsoft Teams användas för kommunikation. Teams är ett samarbetsverktyg, som går att använda via webbläsare eller som app på mobil/dator. Appen finns för olika plattformar.




Innehåll

Kursen ger en introduktion till:

  • Introduktion maskininlärning/Data Mining, modelval, variabelselektion, regularisering
  • Klassificering och regession: Trädmodeller, naive Bayes, k närmaste grannar, neurala nätverk
  • Ensemblemetoder
  • Klusteranalys
  • Associationsanalys, sekventiella mönster,



Undervisningsmaterial och upplägg


  • Föreläsning, F . Föreläsningen introducerar nya koncept och lägger grunden för datorlaborationen. Till varje föreläsning finns läsanvisningar till kursboken och ev. extramaterial.
  • Datorlaboration, D.

I slutet av kursen kommer även ett obligatoriskt projekt att genomföras.

R och R-Studio används som programvara.

Information om SU-salar, remote access till dessa mm finns här: länk

Kodmanual finns här. Notera att denna inte är uppdaterad för årets omgång.

Dataset till vissa uppgifter finns här.



Kurslitteratur 2021:

An Introduction to Statistical Learning with Applications in R (ISL) av Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani 2st ed. 2021

Finns gratis online här: länk

Introduction to Data Mining, Global Edition (IDM) av Pang-Ning Tan, Michael Steinbach, Anuj Karpatne och Vipin Kumar Second edition, ISBN: 9780273769224

Denna bok finns inte gratis.


Spellistor med videor:

Här finns två spellistor med videor. Notera att dessa täcker fler ämnen än vad kursen gör. Under varje kursvecka finns det mer detaljerade hänvisningar till olika videor.





Kursvecka 1: Introduktion till maskininlärning och data mining


Innehåll: Introduktion till maskininlärning och data mining. Modellering, modelval, generaliseringsfel, variabelselektion, Ridge regression, LASSO regression.

F1 Slides: pdf

F2 Slides: pdf

Läsning i ISL:

  • kapitel 1
  • Kapitel 2.1 2.2, 4.6, 5.1, 6.1, 6.2, 6.4

Repetition

  • 4.3 Logistic Regression

Läsning i IDM:

  • kapitel 1

Se dessa videor:

Frivillig fördjupning: Lecture notes on ridge regression: här finns fördjupning och många detaljer, bla hur skattningarna går till för Ridge och LASSO.


D1: pdf

Information om SU-salar, remote access till dessa mm finns här: länk





Kursvecka 2: Trädmodeller, Naive Bayes, k-nearest neighbors, Ensemblemetoder


F3 Trädmodeller, Slides: pdf

Läsning i ISL:

  • 8.1

Läsning i (IDM)

  • 2.1-2.3 Läs översiktligt, många koncept har ni stött på i tidigare kurser
  • 2.4 Tanken är att ni kan komma tillbaka hit vid behov under kursens gång
  • 3.1-3.8 Teori om beslutsträd, men även om modelval, korsvalidering mm

R-paketet: rpart

Se dessa videor:


F4 Naive Bayes, k-nearest neighbors, Ensemblemetoder, Slides: pdf

Läsning i ISL:

  • 2.2.3 The Classification Setting (The Bayes Classifier, K-Nearest Neighbors)
  • 5.2 The Bootstrap
  • 8.2 Bagging, Random Forests, Boosting

Läsning i IDM

  • 6.1
  • 6.3
  • 6.4
  • 6.10

Se dessa videor:


D2: pdf





Kursvecka 3: Neurala Nätverk 1


Teori

Notera att det inte är någon föreläsning i början av denna kursvecka. Ni ska göra följande:


Nedan följer några videor som ger en högnivå introduktion till neurala nätverk: (ca 60 min)


Läsning i ISL:

  • 10 intro, 10.1-10.2
  • 10.7 intro, 10.7.1, 10.7.2, 10.7.4

Läsning i IDM

  • 6.7 till 6.8.2

tensorflow playground kan ni testa interaktivt hur olika modeller fungerar, testa att ändra olika inställningar och tryck sen på "run".


På onsdag den 8/9 kommer jag hålla i en föreläsning, och då kommer jag utgå från att ni har gått igenom ovanstående material.

Slides: pdf


Labb

Installera keras: Vi kommer att använda keras i Rstudio för att skatta olika neurala nätverk. Följ instruktioner i kodmanualen. Det kan lite tid att få allt att fungera, så börja installera så snart som möjligt.

D3: pdf

CHEAT SHEET for Keras Utvärdering vid klassificering kan göras med funktionen class_evaluation_keras().





Kursvecka 4: Neurala Nätverk 2


Denna vecka kommer vi fortsätta med neurala nätverk, och kolla närmare på:

  • Optimieringen
  • Regularisering
  • Faltade nätverk (Convolutional neural network)


Se dessa videor om optimering:

Se dessa videor om regularisering:

Läsning i ISL

  • 10.3
  • 10.7.2, 10.7.4

Läsning i Data Mining and Machine Learning: Fundamental Concepts and Algorithms, länk till kapitel 26

  • 26.4 Regularization
  • 26.3 Convolutional Neural Networks:

    • Ni behöver inte ha koll på alla matematiska detaljer här
    • Fokusera på koncepten: Kolla på exemplen och figurerna

Faltade nätverk: läs här


Slides: pdf


D4: pdf

CHEAT SHEET for Keras Utvärdering vid klassificering kan göras med funktionen class_evaluation_keras().





Kursvecka 5: Klusteranalys


Läsning i ISL:

  • 12.1 The Challenge of Unsupervised Learning
  • 12.4 Clustering Methods

Läsning i IDM

  • 5.1
  • 5.2
  • 5.3
  • 2.2.1-2.4.5, 2.4.9-2.4.10
  • 5.4
  • 5.5
  • 8.1

Frivillig fördjupning:

  • 12.2 Principal Components Analysis (ISL)
  • 12.3 Missing Values and Matrix Completion (ISL)

Slides: pdf

Slides: pdf

Andra slides baserade på IDM finns här och här

D5: pdf





Kursvecka 6: Associationsanalys och Sekvenssanalys


Läsning i IDM

  • 4.1-4.5
  • 4.7-4.8
  • 7.1-7.2
  • 7.4

Läs denna artikel: Selecting the right objective measure for association analysis, finns även här

Övrigt:

Se dessa videor:

Slides: pdf

Slides: pdf

D6: pdf





Kursvecka 7: Projekt






Projekt


Generella instruktioner finns här.

Utgå från denna mall för er rapport:

  • rmd pdf bib Notera att det finns instruktioner i denna mall.

Fler mallar som kan vara till hjälp:

Deadline för projektet finns här Ladda upp der pdf-fil på Samarbetsytan i kursrummet på Lisam innan dess. Seminariet är 2020-10-27. Efter opponeringen på seminariet ska ni komplettera er rapport, och den kompletterade rapporten ska lämnas in i en inlämning på Lisam.


Litteratur som ni kan ha nytta av under projektet:

  • IDM: 2, 6.11, 10
  • ISL: 13





Tenta


Tentan är en datortenta i SU-sal. Glöm inte att anmäla er!





Övrig information


Github

Kursmaterialet til kursen ligger på en github-sida som finns här.


Efter kursen

Mer info kommer.