Data mining
Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.
Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/
Examen bestaat ook uit 2 delen, van elke prof:
- (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
- (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
Vragen
2005-06-13
Deel 1:
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)
- Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
- Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
- Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
- AprioriHybrid: wnn switchen? en waarom?
2) Bespreek kort en bondig OLAP-operations
3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1
Deel 2: 1)
- kNN en DT: classificatie of clustering?
- Bespreek decision boundaries van kNN en DT
- Hoe optimale k bepalen voor kNN?
2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.