Data mining: verschil tussen versies
k categorien erbij natuurlijk |
een examen |
||
Regel 6: | Regel 6: | ||
#(50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ... | #(50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ... | ||
#(50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe) | #(50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe) | ||
== Vragen == | |||
=== 2005-06-13 === | |||
Deel 1: | |||
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)<br> | |||
:# Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results? | |||
:# Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt | |||
:# Bespreek hoe performantie bij AprioriTid wordt beïnvloedt | |||
:# AprioriHybrid: wnn switchen? en waarom? | |||
2) Bespreek kort en bondig OLAP-operations | |||
3) gegeven zo'n play tennis tabel<br> | |||
C1: IF temperature = mild THEN play = yes ELSE play = no<br> | |||
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)<br> | |||
- confusion matrix<br> | |||
- Accuracy<br> | |||
- Recall<br> | |||
- Precision<br> | |||
- FPR<br> | |||
- Profit b(y,+) = 10, rest = 1<br> | |||
Deel 2: | |||
1) | |||
* kNN en DT: classificatie of clustering? | |||
* Bespreek decision boundaries van kNN en DT | |||
* Hoe optimale k bepalen voor kNN? | |||
2) Case study: gegeven een verhaaltje :-)<br> | |||
Bespreken van pre-processing steps, transformation...<br> | |||
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.<br> | |||
[[Categorie:1li]] [[Categorie:2li]] | [[Categorie:1li]] [[Categorie:2li]] |
Versie van 11 jun 2006 22:24
Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.
Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/
Examen bestaat ook uit 2 delen, van elke prof:
- (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
- (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
Vragen
2005-06-13
Deel 1:
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)
- Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
- Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
- Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
- AprioriHybrid: wnn switchen? en waarom?
2) Bespreek kort en bondig OLAP-operations
3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1
Deel 2: 1)
- kNN en DT: classificatie of clustering?
- Bespreek decision boundaries van kNN en DT
- Hoe optimale k bepalen voor kNN?
2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.