Data mining
Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.
Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/
Examen bestaat ook uit 2 delen, van elke prof:
- (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
- (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
Er zit een duidelijk patroon in de examenvragen !
Examens
2006-06-12
Deel1
Vraag1(30%)
- Apriori voor vinden van large datasets. Naief is traag. Hoe gebruikt Apriori overlappende informatie van verschillende itemsets. Leg uit met volgend voorbeeld: itemsets {BCW,BFD,CFW,CFD} en voorbeeld BCFWDTIAS. Vervolgens een overduidelijke hint met volgende woorden: een hash bucket size van 2.
- Winepi voor patronen in sequences. Hoe gaat Winepi met overlapping om. Sequence 'AABBXXA', window=4. Leg uit voor parallel patroon: AB.
- (Ben ik een stuk vraag vergeten ?)
Vraag2(10%)
Wat zijn de OLAP operations die een hierarchische structuur gebruiken (ofzoiets)
Vraag3(10%)
gegeven zo'n play tennis tabel
C1: IF temperature = Hot THEN play = no ELSE play = yes
C2: IF attribute = Value THEN play = yes ELSE play = no
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit met FP cost = 10, rest = 1
Deel2
Vraag1
- Leg kort de werking van Decision Tree Learning en k Nearest Neighbours uit.
- Wat is het verschil in decision boundary van beide technieken (anders geformuleerd)
- Hoe kan je met een attribuut met een coninue waarde overweg bij Decision Tree Learning
- Overfitting bij decision trees:
- Wat is het effect van overfitting voor de descriptiviteit van decision trees.
- Hoe kan overfitting beperkt worden ?
Vraag2: Case Study
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken.
2005-06-13
Deel 1:
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)
- Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
- Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
- Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
- AprioriHybrid: wnn switchen? en waarom?
2) Bespreek kort en bondig OLAP-operations
3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1
Deel 2: 1)
- kNN en DT: classificatie of clustering?
- Bespreek decision boundaries van kNN en DT
- Hoe optimale k bepalen voor kNN?
2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.