Data mining: verschil tussen versies
een examen |
examenvragen vandaag, mogelijk incompleet |
||
Regel 6: | Regel 6: | ||
#(50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ... | #(50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ... | ||
#(50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe) | #(50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe) | ||
Er zit een duidelijk '''patroon''' in de examenvragen ! | |||
== Vragen == | == Vragen == | ||
Regel 38: | Regel 40: | ||
Bespreken van pre-processing steps, transformation...<br> | Bespreken van pre-processing steps, transformation...<br> | ||
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.<br> | 2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.<br> | ||
=== 2006-06-12 === | |||
Proffen waren het allebij vergeten, maar Anneleentje loste alles mooi op : ) | |||
Deel1<br> | |||
Vraag1(30%)<br> | |||
#Apriori voor vinden van large datasets. Naief is traag. Hoe gebruikt Apriori overlappende informatie van verschillende itemsets. Leg uit met volgend voorbeeld: itemsets {BCW,BFD,CFW,CFD} en voorbeeld BCFWDTIAS. Vervolgens een overduidelijke hint met volgende woorden: een hash bucket size van 2. | |||
#Winepi voor patronen in sequences. Hoe gaat Winepi met overlapping om. Sequence 'AABBXXA', window=4. Leg uit voor parallel patroon: AB. | |||
#''(Ben ik een stuk vraag vergeten ?)'' | |||
Vraag2(10%)<br> | |||
Wat zijn de OLAP operations die een hierarchische structuur gebruiken (ofzoiets) | |||
Vraag3(10%)<br> | |||
gegeven zo'n play tennis tabel<br> | |||
C1: IF temperature = Hot THEN play = no ELSE play = yes<br> | |||
C2: IF attribute = Value THEN play = yes ELSE play = no<br> | |||
- confusion matrix<br> | |||
- Accuracy<br> | |||
- Recall<br> | |||
- Precision<br> | |||
- FPR<br> | |||
- Profit met FP cost = 10, rest = 1<br> | |||
Deel2<br> | |||
Vraag1<br> | |||
# Leg kort de werking van Decision Tree Learning en k Nearest Neighbours uit. | |||
# Wat is het verschil in decision boundary van beide technieken (anders geformuleerd) | |||
# Hoe kan je met een attribuut met een coninue waarde overweg bij Decision Tree Learning | |||
# Overfitting bij decision trees: | |||
#*Wat is het effect van overfitting voor de descriptiviteit van decision trees. | |||
#*Hoe kan overfitting beperkt worden ? | |||
Vraag2: Case Study<br> | |||
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.<br> | |||
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken. | |||
[[Categorie:1li]] [[Categorie:2li]] | [[Categorie:1li]] [[Categorie:2li]] |
Versie van 12 jun 2006 11:56
Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.
Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/
Examen bestaat ook uit 2 delen, van elke prof:
- (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
- (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
Er zit een duidelijk patroon in de examenvragen !
Vragen
2005-06-13
Deel 1:
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)
- Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
- Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
- Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
- AprioriHybrid: wnn switchen? en waarom?
2) Bespreek kort en bondig OLAP-operations
3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1
Deel 2: 1)
- kNN en DT: classificatie of clustering?
- Bespreek decision boundaries van kNN en DT
- Hoe optimale k bepalen voor kNN?
2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.
2006-06-12
Proffen waren het allebij vergeten, maar Anneleentje loste alles mooi op : )
Deel1
Vraag1(30%)
- Apriori voor vinden van large datasets. Naief is traag. Hoe gebruikt Apriori overlappende informatie van verschillende itemsets. Leg uit met volgend voorbeeld: itemsets {BCW,BFD,CFW,CFD} en voorbeeld BCFWDTIAS. Vervolgens een overduidelijke hint met volgende woorden: een hash bucket size van 2.
- Winepi voor patronen in sequences. Hoe gaat Winepi met overlapping om. Sequence 'AABBXXA', window=4. Leg uit voor parallel patroon: AB.
- (Ben ik een stuk vraag vergeten ?)
Vraag2(10%)
Wat zijn de OLAP operations die een hierarchische structuur gebruiken (ofzoiets)
Vraag3(10%)
gegeven zo'n play tennis tabel
C1: IF temperature = Hot THEN play = no ELSE play = yes
C2: IF attribute = Value THEN play = yes ELSE play = no
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit met FP cost = 10, rest = 1
Deel2
Vraag1
- Leg kort de werking van Decision Tree Learning en k Nearest Neighbours uit.
- Wat is het verschil in decision boundary van beide technieken (anders geformuleerd)
- Hoe kan je met een attribuut met een coninue waarde overweg bij Decision Tree Learning
- Overfitting bij decision trees:
- Wat is het effect van overfitting voor de descriptiviteit van decision trees.
- Hoe kan overfitting beperkt worden ?
Vraag2: Case Study
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken.