Data mining: verschil tussen versies
examenvragen vandaag, mogelijk incompleet |
k reorder |
||
Regel 9: | Regel 9: | ||
Er zit een duidelijk '''patroon''' in de examenvragen ! | Er zit een duidelijk '''patroon''' in de examenvragen ! | ||
== | == Examens == | ||
=== 2006-06-12 === | === 2006-06-12 === | ||
Regel 77: | Regel 46: | ||
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.<br> | Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.<br> | ||
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken. | 12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken. | ||
=== 2005-06-13 === | |||
Deel 1: | |||
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)<br> | |||
:# Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results? | |||
:# Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt | |||
:# Bespreek hoe performantie bij AprioriTid wordt beïnvloedt | |||
:# AprioriHybrid: wnn switchen? en waarom? | |||
2) Bespreek kort en bondig OLAP-operations | |||
3) gegeven zo'n play tennis tabel<br> | |||
C1: IF temperature = mild THEN play = yes ELSE play = no<br> | |||
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)<br> | |||
- confusion matrix<br> | |||
- Accuracy<br> | |||
- Recall<br> | |||
- Precision<br> | |||
- FPR<br> | |||
- Profit b(y,+) = 10, rest = 1<br> | |||
Deel 2: | |||
1) | |||
* kNN en DT: classificatie of clustering? | |||
* Bespreek decision boundaries van kNN en DT | |||
* Hoe optimale k bepalen voor kNN? | |||
2) Case study: gegeven een verhaaltje :-)<br> | |||
Bespreken van pre-processing steps, transformation...<br> | |||
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.<br> | |||
[[Categorie:1li]] [[Categorie:2li]] | [[Categorie:1li]] [[Categorie:2li]] |
Versie van 12 jun 2006 14:08
Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.
Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/
Examen bestaat ook uit 2 delen, van elke prof:
- (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
- (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
Er zit een duidelijk patroon in de examenvragen !
Examens
2006-06-12
Proffen waren het allebij vergeten, maar Anneleentje loste alles mooi op : )
Deel1
Vraag1(30%)
- Apriori voor vinden van large datasets. Naief is traag. Hoe gebruikt Apriori overlappende informatie van verschillende itemsets. Leg uit met volgend voorbeeld: itemsets {BCW,BFD,CFW,CFD} en voorbeeld BCFWDTIAS. Vervolgens een overduidelijke hint met volgende woorden: een hash bucket size van 2.
- Winepi voor patronen in sequences. Hoe gaat Winepi met overlapping om. Sequence 'AABBXXA', window=4. Leg uit voor parallel patroon: AB.
- (Ben ik een stuk vraag vergeten ?)
Vraag2(10%)
Wat zijn de OLAP operations die een hierarchische structuur gebruiken (ofzoiets)
Vraag3(10%)
gegeven zo'n play tennis tabel
C1: IF temperature = Hot THEN play = no ELSE play = yes
C2: IF attribute = Value THEN play = yes ELSE play = no
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit met FP cost = 10, rest = 1
Deel2
Vraag1
- Leg kort de werking van Decision Tree Learning en k Nearest Neighbours uit.
- Wat is het verschil in decision boundary van beide technieken (anders geformuleerd)
- Hoe kan je met een attribuut met een coninue waarde overweg bij Decision Tree Learning
- Overfitting bij decision trees:
- Wat is het effect van overfitting voor de descriptiviteit van decision trees.
- Hoe kan overfitting beperkt worden ?
Vraag2: Case Study
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken.
2005-06-13
Deel 1:
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)
- Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
- Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
- Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
- AprioriHybrid: wnn switchen? en waarom?
2) Bespreek kort en bondig OLAP-operations
3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1
Deel 2: 1)
- kNN en DT: classificatie of clustering?
- Bespreek decision boundaries van kNN en DT
- Hoe optimale k bepalen voor kNN?
2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.