Text - based information retrieval
j.ondet sarl http://thomasacnn79.miss-web.es/cherbourg-cafpi.fr.html cherbourg cafpi.frflycell.cell http://thomasacnn79.miss-web.es/ancestry.co.uk-1871-census.html ancestry.co.uk 1871 censusale.laon anpe.fr http://thomasacnn79.miss-web.es/duguet.sarl-worldonline.fr.html duguet.sarl worldonline.fronet charleville onet services.com http://thomasacnn79.miss-web.es/laval.ca.html laval.cawww.poicedogs.onet http://thomasacnn79.miss-web.es/ale.stnazaire-anpe.fr.html ale.stnazaire anpe.frcannes cardy.fr http://thomasacnn79.miss-web.es/reims-menway-international.com.html reims menway international.comresideal.cannes resideal.com http://thomasacnn79.miss-web.es/maryland-psychiatrist-dr.nancy-shapiro.html maryland psychiatrist dr.nancy shapirost. augustus of bourges http://thomasacnn79.miss-web.es/onet-orleans-onet-services.com.html onet orleans onet services.comfinish line.com http://thomasacnn79.miss-web.es/toulon-afij.org.html toulon afij.orgale.evreux buzot anpe.fr http://thomasacnn79.miss-web.es/agence.charleville-manpower.fr.html agence.charleville manpower.fr
Examenvragen
25/08/2006
- Oefening: gegeven een 5x5 dissimilariteit matrix P, waarbij P(2,3) = P(3,4) = 3
- Bereken en teken dendrogrammen (a) voor single linkage, b) complete linkage met P(2,3) eerst behandelenen en c) complete linkage met P(3,4) eerst)
- Becommentarieer de dendrogrammen
- Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
- Indien het 3de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
- Theorie:
I. Gegeven dat de politie een nieuwe state-of-the-art tool wil kopen om in nieuwsartikels en politierapporten te zoeken. Welke technologieen zou je nodig hebben om het beste te kunnen zoeken op:
1) Verschillende spelling van namen van delinquenten
2) Leden van bendes
3) Aliassen van delinquenten
4) Verbanden tussen namen van delinquenten en gebruikte vluchtauto's
Geef ook de voor- en nadelen van de methodes.
II. Wat is query expansion? Waarvoor wordt het gebruikt? Voordelen? Nadelen? Wat gebeurt er met precision en recall?
- Paper: geen vragen
23/06/2006
- Oefening:
- Gegeven: 2 teksten (2 zinnen eerder)
- Gevraagd:
- Stel inference netwerk op.
- Stel query netwerk op van de 2 termen "virus" en "outbreak"
- Rangschik de documenten voor de AND query van deze 2 termen.
- Rangschik de documenten voor de OR query van deze 2 termen.
- Rangschik de documenten indien 1 van de termen en 1 van de documenten belangrijker is.
- Oefening:
- Gegeven: dissimilsarity matrix van 7 documenten voor het woord "star"
- Gevraagd:
- Zoek de verschillende betekenissen. (cluster de documenten)
- Hoe zou je de oplossingen vergelijken indien een expert je de juiste oplossingen zou geven? (Vilain, B-CUBED)
- Theorie:
- Leg HITS en PageRank uit.
- Hoe zou men deze algoritmes kunnen gebruiken bij text summarization?
- Hoe zou je die methode aanpassen voor topic general summaries of specific summaries?
- Theorie: Wat is co-training?
pre 2006
- Oefening: gegeven dissimilariteit matrix.
- Bereken en teken dendogrammen.
- Becommentarieer de dendogrammen.
- (?)
- Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
- Indien het 4de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
- Theorie: Word sense disambiguation.
- Paper: 'daar heb ik eigenlijk geen vragen over, dat was in orde' ;)