Text - based information retrieval

Uit Wina Examenwiki
Naar navigatie springen Naar zoeken springen

j.ondet sarl http://thomasacnn79.miss-web.es/cherbourg-cafpi.fr.html cherbourg cafpi.frflycell.cell http://thomasacnn79.miss-web.es/ancestry.co.uk-1871-census.html ancestry.co.uk 1871 censusale.laon anpe.fr http://thomasacnn79.miss-web.es/duguet.sarl-worldonline.fr.html duguet.sarl worldonline.fronet charleville onet services.com http://thomasacnn79.miss-web.es/laval.ca.html laval.cawww.poicedogs.onet http://thomasacnn79.miss-web.es/ale.stnazaire-anpe.fr.html ale.stnazaire anpe.frcannes cardy.fr http://thomasacnn79.miss-web.es/reims-menway-international.com.html reims menway international.comresideal.cannes resideal.com http://thomasacnn79.miss-web.es/maryland-psychiatrist-dr.nancy-shapiro.html maryland psychiatrist dr.nancy shapirost. augustus of bourges http://thomasacnn79.miss-web.es/onet-orleans-onet-services.com.html onet orleans onet services.comfinish line.com http://thomasacnn79.miss-web.es/toulon-afij.org.html toulon afij.orgale.evreux buzot anpe.fr http://thomasacnn79.miss-web.es/agence.charleville-manpower.fr.html agence.charleville manpower.fr

Examenvragen

25/08/2006

  1. Oefening: gegeven een 5x5 dissimilariteit matrix P, waarbij P(2,3) = P(3,4) = 3
    • Bereken en teken dendrogrammen (a) voor single linkage, b) complete linkage met P(2,3) eerst behandelenen en c) complete linkage met P(3,4) eerst)
    • Becommentarieer de dendrogrammen
    • Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
    • Indien het 3de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
  2. Theorie:

I. Gegeven dat de politie een nieuwe state-of-the-art tool wil kopen om in nieuwsartikels en politierapporten te zoeken. Welke technologieen zou je nodig hebben om het beste te kunnen zoeken op:

1) Verschillende spelling van namen van delinquenten
2) Leden van bendes
3) Aliassen van delinquenten
4) Verbanden tussen namen van delinquenten en gebruikte vluchtauto's

Geef ook de voor- en nadelen van de methodes.

II. Wat is query expansion? Waarvoor wordt het gebruikt? Voordelen? Nadelen? Wat gebeurt er met precision en recall?

  1. Paper: geen vragen

23/06/2006

  1. Oefening:
    • Gegeven: 2 teksten (2 zinnen eerder)
    • Gevraagd:
      1. Stel inference netwerk op.
      2. Stel query netwerk op van de 2 termen "virus" en "outbreak"
      3. Rangschik de documenten voor de AND query van deze 2 termen.
      4. Rangschik de documenten voor de OR query van deze 2 termen.
      5. Rangschik de documenten indien 1 van de termen en 1 van de documenten belangrijker is.
  2. Oefening:
    • Gegeven: dissimilsarity matrix van 7 documenten voor het woord "star"
    • Gevraagd:
      1. Zoek de verschillende betekenissen. (cluster de documenten)
      2. Hoe zou je de oplossingen vergelijken indien een expert je de juiste oplossingen zou geven? (Vilain, B-CUBED)
  3. Theorie:
    • Leg HITS en PageRank uit.
    • Hoe zou men deze algoritmes kunnen gebruiken bij text summarization?
    • Hoe zou je die methode aanpassen voor topic general summaries of specific summaries?
  4. Theorie: Wat is co-training?

pre 2006

  1. Oefening: gegeven dissimilariteit matrix.
    • Bereken en teken dendogrammen.
    • Becommentarieer de dendogrammen.
    • (?)
    • Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
    • Indien het 4de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
  2. Theorie: Word sense disambiguation.
  3. Paper: 'daar heb ik eigenlijk geen vragen over, dat was in orde' ;)