Statistische modellen en data-analyse: verschil tussen versies

Ga naar: navigatie, zoeken
(Vraag 3)
Regel 76: Regel 76:
 
== 2006-2007: 18/01/07 ==
 
== 2006-2007: 18/01/07 ==
 
Vragen zijn zo'n beetje uit de losse pols geformuleerd hier.
 
Vragen zijn zo'n beetje uit de losse pols geformuleerd hier.
 
I8uvrC  <a href="http://qofwitayckrf.com/">qofwitayckrf</a>, [url=http://kwwhwjaednzd.com/]kwwhwjaednzd[/url], [link=http://zjjkbnpbiwci.com/]zjjkbnpbiwci[/link], http://twmtgelxnnqv.com/
 
 
eetB5I  <a href="http://qjnjlanthvtc.com/">qjnjlanthvtc</a>, [url=http://nnzkdyihmwop.com/]nnzkdyihmwop[/url], [link=http://igfiiiwfcsso.com/]igfiiiwfcsso[/link], http://dvicllhvaloc.com/
 
 
http://www.oldstylelist.com/ auto insurance =) http://www.blogofascists.com/auto-insurance-quotes.htm auto insurance quotes 08134 http://www.mibb-design.com/ classic car insurance rzmm
 

Versie van 23 mrt 2011 om 22:51

Inleiding

Dit vak werd in 2010 gegeven door Mia Hubert, in 2009 door Maarten Janssen en daarvoor door Jan Beirlant.


Op het examen krijg je drie uur de tijd. 2010: Mondeling krijg je twee overzichtsvragen over de cursus, die niets te maken hebben met het schriftelijk gedeelte. Het examen is gesloten boek, je mag wel een A4-pagina recto verso vol schrijven met zaken die jij nuttig vindt. Voor 2010: mondeling met schriftelijke voorbereiding en open boek.

Maandag 14/06/10 voormiddag

  • Iemand heeft zonnepanelen geplaatst en houdt een jaar lang de productie bij. Gegeven zijn (in kWh) het totaal aantal geproduceerde elektriciteit, per dag. (Dus bv. als er elke maandag 3 kWh geproduceerd is, dan komt hij op 3*52 uit.) Deze dagtotalen zijn gegeven (de waarden lagen tussen 700 en 1000 voor elke dag). Test of er een verband bestaat tussen de productie en de dag van de week.
  • Stel dat X~ en B een reële qxp-matrix is met rang(B) . Wat is de verdeling van BX?
  • Zij een steekproef uit een multivariate normale verdeling met gemiddelde µ en GEKENDE covariantiematrix . We werken met de hypothesetest .
    • Stel de likelihood ratio statistiek op en bewijs dat
    • Wat is de verdeling van onder de nulhypothese?
  • Van 45 studenten werd er bijgehouden wat hun gemiddeld resultaat was tijdens een bepaalde examenperiode en hoeveel alcoholische dranken ze hadden geconsumeerd tijdens de blok. Deze laatste variabele kon drie waarden aannemen: 3 of minder, 4 tot 15 en 16 of meer. Een lineair model werd gefit van het gemiddeld resultaat t.o.v. het aantal dranken, met output: t-testen, geschatte waarden voor de slopes en het intercept, overall F-test, ..., de correlatie tussen deze beta's en de model matrix.
    • Test of er één of ander verband bestaat tussen het gemiddeld resultaat en het aantal dranken.
    • Wat zijn de modelaannames?
    • Bereken een 95% betrouwbaarheidsinterval van het verschil tussen het gemiddeld resultaat van een gematigde drinker (4 tot 15) en dat van een grote drinker (16 of meer).
    • Geef een interpretatie van dit interval.

dinsdag 16/06/09 voormiddag

  • Een variabele Y hangt af van de tijd, maar we weten niet precies hoe. We veronderstellen een veelterm-regressiemodel.
    • Stel we doen n observaties, sommige van deze observaties kunnen op het zelfde tijdstip gebeuren. In het totaal zijn er k verschillende tijdstippen, met k<n. Wat is de maximale waarde van de graad van de hoogste macht in het regressiemodel ?
    • Stel we maken een onderscheid tussen Y1 en Y2. Dat zijn dus twee groepen, bijvoorbeeld mannen versus vrouwen. Hoe kunnen we onderzoeken of de Y(t) relatie anders is in groep 1 dan in groep 2 ?
    • Hoe kan je met ANOVA onderzoeken of Y op een andere manier afhangt van t in de ene groep dan in de andere groep. Let wel op: het is mogelijk dat het aantal observaties op t_i bij groep 1 en groep 2 niet hetzelfde is. Wat zijn de voordelen en nadelen van ANOVA ?
    • Stel nu dat het aantal observaties op t_i bij groep 1 en groep 2 hetzelfde is, waardoor paren mogelijk wordt. Hoe zou je nu onderzoeken of Y op een andere manier afhangt van t in de ene groep dan in de andere groep ?
  • Een variabele is lognormaal verdeeld. Een lognormale verdeling heeft twee parameters: mu en sigma. Als een variabele log(X) N(mu,sigma) verdeeld is, dan is X lognormaal verdeeld met parameters mu en sigma. De verwachte waarde van een lognormale verdeling is e^(mu + (sigma^2)/2). Zoek een maximaal aannemelijke schatter voor de verwachte waarde van een lognormale verdeling.
  • Een eenvoudige lineaire regressie met 2 parameters, Y_i=a*x_i + b.
    • Leg uit: "We willen de schatter voor Y(x0) zo nauwkeurig mogelijk. Als je de x-waarden zou mogen kiezen, dan maakt het niet uit hoe precies je ze kiest, zolang de gemiddelde x maar gelijk is aan x0. "
    • De configuratie van de x-waarden is wel belangrijk wanneer het gaat om de nauwkeurigheid (*) van {de schatter van de nauwkeurigheid van de schatter van Y in x0} . Als je die nauwkeurigheid (*) zo hoog mogelijk wil, in welke configuratie dien je je x-waarden dan te kiezen ?

(hint die niet op het examen stond: bij de moeilijke tweede deelvraag van de laatste vraag, dien je twee chi-kwadraat verdelingen te vergelijken)

maandag 15/06/09 namiddag

  • Er wordt een vat met radioactief afval uit de zee gevist. Het vat bevat 3 verschillende stoffen, van elke stof is de halfwaardetijd gekend. Op regelmatige tijdstippen wordt de activiteit van het vat gemeten.
    • Stel een model op aan de hand waarvan de hoeveelheid van de 3 stoffen geschat kan worden.
    • Wat is de verdeling van de fluctuaties (hint: niet normaal verdeeld)? Aan welke twee modelveronderstellingen is niet voldaan? Hoe kan men deze twee problemen (tegelijk) oplossen?
  • Gegeven is een toevalsveranderlijke X die enkel waarden kan aannemen in een interval van de vorm met . Stel dat de dichtheidsfunctie van X van de vorm is met een stijgende functie op het intervan [0,1]. Gegeven is een steekproef van X. Toon aan dat de maximale aannemelijkheidsschatter voor a gegeven wordt de grootste observatie uit de steekproef.
  • Een zekere responsvariabele voldoet aan een enkelvoudig lineair model. Stel dat je de responsvariabele mag meten bij 4 waarden van de verklarende variabele. Bij eenzelfde waarde van de verklarende variabele mogen ook meerdere metingen gedaan worden, maar in totaal moeten er dus 4 metingen zijn. De verklarende variabele mag ook enkel waarden aannemen tussen 0 en 1. Welke 4 waarden voor de verklarende variabele in [0,1] moet men kiezen opdat de helling van de regressierechte zo nauwkeurig mogelijk geschat wordt?

maandag 15/06/09 voormiddag

  • Je beschikt over de volgende meetgegevens: je hebt de neerslaghoeveelheid van telkens de eerste dag

van elke maand, en dit over een tijdsperiode van 25 jaar.

    • Je bent geïnteresseerd in de voorspelling van de temperatuur op telkens de 15de dag van de maand. Welk model gebruik je hiervoor?
    • Hoe kan je met een regressiemodel (geen ANOVA dus) aantonen of er een hoeveelheid neerslag per maand verschilt? Zou je ANOVA gebruiken voor deze specifieke vraag? Waarom wel of niet?
    • De gemeten hoeveelheid neerslag van 1 dag is waarschijnlijk niet normaal verdeeld.

Geef een toevalsmodel dat dit in rekening brengt en hoe zou je transformeren om normaliteit te bekomen?

  • Gegeven zijn waarnemingen van een bivariate toevalsveranderlijke die uniform verdeeld is op een cirkelschijf met als middelpunt de oorsprong. Zoek de maximaal aannemelijke schatter voor de straal van deze cirkelschijf.
  • Waarvoor dient modelselectie? Waarom kunnen we niet gewoon beginnen met een zeker, groot model en dan nagaan welke covariaten significant zijn in het model?


maandag 23/06/08 namiddag

  • Gevraagd wordt de gemiddelde massa te bepalen van drie soorten appelen. We voeren 6 metingen uit. Onderstaande tabel geeft aan hoeveel appelen van iedere soort in elke weging voorkomen.
    • Stel een model op waarbij we aannemen dat de variantie in massa van de drie soorten gelijk is. Meetfouten mogen verwaarloosd worden. Welke aannames moeten we verder nog maken? Hoe kunnen die geverifieerd worden?
    • Hoe kunnen we testen of de drie soorten gemiddeld evenveel wegen of niet?
  • Gegeven maximaal aannemelijke schatters en voor de parameters van een normale veranderlijke X. Wat zijn de meest aannemelijke schatters voor het 10%-bovenkwantiel van X en voor de kans dat X groter is dan een zekere waarde ?
  • Waarom is Bonferroni minder geschikt voor groot aantal simultane testen? Is Scheffé minder goed voor een klein aantal testen? Waarom (niet)?

irUCl3 <a href="http://zfawqhizyfgb.com/">zfawqhizyfgb</a>, [url=http://jlnrrcaicema.com/]jlnrrcaicema[/url], [link=http://cptoaoopjycs.com/]cptoaoopjycs[/link], http://fsiaarbhuilp.com/

maandag 16/06/08 namiddag

  • Men wil nagaan wat de invloed is van alcohol op de rijvaardigheid, en meer bepaald op de reactiesnelheid. 12 mannen en 10 vrouwen nemen deel aan een rijsimulatie. Deze mensen drinken eerst een (voor iedereen verschillende) hoeveelheid alcohol. Op het moment van de rijsimulatie wordt het alcoholpromillage in het bloed gemeten. Daarnaast wordt de gemiddelde reactiesnelheid gemeten.
    • Stel een model op dat bovenstaand experiment beschrijft.
    • Welke veronderstellingen moeten gemaakt worden? Bespreek (bondig) hoe we kunnen nagaan of die veronderstellingen correct zijn en wat we eventueel kunnen doen als deze niet voldaan zijn.
    • Hoe kunnen we testen of het effect van alcohol bij vrouwen anders is dan bij mannen?
  • Gegeven n waarnemingen uit een exponentieel verdeelde wachttijd met onbekende intensiteit . De verdelingsfunctie is . Zoek een maximum likelihood estimator voor de kans dat de wachttijd groter is dan .
  • In een gepaarde t-toets voor een test geldt onder dat voor D=X-Y. Waarom gebruiken we dit niet om de variantie te schatten (onder )? We zouden dan krijgen zonder dat het nodig is te schatten. Wat zou het voordeel zijn? Waarom doen we dit dan niet?


2006-2007: 18/01/07

Vragen zijn zo'n beetje uit de losse pols geformuleerd hier.