Statistische modellen en data-analyse

Uit Wina Examenwiki
Naar navigatie springen Naar zoeken springen

Inleiding

Dit vak wordt gegeven door Maarten Jansen (ter vervanging van Jan Beirlant).

Op het examen krijg je drie uur de tijd, het is mondeling met schriftelijke voorbereiding en open boek.

maandag 15/06/09 voormiddag

  • Je beschikt over de volgende meetgegevens: je hebt de neerslaghoeveelheid van telkens de eerste dag

van elke maand, en dit over een tijdsperiode van 25 jaar.

    • Je bent geïnteresseerd in de voorspelling van de temperatuur op telkens de 15de dag van de maand. Welk model gebruik je hiervoor?
    • Hoe kan je met een regressiemodel (geen ANOVA dus) aantonen of er een hoeveelheid neerslag per maand verschilt? Zou je ANOVA gebruiken voor deze specifieke vraag? Waarom wel of niet?
    • De gemeten hoeveelheid neerslag van 1 dag is waarschijnlijk niet normaal verdeeld.

Geef een toevalsmodel dat dit in rekening brengt en hoe zou je transformeren om normaliteit te bekomen?

  • Gegeven zijn n waarnemingen van een bivariate toevalsveranderlijke die uniform verdeeld is op een cirkelschijf met als middelpunt de oorsprong. Zoek de maximaal aannemelijke schatter voor de straal van deze cirkelschijf.
  • Waarvoor dient modelselectie? Waarom kunnen we niet gewoon beginnen met een zeker, groot model en dan nagaan welke covariaten significant zijn in het model?


maandag 23/06/08 namiddag

  • Gevraagd wordt de gemiddelde massa te bepalen van drie soorten appelen. We voeren 6 metingen uit. Onderstaande tabel geeft aan hoeveel appelen van iedere soort in elke weging voorkomen.
    • Stel een model op waarbij we aannemen dat de variantie in massa van de drie soorten gelijk is. Meetfouten mogen verwaarloosd worden. Welke aannames moeten we verder nog maken? Hoe kunnen die geverifieerd worden?
    • Hoe kunnen we testen of de drie soorten gemiddeld evenveel wegen of niet?
  • Gegeven maximaal aannemelijke schatters μ^ en σ^2 voor de parameters van een normale veranderlijke X. Wat zijn de meest aannemelijke schatters voor het 10%-bovenkwantiel van X en voor de kans dat X groter is dan een zekere waarde λ?
  • Waarom is Bonferroni minder geschikt voor groot aantal simultane testen? Is Scheffé minder goed voor een klein aantal testen? Waarom (niet)?

maandag 16/06/08 voormiddag

  • Men onderzoekt hoe het jaarlijks inkomen van een 25-jarige afhangt van het aantal jaar dat men heeft voortgestudeerd na het middelbaar onderwijs. Hiertoe worden 50 mensen geïnterviewd waarvan 10 één jaar hebben voortgestudeerd, 10 twee jaar, 10 drie jaar, 10 vier jaar en 10 vijf jaar. Het verband blijkt niet louter lineair te zijn, maar een kwadratische component te hebben.
    • Schrijf een regressiemodel dat dit probleem kan analyseren. Welke aannames moet je maken?
    • Hoe kan je normaliteit testen?
    • Dit probleem kan ook geanalyseerd worden met ANOVA. Formuleer het ANOVA-model. Waarom verkiezen we hier een regressiemodel?
    • Stel dat we slechts beschikken over data van drie klassen (1 jaar, 3 jaar en 5 jaar). Verandert dat iets aan de voorkeur voor regressie boven ANOVA?
    • Analyse (op normaliteit) van het residu onder het regressiemodel levert geen significante afwijking van normaliteit op. Aan de andere kant is er geen enkel bekend resultaat dat het regressiemodel verantwoordt. Waarom is het dan toegestaan het model toch te gebruiken?
  • Gegeven n waarnemingen van een Bernoulli-experiment (binair experiment: 0-1, lukken-mislukken). Wat is maximum likelihood estimator voor de verhouding p/(1-p) van de kansen p op succes en mislukking 1-p?
  • Leg uit: " In x=1ni=1nxi is een schatting van y=β0+β1x op basis van lineaire regressie even 'goed' als een schatting op basis van n observaties van Yl=y+εl."

maandag 16/06/08 namiddag

  • Men wil nagaan wat de invloed is van alcohol op de rijvaardigheid, en meer bepaald op de reactiesnelheid. 12 mannen en 10 vrouwen nemen deel aan een rijsimulatie. Deze mensen drinken eerst een (voor iedereen verschillende) hoeveelheid alcohol. Op het moment van de rijsimulatie wordt het alcoholpromillage in het bloed gemeten. Daarnaast wordt de gemiddelde reactiesnelheid gemeten.
    • Stel een model op dat bovenstaand experiment beschrijft.
    • Welke veronderstellingen moeten gemaakt worden? Bespreek (bondig) hoe we kunnen nagaan of die veronderstellingen correct zijn en wat we eventueel kunnen doen als deze niet voldaan zijn.
    • Hoe kunnen we testen of het effect van alcohol bij vrouwen anders is dan bij mannen?
  • Gegeven n waarnemingen uit een exponentieel verdeelde wachttijd met onbekende intensiteit λ. De verdelingsfunctie is fT(t)=λeλt. Zoek een maximum likelihood estimator voor de kans dat de wachttijd groter is dan t0.
  • In een gepaarde t-toets voor een test μX=μY geldt onder H0 dat μD=0 voor D=X-Y. Waarom gebruiken we dit niet om de variantie te schatten (onder H0)? We zouden dan krijgen σD2=1/ni=1n(Di0)2 zonder dat het nodig is μD te schatten. Wat zou het voordeel zijn? Waarom doen we dit dan niet?


2006-2007: 18/01/07

Vragen zijn zo'n beetje uit de losse pols geformuleerd hier.

Vraag 1

Hoe kunnen we homoscedasticiteit tegenover heteroscedasticiteit testen in het univariate ANOVA model? Geef formules en uitleg voor de teststatistiek, de verdeling onder nulhypothese en de p-waarde. Waarom is de teststatistiek zinvol? Wat betekent ze?

Vraag 2

In de bedrijfswereld gebruikt men dikwijls een afwikkelingsdriehoek om de kosten van een ongeval op lange termijn (meestal 10 jaar) weer te geven. Men is dan ook geïnteresseerd in voorspellingen over wat er de volgende jaren te betalen valt, dit is E(Yi,j). Hoe te lezen: de rijen stellen opeenvolgende jaren voor. De kolommen stellen voor hoeveel we n jaar verder betaald hebben hiervoor. Bijvoorbeeld: Y2,3 stelt voor hoeveel we in het jaar 5 (3 jaar later dan 2) hebben betaald aan ongevallen uit het jaar 2.

Afwikkelingsdriehoek
Jaar 1 2 ... T - 1 T
1 Y1,1 Y1,2 ... Y1,T-1 Y1,T
2 Y2,1 Y2,2 ... Y2,T-1
3 Y3,1 Y3,2 ...
...
T YT,1
  1. Stel dat we een regressie willen doen volgens het algemeen lineair model met logYi,j=αi+βilogj+γij. Hoe bouwen we dit concreet op?
  2. Op de nevendiagonalen staan telkens de waarden van wat er in 1 kalenderjaar betaald wordt, bvb, de getallen Y1,3,Y2,2 en Y3,1 zijn betaald in het jaar 3. Stel nu dat we een simpele lineaire regressie willen doen die logYi,j in functie van het kalenderjaar geeft. Hoe bouwen we dit model op?
  3. Bepaal met behulp van het model uit de vorige oefening een schatting voor de som van de betalingen in het jaar T+1.

Vraag 3

  1. Als we een steekproef van n nemen die we voorstellen door Y1,...,Yn van Y=(Y1,...,Yn), hoe kunnen we dan grafisch verifiëren of dit uit een multivariate normale verdeling komt?
  2. Zie figuur. Dit is een univariate normale kwantielplot van een eerste principaalcomponent. Welke van onderstaande uitspraken is juist? Verantwoord.
    1. De staarten van de verdeling van de Mahalanobisafstanden zijn zwaarder dan die van een χ2-verdeling.
    2. De verdeling is elliptisch en de staarten van de verdeling van de Mahalanobisafstanden zijn zwaarder dan die van een χ2-verdeling.
    3. De staarten van de verdeling van de Mahalanobisafstanden zijn lichter dan die van een χ2-verdeling.
    4. De verdeling is elliptisch en de staarten van de verdeling van de Mahalanobisafstanden zijn lichter dan die van een χ2-verdeling.

Vraag 4

Voor n personen werd een assertiviteitsmeting gedaan na 2 behandelingen. X1 is de score voor behandeling, X2 en X3 na de eerste en de tweede behandeling. De personen werden willekeurig in 2 groepen van grootte n1 en n2 ingedeeld.

  1. Geef de datastructuur die in een statistisch programma gebruikt zou worden als model.
  2. Hoe testen we of er een significante stijging is van X1X2 en/of X2X3? Bekijk alleen groep 1. Geef in detail de test, betrouwbaarheidsintervallen, het statistische model en hoe de p-waarde berekend wordt.
  3. Hoe testen we of de verschillen tussen X1X2 en X2X3 TESAMEN voor beide groepen gemiddeld hetzelfde is?