Statistische modellen en data-analyse

Inleiding

Dit is geschreven op basis van 1 observatie, dus het betrouwbaarheidsinterval is nogal ruim :). Met name ben ik er niet zeker van of volgende jaren dezelfde prof (J. Beirlant) dit vak zal geven. Het examen is schriftelijk en open boek. Je krijgt 4 uur de tijd. De vragen hebben nogal veel uitleg en zijn vrij algemeen. Er wordt nadruk gelegd op veel details geven, het goed uitleggen, ...

Twee jaar geleden gaf Mia Hubert het vak, vorig jaar Jan Beirlant, nu Maarten Jansen.

maandag 16/06/08 voormiddag

Men onderzoekt hoe het jaarlijks inkomen van een 25-jarige afhangt van het aantal jaar dat men heeft voortgestudeerd na het middelbaar onderwijs. Hiertoe worden 50 mensen geÃƒÂ¯nterviewd waarvan 10 ÃƒÂ©ÃƒÂ©n jaar hebben voortgestudeerd, 10 twee jaar, 10 drie jaar, 10 vier jaar en 10 vijf jaar. Het verband blijkt niet louter lineair te zijn, maar een kwadratische component te hebben.
- Schrijf een regressiemodel dat dit probleem kan analyseren. Welke aannames moet je maken?
- Hoe kan je normaliteit testen?
- Dit probleem kan ook geanalyseerd worden met ANOVA. Formuleer het ANOVA-model. Waarom verkiezen we hier een regressiemodel?
- Stel dat we slechts beschikken over data van drie klassen (1 jaar, 3 jaar en 5 jaar). Verandert dat iets aan de voorkeur voor regressie boven ANOVA?
- Analyse (op normaliteit) van het residu onder het regressiemodel levert geen significante afwijking van normaliteit op. Aan de andere kant is er geen enkel bekend resultaat dat het regressiemodel verantwoordt. Waarom is het dan toegestaan het model toch te gebruiken?

Gegeven n waarnemingen van een Bernoulli-experiment (binair experiment: 0-1, lukken-mislukken). Wat is maximum likelihood estimator voor de verhouding p/(1-p) van de kansen p op succes en mislukking 1-p?

Leg uit: " In $\overline{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$ is een schatting van $\overline{y} = β_{0} + β_{1} \overline{x}$ op basis van lineaire regressie even 'goed' als een schatting op basis van n observaties van $Y_{l} = \overline{y} + ε_{l}$

maandag 16/06/08 namiddag

2006-2007: 18/01/07

Vragen zijn zo'n beetje uit de losse pols geformuleerd hier.

Vraag 1

Hoe kunnen we homoscedasticiteit tegenover heteroscedasticiteit testen in het univariate ANOVA model? Geef formules en uitleg voor de teststatistiek, de verdeling onder nulhypothese en de p-waarde. Waarom is de teststatistiek zinvol? Wat betekent ze?

Vraag 2

In de bedrijfswereld gebruikt men dikwijls een afwikkelingsdriehoek om de kosten van een ongeval op lange termijn (meestal 10 jaar) weer te geven. Men is dan ook geÃƒÂ¯nteresseerd in voorspellingen over wat er de volgende jaren te betalen valt, dit is E(Y_i,j). Hoe te lezen: de rijen stellen opeenvolgende jaren voor. De kolommen stellen voor hoeveel we n jaar verder betaald hebben hiervoor. Bijvoorbeeld: Y_2,3 stelt voor hoeveel we in het jaar 5 (3 jaar later dan 2) hebben betaald aan ongevallen uit het jaar 2.

Afwikkelingsdriehoek
Jaar	1	2	...	T - 1	T
1	Y_1,1	Y_1,2	...	Y_1,T-1	Y_1,T
2	Y_2,1	Y_2,2	...	Y_2,T-1
3	Y_3,1	Y_3,2	...
...
T	Y_T,1

Stel dat we een regressie willen doen volgens het algemeen lineair model met $\log Y_{i, j} = α_{i} + β_{i} \log j + γ_{i} j$ . Hoe bouwen we dit concreet op?
Op de nevendiagonalen staan telkens de waarden van wat er in 1 kalenderjaar betaald wordt, bvb, de getallen $Y_{1, 3}, Y_{2, 2}$ en $Y_{3, 1}$ zijn betaald in het jaar 3. Stel nu dat we een simpele lineaire regressie willen doen die $\log Y_{i, j}$ in functie van het kalenderjaar geeft. Hoe bouwen we dit model op?
Bepaal met behulp van het model uit de vorige oefening een schatting voor de som van de betalingen in het jaar T+1.

Vraag 3

Als we een steekproef van n nemen die we voorstellen door $\vec{Y_{1}}, . . ., \vec{Y_{n}}$ van $\vec{Y} = (Y_{1}, . . ., Y_{n})^{'}$ , hoe kunnen we dan grafisch verifiÃƒÂ«ren of dit uit een multivariate normale verdeling komt?
Zie figuur. Dit is een univariate normale kwantielplot van een eerste principaalcomponent. Welke van onderstaande uitspraken is juist? Verantwoord.
1. De staarten van de verdeling van de Mahalanobisafstanden zijn zwaarder dan die van een $χ^{2}$ -verdeling.
2. De verdeling is elliptisch en de staarten van de verdeling van de Mahalanobisafstanden zijn zwaarder dan die van een $χ^{2}$ -verdeling.
3. De staarten van de verdeling van de Mahalanobisafstanden zijn lichter dan die van een $χ^{2}$ -verdeling.
4. De verdeling is elliptisch en de staarten van de verdeling van de Mahalanobisafstanden zijn lichter dan die van een $χ^{2}$ -verdeling.

Vraag 4

Voor n personen werd een assertiviteitsmeting gedaan na 2 behandelingen. $X_{1}$ is de score voor behandeling, $X_{2}$ en $X_{3}$ na de eerste en de tweede behandeling. De personen werden willekeurig in 2 groepen van grootte $n_{1}$ en $n_{2}$ ingedeeld.

Geef de datastructuur die in een statistisch programma gebruikt zou worden als model.
Hoe testen we of er een significante stijging is van $X_{1} \to X_{2}$ en/of $X_{2} \to X_{3}$ ? Bekijk alleen groep 1. Geef in detail de test, betrouwbaarheidsintervallen, het statistische model en hoe de p-waarde berekend wordt.
Hoe testen we of de verschillen tussen $X_{1} \to X_{2}$ en $X_{2} \to X_{3}$ TESAMEN voor beide groepen gemiddeld hetzelfde is?

Statistische modellen en data-analyse

Inhoud

Inleiding

maandag 16/06/08 voormiddag

maandag 16/06/08 namiddag

2006-2007: 18/01/07

Vraag 1

Vraag 2

Vraag 3

Vraag 4

Navigatiemenu

Statistische modellen en data-analyse

Inleiding

maandag 16/06/08 voormiddag

maandag 16/06/08 namiddag

2006-2007: 18/01/07

Vraag 1

Vraag 2

Vraag 3

Vraag 4

Navigatiemenu

Zoeken