Statistiek en Data-Analyse

Ga naar: navigatie, zoeken

Samenvattingen

Klik hier om de samenvattingen te bekijken

Inleiding

Dit vak wordt sinds het academiejaar 2015-2016 gegeven door prof. Irène Gijbels in elke CBBGG-bachelor en de bachelor informatica (2e fase). Hiervoor werd het gegeven door prof. Mia Hubert. Voor het academiejaar 2009-2010 kregen de informatici het vak Statistiek samen met de wiskundigen en fysici.

Per week is er een hoorcollege (in het begin twee) waar na twee weken niemand meer naartoe komt. Het handboek is redelijk duidelijk: er zijn samenvattingen aan het einde van elk hoofdstuk en bijna elk stuk theorie wordt geïllustreerd met een voorbeeld. Het is toch nuttig om naar de oefenzittingen te komen, omdat daar duidelijk wordt hoe oefeningen op het examen gemaakt moeten worden, terwijl het handboek voornamelijk theorie bespreekt. In totaal zijn er maar zes oefenzittingen.

Daarnaast zijn er 3 zelfstudiepaketten die je leren werken met de statistische programmeertaal R. Om die in detail door te werken heb je normaal gezien meerdere dagen nodig. Het is niet noodzakelijk deze te maken, maar je moet je kennis van R (die enkel daarin wordt aangereikt) wel kunnen gebruiken voor het practicum en op het examen.

Aan het einde van het semester is er een practicum over bivariate inferentie (2016), dat je alleen of per twee maakt. Dit staat op 3 van de 20 punten. Het stramien is gelijkaardig aan dat van de oefeningen over hoofdstukken 6 en 8, maar dit keer werk je met R in plaats van op papier. Als je geluk hebt met je gegevens, is het mogelijk om dit op een dag af te werken, in veronderstelling dat je met R overweg kunt. Vertrouw er echter niet op dat dit zeker het geval zal zijn. Wie in de problemen komt, kan tijdens de oefenzitting hulp vragen.

Vakevaluatie

Elk puntje hieronder is iemands mening. Verander aub geen puntjes. Als je een andere mening hebt, gelieve ze onderaan toe te voegen.

Kwaliteit cursus (prijs, duidelijkheid, overeenkomst met les, ...)

  • 2016: Het handboek is OK als je de wiskunde wat kunt volgen. Alles wat je moet kennen, staat daarin.

Studiebelasting (aantal studiepunten in verhouding met bestede tijd)

  • 2016: 3 studiepunten wel correct. Het is zoals Wiskunde II, maar dan over het hele semester. Aan het einde van het semester is er wel nog een practicum.

Plaats binnen de opleiding (nodige voorkennis, overlap met andere vakken, relevantie van het vak,...)

  • 2016: Wetenschappers moeten iets kennen van statistiek. Zo is het nu eenmaal. Het overlapt niet met eerder geziene vakken.

Manier van lesgeven bij hoorcolleges (snelheid, verstaanbaarheid, structuur, nut, ...)

  • 2016: Na een tijd ging er niemand meer naar de colleges omdat de uitleg van Prof. Irene Gijbels te saai was.

Evaluatie oefenzittingen/labo's (nut, begeleiding, ...)

  • 2016: De oefenzittingen geven een goed beeld van het type vragen dat je kan verwachten. Tom Reynkens was een goede assistent, die het nog wat uitlegde voor wie niet naar het college was geweest.

Examen (mate waarin het een weerspiegeling is van de cursus, examenvorm, ...)

  • 2016: Het examen is te doen als je de oefeningen uit het handboek en de oefenzittingen begrijpt. Over zowat alles wordt er een vraag gesteld.

Examens

Academiejaar 2019-2020

17 januari 2020

N.B.: Het examen bevatte heel veel vragen, dus deze vragen zullen niet exact overeenkomen met die van het examen, maar geven wel een goed beeld ervan! De delen die waarschijnlijk niet 100% overeenkomen met het examen zijn aangeduid met '(?)'.

  1. Theorie
    1. Gegeven (?) met parameter (of iets in die aard). Hoe noteren we dat een onvertekende schatter is met parameter ?
    2. Bewijs dat een onvertekende schatter is voor (?). (Dit is bijna volledig equivalent aan het bewijs van de onvertekende schatter )
    3. Geef een onvertekende schatter voor
  2. Oefeningen
    1. Gegeven twee kansvariabelen waarbij . Bereken
    2. Een bedrijf onderzoekt spammails. Na enkele metingen stellen ze enkele kansen vast:
      1. Het percentage mails dat spam is
      2. Het percentage mails dat gegeven dat het spam is en...
        • ... de zin: "dit is geen spam" bevat
        • ... het woord: "dringend" bevat
        • ... het woord: "belangrijk" bevat
      3. Het percentage mails dat gegeven dat het geen spam is en...:
        • ... de zin: "dit is geen spam" bevat
        • ... het woord: "dringend" bevat
        • ... het woord: "belangrijk" bevat
      4. Een kans die met de wet van Bayes moest berekend worden.
      5. Bereken de kans dat een mail het woord "dringend" bevat en niet het woord "belangrijk".
      6. Bereken de kans dat een mail die spam is het woord "dringend" bevat en niet het woord "belangrijk".
    3. Er worden rookmelders per pakket van vier verkocht: elk pakket bevat dus 4 rookmelders. De supermarkt houdt een actie waarbij klanten een pakket kunnen terugbrengen als het minstens één defecte rookmelder bevat en hierbij hun geld terugkrijgen. Door metingen meet men dat de kans op een productiefout bij een enkele rookmelder 0.01 is.
      1. Toon aan dat de kans dat een klant een pakket terugbrengt gelijk is aan 3.9%. Le hoe je dit resultaat bekomt.
      2. Hertogin van (insert debiele naam van verzonnen gebied) wil haar kasteel beveiligen met rookmelders. Hiertoe koopt ze een gegeven aantal (vergeten hoeveel, 8?) pakketten rookmelders. Wat is de kans dat ze precies één pakket rookmelders moet terugbrengen naar de supermarkt?
      3. Bedrijf SafetyFirst koopt een groot aantal rookmelderpakketten (ergens in de 200-300). Bereken de kans dat ze hoogstens 20% van de aangekochte pakketten rookmelders moeten terugbrengen.
    4. Er wordt een steekproef genomen op een aatntal jongeren dat hun rijexamen wil afleggen. Er zijn twee kansvariabelen gegeven, waarbij het aantal pogingen om te slagen voor het rijexamen voorstelt (1, 2, 3 of 4), en het aantal uren rijles genomen voorstelt (ze hadden de keuze tussen een pakket van 5, 10, 15 of 20 uren les). Er wordt een (4x4)-kruistabel gegeven met de resultaten uit de steekproef.
      1. Bereken de marginale kansverdeling van .
      2. Bereken de kans dat iemand slaagt op zijn eerste poging voor het rijexamen.
      3. Welk lessenpakket (5, 10, 15 of 20 uren les) zou je nemen als je zeker op je eerste examenpoging wilt slagen?
      4. Bereken . Kan je hieruit afleiden of er een verband is tussen ?
    5. Uit metingen blijkt dat er op weeknachten zeer veel bestuurders onder invloed rijden.: zo'n 10,3% blijkbaar. Om dit na te gaan werd een steekproef uitgevoerd op een willekeurige wekelijkse nacht, op een Steenweg nabij Hasselt. Hierbuit bleek dat 12 van de 136 (?) gecontroleerde bestuurders onder invloed reed.
      1. Stel een 95% betrouwbaarheidsinterval op voor deze proportie.
      2. Men denkt dat het percentage bestuurders dat onder invloed rijdt op een doordeweekse nacht lager ligt dat 10,3%. Voer hieromtrent een hypothesetest uit op significantieniveau 0.05. Geef je hypotheses, teststatistiek, testwaarde en besluit.
    6. Greta wil een elektrische wagen kopen. Ze moet hierbij een keuze maken tussen een van het merk ECars of van het merk GreenFlow. Ze had gehoord dat die van het merk ECars een hoger bereik hebben, en voert hiertoe een hypothesetest uit rond de metingen die ze verrichtte: ze mat het bereik van 30 wagens van het merk ECars en het bereik van 25 wagens van het merk GreenFlow. Gegeven is een R-ouput met de gemiddeldes en standaarddeviaties van de breiken van de steekproeven van beide wagens, evenals de output van een F-test tussen beide metingen.
      1. Welke teststatistiek gebruik je om hieromtrent een hypothesetest uit te voeren? Waarom?
      2. Geef de hypothesen.
      3. Geef de waarde van de teststatistiek en de p-waarde.
      4. Vorm op basis hiervan een besluit.
    7. Een professor wil weten of er een verband is tussen het aantal keren dat studenten naar de hoorcolleges komen en het resultaat dat ze behalen op hun examen. Hiertoe schrijft hij voor tien studenten deze aantallen op, deze worden gegeven in een tabel. Om een mogelijk verband na te gaan voert hij een regressieanalyse uit op zijn gegevens, waarbij hij volengde R-output verkrijgt: [gegeven: R-ouput van het commando lm(y~x) en bijhorende ANOVA-tabel].
      1. Enkele waarden ontbreken in deze output, vul ze aan en leg uit hoe je ze bekomen bent. (Dit waren: -waarde uit het lm-commando, de -waarde en de -waarde dacht ik)
      2. Geef de -waarde, wat betekent deze waarde?
      3. Stel de regressierchte op.
      4. Indien een student 12 (?) uur les heeft gevolgd, wat is volgens het model dan zijn verwachte resultaat op het examen?

Academiejaar 2017-2018

19 januari 2018

  1. Theorie:
    1. Bewijs dat de exponentiële verdeling geheugenloos is (en hoe noemt men dat).
    2. Bewijs dat E(k(X)l(Y)) = E(k(X))*E(l(Y)).
    3. gegeven een exponentiële verdeling X en een normale verdeling Y (met gegeven lambda, mu en sigma) bereken E(X*Y^2).
  2. Oefeningen:
    1. A en B gaan met waarschijnlijkheid 0.8 en 0.6 naar de les, wat is de kans dat een van de 2 in de les zitten (onafhankelijk).
    2. Wat is de kans dat B naar een les gaat als A niet naar een les gaat (afhankelijk).
    3. Er zijn 2 keer zoveel hoorcolleges als oefenzittingen, wat is de kans dat B naar een oefenzitting gaat.
    4. De gemiddelde lengte van een vrouw is 165cm met sd = 4 en bij een man is 175cm met sd = 8, ze zijn allebei normaal verdeeld (Y = man, X = vrouw), wat is Y-X, E(Y-X) en Var(Y-X) (lengte is onafhankelijk).
    5. Kans dat man en vrouw allebei < 170cm
    6. Kans dat man kleiner is da vrouw.
    7. Vraag over Cavia's en of meer vitamine C invloed heeft op de groei van hun tanden (sigma, mu en n gegeven) (vraag over betrouwbaarheidsintervallen, normale- en t-verdeling), bereken n zodat foutenmarge < 0.001.
    8. Vraag ?
    9. Vraag ??
    10. Vraag rond lineaire regressiemodel en ANOVA-tabel

Academiejaar 2016-2017

30 januari 2017

Gelieve verder aan te vullen. Enkele deelvragen ontbreken.

  1. Theorie
    1. Juist/foutvragen
      1. Zij X en Y twee standaardnormaal verdeelde toevalsvariabelen en Z normaal verdeeld met gemiddelde 0 en variantie 0.25. Dan volgt X + Y + 4Z een -verdeling met 6 vrijheidsgraden.
      2. Gegeven een bepaalde kansverdeling die gedefnineerd is op het interval [-1, 1]. Voor andere x is de kans 0. De modus van deze kansverdeling is 0.
      3. Zij X en Y binomiaal verdeeld met een gegeven matrices en . Hier is Var(X - 3Y) = E(X - 3Y) = 9.
      4. Nog één.
    2. Bewijs dat E(X) = E(X) en Var(X) = Var(X) / n.
    3. Bewijs dat een onvertekende schatter is voor de steekproefvariantie.
    4. Stel dat we een steekproef uitvoeren op een variabele met gegeven populatiegemiddelde en -variantie. Wat is de kans dat het gemeten gemiddelde 3 is?
  2. Beschouw een experiment waarbij ballen van verschillende kleuren uit een zak gehaald worden, met X het aantal rode ballen en Y het aantal zwarte ballen. Een tabel met kansen op alle mogelijke uitkomsten is gegeven.
    1. Stel de dichtheidsfunctie op van Y gegeven X.
    2. Wat is E(YX^2-2XY)?
    3. Wat is Cov(X,Y)?
    4. Toon op twee verschillende manieren aan dat X en Y afhankelijk zijn.
  3. Op de spoeddienst zijn er gemiddeld 2 aankomsten per uur. Zij X het totale aantal aankomsten in een shift. Een shift duurt 4 uur.
    1. Wat is de meest geschikte verdeling om X te modelleren en waarom is het de Poisson-verdeling? Stel de kansdichtheid op.
    2. Wat is de verwachtingswaarde? Wat is de variantie?
    3. Wat is de kans dat er meer dan 1 aankomst is op een shift?
    4. Dokter Bart werkt niet op kerstavond maar kan opgeroepen worden als er in de helft van de shift strikt meer dan 4 aankomsten zijn. Wat is de kans dat hij opgeroepen wordt?
    5. Wat is de kans dat hij in vijf opeenvolgende jaren precies vier keer op kerstavond opgeroepen wordt?
  4. In een familie is er 25% kans dat een vrouw drager is van het gen voor hemofilie. In dat geval hebben haar zonen elk een kans van 30% percent om de aandoening te hebben, onafhankelijk van elkaar. Als de moeder geen drager is, is de kans 0 voor elke zoon.
    1. Wat is de kans dat bij een moeder met twee kinderen in deze familie de oudste zoon hemofilie heeft en de jongste niet?
    2. Wat is de kans dat een vrouw drager is van het gen als geen van haar drie zonen hemofilie heeft?
  5. Donald beweert dat de gemiddelde levensverwachting van een inwoner van de Verenigde Staten 75 jaar is. Vladimir gelooft hem niet en hackt binnen in het computersysteem van de Amerikaanse overheid. Hij vindt een document met leeftijden bij overlijden van een aantal Amerikanen. De standaardafwijking bedraagt precies 5 en het gemiddelde is 77. Vladimir kan uitstekend met R werken en krijgt de volgende output.
t = (a), df = 25, p-value = (b)
alternative hypothesis: true mean is not equal to (c)
95 percent confidence interval:
 (d) (e)
sample estimates:
mean of x 
   77.0

    1. Welke hypothesen worden gebruikt? Welke verdeling volgt de onderzochte variabele onder H0?
    2. Vul de onbekende waarden aan.
    3. Wat kunnen we zeggen over de levensverwachting? Moet Vladimir Donald gelijk geven?
    4. Stel dat we na jarenlang onderzoek wisten dat de populatievariantie ook 5 is. Moeten we dan onze conclusie veranderen? Leg uit.
  1. Een agent voert alcoholcontroles uit op 3 verschillende plaatsen en test op 3 verschillende percentages alcohol in het bloed. Een kruistabel met absolute frequenties van de metingen is gegeven. Onderzoek of er een verband bestaat tussen beide variabelen.
    1. Welke hypothesen stel je op? Wat zijn de voorwaarden die hiermee geassocieerd zijn om een test uit te voeren en is hieraan voldaan?
    2. Welke teststatistiek gebruik je en welke verdeling volgt deze onder H0?
    3. Bereken de testwaarde en de P-waarde.
    4. Vorm een besluit over de test.
    5. Stel dat de agent zelf gedronken had en op de derde plaats foutief gemeten had, zou dit de P-waarde verhogen of verlagen? De nieuwe metingen van de derde locatie zijn gegeven. Het is niet de bedoeling om de berekening helemaal opnieuw uit te voeren, maar een ruwe schatting op het zicht te geven.
  2. Een Sinterklaasexpert in wording vergelijkt het aantal uren dat kinderen in de maanden voor 6 december in de hoek moeten staan met het aantal pakjes. Hij vind voor de waarden 0 tot 6 de volgende waarden (gegeven in een tabel, gemiddeldes van x en y, variantie en covariantie gegeven).
    1. Maak een scatterplot van de gegevens.
    2. Wat verwacht je van de Pearson correlatiecoefficiënt? Zal deze positief of negatief zijn? Zal de absolute waarde dicht bij 1 liggen?
    3. Bereken de correlatiecoefficiënt. Licht kort toe wat het resultaat betekent.
    4. Stel de regressierechte op.
    5. Liesje is flink geweest en heeft dit jaar twee uur minder in de hoek gestaan dan vorig jaar. Hoeveel pakjes kan ze meer verwachten dan vorig jaar?


20 januari 2017

Dit mist veel deelvragen en wat er staat is waarschijnlijk ook niet 100% correct, maar het geeft wel een idee van het examen.

  1. Aantal meer theorie-gerichte vragen.
    1. 4 Juist/fout vragen.
      • E(X) is gelijk aan het gemiddelde bij toevalsvariabelen (exacte verwoording weet ik niet meer).
    2. Bewijzen over lineaire combinaties en transformaties analoog aan de voorbeelden in de slides.
    3. Er worden onderdelen verkocht in batches van 20. Er is 70% kans dat er geen defect onderdeel is in de batch, 20% kans dat er 1 defect onderdeel is en 10% kans dat er 2 defecte onderdelen zijn.
      • Er is 1 defect onderdeel in een batch: hoe groot is de kans dat dit defect onderdeel gevonden wordt bij het controleren van 2 onderdelen?
      • 2 andere deelvragen over kansen op defecte onderdelen.
    4. 2 histogrammen gegeven met kansen op de y-as en waarden op de x-as. Histogram A: 0: kans van 0.2; 1: kans van 0.4; 2: kans van 0.1; 3: kans van 0.2; 4: kans van 0.1. Histogram B: 0: kans van 0.25, 1; kans van 0.75.
      • Deelvragen over verwachtingswaardes en varianties bij optellen en vermenigvuldigen van de verdelingen.
  2. Iemand mag op kerstmis 10 keer met een dobbelsteen gooien, voor elke 6 krijgt hij een pakje.
    1. Hoe groot is de kans dat hij geen pakjes krijgt.
    2. Hoe groot is de kans dat hij meer dan 3 pakjes krijgt.
    3. Bereken de vorige vraag ook benaderend en is deze benadering goed?
    4. Ze doen dit meerdere jaren en hij mag in totaal 360 keer met de dobbelsteen gooien. Hoe groot is de kans dat hij meer dan 55 pakjes krijgt?
    5. Nog andere, kleinere deelvraagjes.
  3. Tabel met 10 hersenvolumes op 25 jaar en 10 hersenvolumes op 50 jaar. Ook output van R gegeven met de t-waarde, p-waarde en df weggedaan. De alternatieve hypothese stond ook in de R output.
    1. Wat is de hypothese en welke veronderstellingen worden er gemaakt? (Vergelijken van 2 gemiddeldes)
    2. Geef de teststatistiek en verdeling.
    3. Vul de t-waarde, p-waarde en df aan.
    4. Deelvraag met nog meer R output.
  4. Iemand zegt dat zijn dobbelsteen niet eerlijk is, er is een tabel met 100 worpen en de frequentie van 1,2,3,4,5 en 6 gegeven.
    1. Wat is de hypothese, teststatistiek, p-waarde,...
    2. Tabel met andere frequenties die iets beter verdeeld waren. Zeg welke impact dit heeft op de p-waarde zonder iets uit te rekenen.
  5. Professor wilt zien of er een verband is tussen examens en proefexamens. Tabel met scores op examens en proefexamens, s-waardes, gemiddeldes,... gegeven.
    1. Stel de regressierechte op.
    2. Bereken de schatter voor de standaardafwijking van de fouten.
    3. Is het een goed model (dit moest je ook aantonen met een test denk ik.)
    4. R^2 = 0.8275: wat zegt dit over de kwaliteit van het model?

Academiejaar 2015-2016

25 januari 2016 (VM)

Hier missen nog bijna gegarandeerd enkele deelvraagjes, dus als je dit examen ook gemaakt hebt (en je weet er nog iets van), vul dan aan a.u.b.

  1. Enkele vragen i.v.m. verdelingen, hun kenmerken, proporties en kansen.
    1. Zij (X, Y) een bivariate normaalverdeling met mu = (2, 2) en sigma = ((1, 0.4), (0.4, 1)). Is dan Var(2X - Y) = 3.4?
    2. Zij X een continu verdeelde variabele met frequentie f(x). Zij a en b reëele getallen, bewijs dan dat:
      • E(a + bX) = a + b*E(X)
      • Var(a + bX) = b^2 * E(X)
    3. We hebben thuis een alarm geïnstalleerd. Bij inbraak gaat het met 96% zekerheid af, maar op andere nachten is er ook een kans van 0.3% dat het afgaat vanwege storingen. In onze buurt is er een kans van 3% dat er op een gegeven nacht in een gegeven huis wordt ingebroken. Vannacht gaat het alarm af, hoe groot is de kans dat er werkelijk een inbraak is?
    4. Gegeven: een 2x3 relatieve frequentietabel. Aan de ene kant: mannen en vrouwen, aan de andere kant of de groep een slecht, middelmatig of goed oriëntatievermogen heeft. Rij van de mannen = (1/10, 1/20, 1/2), rij van de vrouwen = (1/5, 1/10, 1/20). Waar of fout:
      • De kans dat een willekeurige vrouw een goed oriëntatievermogen heeft is 1/7.
      • De verwachte waarde voor mannen en vrouwen zijn gelijk.
  2. Gegeven: de gemiddelde Belgische vrouw heeft een lengte van 168.1cm, met een standaardafwijking van 5.3cm.
    1. Clara is 180.3cm groot. Hoeveel percent van de Belgische vrouwen is kleiner dan Clara?
    2. Stella is kleiner dan 95% van de Belgische vrouwen. Wat is haar maximale hoogte?
    3. Hier aan de faculteit zijn er 354 vrouwen. Hoe groot is de kans dat exact twee vrouwen kleiner zijn dan haar (neem hiervoor Stellas maximale mogelijke lengte). Bereken deze exact.
    4. Bereken de kans op benaderende wijze. Is dit een goede benadering?
  3. Gegeven: de uitslagen van de verkiezingen van mei 2014 en een peiling van 2013. Beiden zijn lijsten van zeven partijen en "Overige", elk met een corresponderend percentage. Bepaal op significantieniveau 0.05 of deze peiling de verkiezingsresultaten kan voorstellen.
    1. Kies gepaste hypothesen voor je test uit te voeren.
    2. Geef de teststatistiek, verdeling en testwaarde van je test.
    3. Geef de P-waarde.
    4. Vorm een besluit.
  4. In een fabriek worden er dagelijks 5000 dozen pralines geproduceerd. Elke doos beweert 250g te wegen. Een nieuwe kwaliteitscontroleur ("een jonge snaak" zoals zij het verwoordden) neemt op een dag lukraak 20 dozen uit de productie voor inspectie. Het gemiddelde van deze steekproef is 243.7g met een variantie van 6.91 g^2. Test op significantieniveau 0.05 of de fabriek systematisch te lichte dozen maakt.
    1. Kies gepaste hypothesen voor je test uit te voeren.
    2. Geef de teststatistiek, verdeling en testwaarde van je test.
    3. Geef de P-waarde.
    4. Vorm een besluit.
    5. Geef het 95%-betrouwbaarheidsinterval voor het gemiddelde van de dagproductie. Geef de definitie van het 95%-betrouwbaarheidsinterval en leg uit wat dit concreet betekent in deze situatie.
    6. Leg uit wat een type-I en type-II fout concreet betekenen in deze situatie.
  5. Gegeven: output van summary en anova in R.
    1. Vul aan: SSM, MSM, MSE, F-waarde, P(F > f) en voor de slope: t-waarde en P(T > t).
    2. Voer een hypothesetest uit omtrent H0: alfa = 0 versus H1: alfa != 0
    3. Geef de regressierechte.
    4. Geef R^2 en leg uit wat deze waarde betekent.

Academiejaar 2012-2013

18 januari 2013 (VM)

Dit is wat ik er mij nog van herinner, de vragen zijn dus niet precies dezelfde.

  1. Thomas Van Den Spiegel is 214 cm groot. Leg uit hoe men kan bepalen hoe groot (of hoe normaal) dit is.
  2. Gegeven een tabel met daarin de absolute frequenties van een steekproef naar het spijbelgedrag van leerlingen uit het ASO, BSO en TSO: nooit, soms, vaak. Dit is dus een 3x3 tabel.
    • Test: meer dan 50% van de leerlingen uit het ASO spijbelt nooit.
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
    • Ga na of er een verband is tussen de waarden.
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
      •  ???
  3. Gegeven de functie als en anders 0. Deze stelt de tijd voor die ik nodig heb om op mijn werk te geraken.
    • Ik moet om 9u op mijn werk zijn, wat is de kans dat ik te laat kom als ik om 7u40 vertrek?
    • Over 200 dagen gezien als ik opnieuw om 7u40 vertrek: wat is de kans dat ik hoogstens 20 keer op die 200 dagen te laat kom?
  4. Voor een nieuw soort roomijs hebben 9 mensen geproefd en een score tussen 1 en 20 (kan ook tussen 0 en 20 zijn, ik hoop van niet). Er waren 2 scores onder 10 en 7 scores boven 10.
    • Bepaal met een teststatistiek of het ijs lekker is (dus een score groter dan 10).
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
    • Wat is het 95% betrouwbaarheidsinterval van de mediaan? Wat betekent dit interval concreet voor dit voorbeeld?
  5. Een lineair verband tussen de maandelijkse productie van windmolens en de hoeveelheid wind, gezien over 32 maanden. Gegeven de output van de lm-functie uit R, een paar Shapiro-Wilk tests, enkele QQ-plots en de residuplot.
    •  ???
    •  ???
    • Is het een goed model? (of zoiets)
    • Vul de ANOVA tabel in (enkel 1 en F zijn gegeven).
    • Wat betekent Std. Error in die lm-functie?