Statistiek en Data-Analyse

Uit Wina Examenwiki
Versie door Thijs.vercammen (overleg | bijdragen) op 20 jan 2017 om 14:13 (Examenvragen 20 januari 2017)
Naar navigatie springen Naar zoeken springen

Samenvattingen

Klik hier om de samenvattingen te bekijken

Inleiding

Dit vak wordt sinds het academiejaar 2009-2010 gegeven door prof. Mia Hubert aan tweedejaars informatici. Ze krijgen dit samen met de richtingen waarin geo- of bio- voorkomt. Voor het academiejaar 2009-2010 kregen de informatici het vak Statistiek samen met de wiskundigen en fysici.

Examens

Academiejaar 2016-2017

20 januari 2017

Dit mist veel deelvragen en wat er staat is waarschijnlijk ook niet 100% correct, maar het geeft wel een idee van het examen.

  1. Aantal meer theorie-gerichte vragen.
    1. 4 Juist/fout vragen.
      • E(X) is gelijk aan het gemiddelde bij toevalsvariabelen (exacte verwoording weet ik niet meer).
    2. Bewijzen over lineaire combinaties en transformaties analoog aan de voorbeelden in de slides.
    3. Er worden onderdelen verkocht in batches van 20. Er is 70% kans dat er geen defect onderdeel is in de batch, 20% kans dat er 1 defect onderdeel is en 10% kans dat er 2 defecte onderdelen zijn.
      • Er is 1 defect onderdeel in een batch: hoe groot is de kans dat dit defect onderdeel gevonden wordt bij het controleren van 2 onderdelen?
      • 2 andere deelvragen over kansen op defecte onderdelen.
    4. 2 histogrammen gegeven met kansen op de y-as en waarden op de x-as. Histogram A: 0: kans van 0.2; 1: kans van 0.4; 2: kans van 0.1; 3: kans van 0.2; 4: kans van 0.1. Histogram B: 0: kans van 0.25, 1; kans van 0.75.
      • Deelvragen over verwachtingswaardes en varianties bij optellen en vermenigvuldigen van de verdelingen.
  2. Iemand mag op kerstmis 10 keer met een dobbelsteen gooien, voor elke 6 krijgt hij een pakje.
    1. Hoe groot is de kans dat hij geen pakjes krijgt.
    2. Hoe groot is de kans dat hij meer dan 3 pakjes krijgt.
    3. Bereken de vorige vraag ook benaderend en is deze benadering goed?
    4. Ze doen dit meerdere jaren en hij mag in totaal 360 keer met de dobbelsteen gooien. Hoe groot is de kans dat hij meer dan 55 pakjes krijgt?
    5. Nog andere, kleinere deelvraagjes.
  3. Tabel met 10 hersenvolumes op 25 jaar en 10 hersenvolumes op 50 jaar. Ook output van R gegeven met de t-waarde, p-waarde en df weggedaan. De alternatieve hypothese stond ook in de R output.
    1. Wat is de hypothese en welke veronderstellingen worden er gemaakt? (Vergelijken van 2 gemiddeldes)
    2. Geef de teststatistiek en verdeling.
    3. Vul de t-waarde, p-waarde en df aan.
    4. Deelvraag met nog meer R output.
  4. Iemand zegt dat zijn dobbelsteen niet eerlijk is, er is een tabel met 100 worpen en de frequentie van 1,2,3,4,5 en 6 gegeven.
    1. Wat is de hypothese, teststatistiek, p-waarde,...
    2. Tabel met andere frequenties die iets beter verdeeld waren. Zeg welke impact dit heeft op de p-waarde zonder iets uit te rekenen.
  5. Professor wilt zien of er een verband is tussen examens en proefexamens. Tabel met scores op examens en proefexamens, s-waardes, gemiddeldes,... gegeven.
    1. Stel de regressierechte op.
    2. Bereken de schatter voor de standaardafwijking van de fouten.
    3. Is het een goed model (dit moest je ook aantonen met een test denk ik.)
    4. R^2 = 0.8275: wat zegt dit over de kwaliteit van het model?

Academiejaar 2015-2016

25 januari 2016 (VM)

Hier missen nog bijna gegarandeerd enkele deelvraagjes, dus als je dit examen ook gemaakt hebt (en je weet er nog iets van), vul dan aan a.u.b.

  1. Enkele vragen i.v.m. verdelingen, hun kenmerken, proporties en kansen.
    1. Zij (X, Y) een bivariate normaalverdeling met mu = (2, 2) en sigma = ((1, 0.4), (0.4, 1)). Is dan Var(2X - Y) = 3.4?
    2. Zij X een continu verdeelde variabele met frequentie f(x). Zij a en b reëele getallen, bewijs dan dat:
      • E(a + bX) = a + b*E(X)
      • Var(a + bX) = b^2 * E(X)
    3. We hebben thuis een alarm geïnstalleerd. Bij inbraak gaat het met 96% zekerheid af, maar op andere nachten is er ook een kans van 0.3% dat het afgaat vanwege storingen. In onze buurt is er een kans van 3% dat er op een gegeven nacht in een gegeven huis wordt ingebroken. Vannacht gaat het alarm af, hoe groot is de kans dat er werkelijk een inbraak is?
    4. Gegeven: een 2x3 relatieve frequentietabel. Aan de ene kant: mannen en vrouwen, aan de andere kant of de groep een slecht, middelmatig of goed oriëntatievermogen heeft. Rij van de mannen = (1/10, 1/20, 1/2), rij van de vrouwen = (1/5, 1/10, 1/20). Waar of fout:
      • De kans dat een willekeurige vrouw een goed oriëntatievermogen heeft is 1/7.
      • De verwachte waarde voor mannen en vrouwen zijn gelijk.
  2. Gegeven: de gemiddelde Belgische vrouw heeft een lengte van 168.1cm, met een standaardafwijking van 5.3cm.
    1. Clara is 180.3cm groot. Hoeveel percent van de Belgische vrouwen is kleiner dan Clara?
    2. Stella is kleiner dan 95% van de Belgische vrouwen. Wat is haar maximale hoogte?
    3. Hier aan de faculteit zijn er 354 vrouwen. Hoe groot is de kans dat exact twee vrouwen kleiner zijn dan haar (neem hiervoor Stellas maximale mogelijke lengte). Bereken deze exact.
    4. Bereken de kans op benaderende wijze. Is dit een goede benadering?
  3. Gegeven: de uitslagen van de verkiezingen van mei 2014 en een peiling van 2013. Beiden zijn lijsten van zeven partijen en "Overige", elk met een corresponderend percentage. Bepaal op significantieniveau 0.05 of deze peiling de verkiezingsresultaten kan voorstellen.
    1. Kies gepaste hypothesen voor je test uit te voeren.
    2. Geef de teststatistiek, verdeling en testwaarde van je test.
    3. Geef de P-waarde.
    4. Vorm een besluit.
  4. In een fabriek worden er dagelijks 5000 dozen pralines geproduceerd. Elke doos beweert 250g te wegen. Een nieuwe kwaliteitscontroleur ("een jonge snaak" zoals zij het verwoordden) neemt op een dag lukraak 20 dozen uit de productie voor inspectie. Het gemiddelde van deze steekproef is 243.7g met een variantie van 6.91 g^2. Test op significantieniveau 0.05 of de fabriek systematisch te lichte dozen maakt.
    1. Kies gepaste hypothesen voor je test uit te voeren.
    2. Geef de teststatistiek, verdeling en testwaarde van je test.
    3. Geef de P-waarde.
    4. Vorm een besluit.
    5. Geef het 95%-betrouwbaarheidsinterval voor het gemiddelde van de dagproductie. Geef de definitie van het 95%-betrouwbaarheidsinterval en leg uit wat dit concreet betekent in deze situatie.
    6. Leg uit wat een type-I en type-II fout concreet betekenen in deze situatie.
  5. Gegeven: output van summary en anova in R.
    1. Vul aan: SSM, MSM, MSE, F-waarde, P(F > f) en voor de slope: t-waarde en P(T > t).
    2. Voer een hypothesetest uit omtrent H0: alfa = 0 versus H1: alfa != 0
    3. Geef de regressierechte.
    4. Geef R^2 en leg uit wat deze waarde betekent.

Academiejaar 2012-2013

18 januari 2013 (VM)

Dit is wat ik er mij nog van herinner, de vragen zijn dus niet precies dezelfde.

  1. Thomas Van Den Spiegel is 214 cm groot. Leg uit hoe men kan bepalen hoe groot (of hoe normaal) dit is.
  2. Gegeven een tabel met daarin de absolute frequenties van een steekproef naar het spijbelgedrag van leerlingen uit het ASO, BSO en TSO: nooit, soms, vaak. Dit is dus een 3x3 tabel.
    • Test: meer dan 50% van de leerlingen uit het ASO spijbelt nooit.
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
    • Ga na of er een verband is tussen de waarden.
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
      • ???
  3. Gegeven de functie y=34(x0.5)(2.5x) als x[0.5,2.5] en anders 0. Deze stelt de tijd voor die ik nodig heb om op mijn werk te geraken.
    • Ik moet om 9u op mijn werk zijn, wat is de kans dat ik te laat kom als ik om 7u40 vertrek?
    • Over 200 dagen gezien als ik opnieuw om 7u40 vertrek: wat is de kans dat ik hoogstens 20 keer op die 200 dagen te laat kom?
  4. Voor een nieuw soort roomijs hebben 9 mensen geproefd en een score tussen 1 en 20 (kan ook tussen 0 en 20 zijn, ik hoop van niet). Er waren 2 scores onder 10 en 7 scores boven 10.
    • Bepaal met een teststatistiek of het ijs lekker is (dus een score groter dan 10).
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
    • Wat is het 95% betrouwbaarheidsinterval van de mediaan? Wat betekent dit interval concreet voor dit voorbeeld?
  5. Een lineair verband tussen de maandelijkse productie van windmolens en de hoeveelheid wind, gezien over 32 maanden. Gegeven de output van de lm-functie uit R, een paar Shapiro-Wilk tests, enkele QQ-plots en de residuplot.
    • ???
    • ???
    • Is het een goed model? (of zoiets)
    • Vul de ANOVA tabel in (enkel 1 en F zijn gegeven).
    • Wat betekent Std. Error in die lm-functie?