Zebra: Schatten, hoe doe je dat?

Beoordeling 5
Foto van een scholier
  • Spreekbeurt door een scholier
  • 6e klas vwo | 1139 woorden
  • 7 februari 2009
  • 27 keer beoordeeld
Cijfer 5
27 keer beoordeeld

ADVERTENTIE
Overweeg jij om Politicologie te gaan studeren? Meld je nu aan vóór 1 mei!

Misschien is de studie Politicologie wel wat voor jou! Tijdens deze bachelor ga je aan de slag met grote en kleine vraagstukken en bestudeer je politieke machtsverhoudingen. Wil jij erachter komen of deze studie bij je past? Stel al je vragen aan student Wouter. 

Meer informatie
Onze presentatie gaat over het boekje ‘Schatten, hoe doe je dat?’ We hebben gekozen voor dit boekje, omdat we dachten dat schatten toch niet moeilijk kan zijn. In de inleiding van het boekje staat dat je iets van kansberekening moet weten en dat doen we wel, dus het leek ons koek en ei. Nou, dat viel behoorlijk tegen!
Schatten doen we elke dag (ik denk dat ik er over 20 minuten ben) en schattingen komen we elke dag tegen (zo’n 2 miljoen Nederlanders hebben naar de afsluitingsceremonie van de Olympische Spelen gekeken). Hoe doen ze dat? Ze kunnen niet bij elke huiskamer naar binnen kijken om te zien wat er gekeken wordt. Dat doen ze dus ook niet. Het kijkgedrag van willekeurig gekozen mensen wordt geregistreerd. Deze mensen vormen samen de steekproef. Op grond van het aantal kijkers in de steekproef berekent men een schattig van het totaal aantal kijkers in de hele bevolking. Hoe groter de steekproef, des te beter de schatting. Hiermee gingen we aan de hand van het boekje ‘Schatten, hoe doe je dat?’ aan het werk.
De volgende situatie wordt gegeven:

Er is een popconcert geweest en de organisator beweert dat het een groot succes is geweest en dat er 7000 kaarten verkocht zijn. Er zijn mensen die hem niet geloven. Één van die mensen loopt na het concert het terrein op en hij vindt een aantal toegangskaarten. Daarop staan de nummers 1270, 795, 1952, 3215, 4582, 1405 en 2963. Deze nummers zeggen iets over het totaal aantal verkochte kaartjes N. We nemen aan dat de kaartjes verkocht zijn met de nummers op volgorde, dus 1, 2, 3, 4 tot en met N. Het gaat er hier dus om een schatting te geven van N. Is dat werkelijk 7000? Of is N veel minder?

De eerste schatter
De eerste manier om N te schatten, is de manier waarbij het gemiddelde van de gevonden nummers een belangrijke rol speelt. Dat is in dit geval 1270+795+1952+3215+4582+1405+2963 = 16182 = 2311,714
7 7
Het gemiddelde van alle verkochte kaartjes is x = 0.5*(N+1) oftewel N=2x-1
Hiermee hebben we de eerste manier gevonden om N te schatten. Dit is de eerste schatter, die we R noemen. De eerste schatter van N is dus R=2x-1. Volgens deze schatter is in onze situatie N dus 2*2311,7 – 1 = 4622,4 , dus R=4622.

Het nadeel van deze eerste schatter is dat alle nummers even zwaar meetellen en daardoor kan R lager uitvallen dan het hoogste cijfer uit de steekproef. Kennelijk moet het grootste getal uit de steekproef meer aandacht krijgen. Dat gebeurt bij de tweede en derde schatter.
De tweede en de derde schatter
We ordenen het rijtje van de 7 gevonden nummers. We krijgen dus X(1)= 795, X(2)= 1270, X(3)= 1405, X(4)= 1952, X(5)= 2963, X(6)= 3215 en X(7)= 4582.

In gedachten leggen we deze cijfers op een getallenlijn. Het interval voor het laagste cijfer is 1, 2, 3, …, X(1)-1, dus de nummers links van het laagste cijfer op de getallenlijn. De lengte van het eerste interval noemen we G1, dus G1 = X(1) - 1.
Het tweede interval bevat de nummers tussen X(1) en X(2), dus de nummers X(1)+1, … , X(2)-1. Zo gaan we verder tot we bij het laatste interval zijn, namelijk die alle nummers rechts van het grootste getal uit de steekproef. Dat is dus G8 = N - X(7)

Ergens rechts van X(7) ligt het getal dat we willen schatten. Dit doen we door een schatting te maken van het laatste interval G8. Het ligt voor de hand dat we G8 schatten door te kijken naar de lengtes van de intervallen. Er zijn twee manieren om G8 te schatten.
De tweede schatter
Het is aannemelijk dat het laatste interval net zo groot is als het eerste interval (want waarom zou dit niet zo zijn?) In dit geval krijgen we G8 = G1, oftewel: N = X(7) + X(1)-1
Deze tweede schatter van N geven we aan met de letter S.
S = X(7) + X(1)-1
In ons voorbeeld: S = 4582 + (795 – 1) = 5376 Dit getal is dus hoger dan de schatter R.
De derde schatter
Voor onze derde schatter gebruiken we een schatting van de lengte van het laatste onbekende interval G8 door het gemiddelde van de bekende getallen G1, G2, G3 enzovoorts te nemen. Dit gemiddelde is gelijk aan 1/7 * (G1 + G2 + G3 … + G7).
Door gebruik te maken van de definities G1 = X(1) – 1 , G2 = X(2) – X(1)-1 enzovoorts, kun je makkelijk zien dat 1/7 * (G1 + G2 + G3 … + G7) = 1/7 * (X(7) – 7) = 1/7 * X(7) – 1.
We stellen nu G8 = 1/7 * X(7) – 1, ofwel N – X(7) = 1/7 * X(7)-1. Hieruit volgt

N = 8/7 * X(7)-1. Deze derde schatter van N geven we aan met de letter T. Algemeen geldt voor T:
T = (n+1)/n * X(n) - 1

In ons voorbeeld: T = 8/7 * 4582 – 1 = 5236,56 = 5236
We hebben nu 3 schattingen voor N:
R = 4622
S = 5376
T = 5236
We weten niet welke schatting het dichtst bij de echte waarde van N ligt, want N is onbekend. En ookal zou N bekend zijn, je kunt niet spreken van de beste schatter. De ene keer zal S het best zijn, de andere keer T. Op grond van wat we nu weten is dat nog geen uitgemaakte zaak. Aan de ene kant wordt voor de schatter R gebruik gemaakt van alle informatie uit de steekproef, terwijl bij S en T maar twee of zelfs één waarde gebruikt worden. Je zou kunnen denken dat hoe meer informatie je gebruikt, hoe beter de schatting zou zijn.

De nauwkeurigheid van de schatters


Om de drie schatters op waarde te schatten zijn een aantal dingen belangrijk: de schatter moet een zuivere schatter zijn, dit houdt in dat de schatters de eigenschap hebben dat hun verwachtingswaarde samen valt met de echte waarde van de te schatten grootheid, maar ook de spreiding is van belang.
Uit het boekje volgt dat alle drie de schatters (R,S en T) zuivere schatters zijn.
Bij een kleine spreiding zal de schatter vaak een waarde geven die dicht bij het gemiddelde ligt oftewel dicht bij het goede antwoord.
Voor de spreiding van gegevens gebruiken we ook wel de standaard afwijking (standaard deviatie)
Ik ga aan de hand van een voorbeeld laten zien welke schatter de kleinste standaard deviatie heeft en dus de beste schatter is:

Formules voor het berekenen van de SD zijn:
SD=wortel(var(X)) en var(R,S en T) is als volgt te berekenen:
Var(R)= ((N+1)(N-n))/(3n)
Var(S)= (2(N+1)(N-n))/((n+(n+2))
Var(T)= ((N+1)(N-n))/((n*(n+2))

Als je de standaard afwijking voor de drie schatters uitrekent, met N=45 en n=7, komt eruit dat T de beste schatter is.
De resultaten zijn:

Voor Rà 9,12
Voor Sà 6,97
Voor tà 5,27

Je ziet dat T de kleinste spreiding heeft dus T is de beste schatter.

Het schatten van percentages

Populatiepercentage: bijvoorbeeld knikkers in een vaas 1200 in een vaas 300 rood
100(R/N)


Het is handig om een zekerheids marge in te bouwenà margin of error
Ben je voorzichtig dan neem je een groot marge, maar dan is d nauwkeurigheid niet erg groot.
Kies je voor een klein marge dan wijst dit op een grotere nauwkeurigheid maar de kans dat je er naast zit is wel veel groter.


REACTIES

Log in om een reactie te plaatsen of maak een profiel aan.