Wat is de centrale limietstelling?

Wat is de centrale limietstelling?
Anonim

Antwoord:

De centrale limietstelling maakt rigoureus het intuïtieve idee dat schattingen van het gemiddelde (geschat op basis van een bepaald monster) van een bepaalde meting geassocieerd met een populatie verbeteren naarmate de steekproef groter wordt.

Uitleg:

Stel je een bos met 100 bomen voor.

Stel je nu voor dat (nogal onrealistisch) dat, gemeten in meters, een kwart daarvan een hoogte van 2 heeft, een kwart daarvan een hoogte van 3, een kwart van hen heeft een hoogte van 4, en een kwart van hen heeft een hoogte van hoogte van 5.

Stel je voor dat je de hoogte van elke boom in het bos meet en de informatie gebruikt om een histogram samen te stellen met geschikt gekozen bakmaten (bijvoorbeeld 1,5 tot 2,5, 2,5 tot 3,5, 3,5 tot 4,5 en 5,5 tot 6,5; ik realiseer me dat ik niet heb gespecificeerd de prullenbak waartoe de grenzen behoren maar het maakt hier niet uit).

U kunt het histogram gebruiken om de kansverdeling van de bomen in te schatten. Het zou duidelijk niet normaal zijn.In feite was het verschaffen van de eindpunten op geschikte wijze gekozen, het zou een uniforme zijn, omdat er een gelijk aantal bomen zou zijn overeenkomend met een van de gespecificeerde hoogtes in elke bak.

Stel je nu voor dat je het bos in gaat en de hoogte van slechts twee bomen meet; bereken de gemiddelde hoogte van deze twee bomen en noteer deze. Herhaal deze bewerking meerdere keren, zodat u een verzameling van de gemiddelde waarden voor steekproeven van maat 2 zou hebben. Als u een histogram van de schattingen van het gemiddelde zou plotten, zou het niet langer uniform zijn. In plaats daarvan is het waarschijnlijk dat er meer metingen (schattingen van het gemiddelde op basis van steekproeven van grootte 2) zullen plaatsvinden in de buurt van de algemene gemiddelde hoogte van alle bomen in het bos (in dit specifieke geval,

#(2 + 3 + 4 + 5)/4 = 3.5# meter).

Omdat er meer zou zijn schattingen van het gemiddelde vlakbij de ware populatiegemiddelde (wat bekend is in dit onrealistische voorbeeld), dan ver van het gemiddelde, zou de vorm van dit nieuwe histogram dichter bij een normale verdeling liggen (met een piek nabij het gemiddelde).

Stel je nu voor dat je het bos in gaat en de oefening herhaalt, behalve dat je de hoogte van 3 bomen meet, het gemiddelde in elk geval berekent en er een notitie van maakt. Het histogram dat je zou construeren zou nog meer schattingen van het gemiddelde in de buurt van het ware gemiddelde hebben, met minder spreiding (de kans om drie bomen in één monster te plukken, zodanig dat ze allemaal uit een van de eindgroepen komen - ofwel de allereerste hoog of heel kort --- is minder dan drie bomen plukken met een selectie van hoogtes). De vorm van uw histogram, bestaande uit een schatting van de gemiddelde grootte (elk gemiddelde op basis van drie metingen) zou dichter liggen bij die van een normale verdeling en de bijbehorende standaarddeviatie (van de schattingen van het gemiddelde, niet van de ouderpopulatie) zou kleiner.

Herhaal dit voor 4, 5, 6, enz., Bomen per gemiddelde, en het histogram dat je zou construeren zou er meer en meer uitzien als een normale verdeling (met steeds grotere steekproefgroottes), met het gemiddelde van de distributie van de schattingen van het gemiddelde dichter bij het ware gemiddelde zijn en de standaarddeviatie van de schattingen van het gemiddelde smaller en smaller worden.

Als u de oefening herhaalt voor het (gedegenereerde) geval waarin alle bomen worden gemeten (bij verschillende gelegenheden, waarbij in elk geval het gemiddelde wordt genoteerd), dan zal het histogram alleen schattingen van het gemiddelde in een van de bakken hebben (die overeenkomt met het ware gemiddelde), zonder enige variatie zodat de standaarddeviatie van (de waarschijnlijkheidverdeling geschat op basis van) dat "histogram" nul zou zijn.

Dus, de centrale limietstelling stelt vast dat het gemiddelde van de enige schatting van het gemiddelde van een bepaalde populatie het ware gemiddelde asymptotisch benadert, en de standaarddeviatie van de schatting van het gemiddelde (in plaats van de standaardafwijking van de verdeling van de ouderpopulatie) wordt progressief kleiner voor grotere steekproefgroottes.