Data Utjevning i Excel

Statistikere vanligvis må se på store masser av data og finne vanskelige å se mønstre. Noen ganger kan en generell trend tilsier en bestemt analytisk verktøy. Og noen ganger som verktøy, selv om statistisk kraftig, hjelper ikke statistikeren komme fram til en forklaring.

Figuren er et diagram av hjemme går rammet i den amerikanske ligaen fra 1901 til 2008.

Den åpenbare generelle trenden er at etter hvert som årene går, blir flere home runs rammet. Montering av regresjonslinje bekrefter denne ideen. Ligningen
tieren = 24,325 * År - 465 395

er en veldig bra plass til dataene. Ligningen gir en R-Squared verdi på 0,91, noe som indikerer at en lineær modell pent beskriver forholdet mellom hjemme går og år. Kjøpe og så. . . hva

Bare montere en regresjonslinje glatter over viktige ting innen baseball -? ting både store og små som utgjør en baseball sesongen, en æra, en historie. Og baseball har mange av disse tingene. Målet er å få dem til å avsløre seg selv.

Den andre ytterligheten fra regresjonslinjen er å koble prikkene. Det ville bare gi en haug med svinger som sannsynligvis ikke vil belyse et århundre med historie.

Problemet er hvordan man skal oppsummere uten å eliminere for mye: Bli kvitt den svinger, men beholde de viktige topper og daler. Hvordan du gjør dette uten å vite hva som er viktig på forhånd?

Undersdataanalyse (EDA) hjelper peke ut veien. En EDA Teknikken kalles tre-median glatting

For hvert datapunkt i en serie, erstatte det datapunkt med median av tre tall:. Datapunkt selv, datapunktet som foran det, og datapunktet som følger.

Hvorfor medianen? I motsetning til gjennomsnittet, er medianen ikke følsom for ekstremverdier som oppstår gang på en stund - som en sikk eller en sakk. Effekten er å filtrere ut støy og la menings oppturer og nedturer.

Hvorfor tre tall? Som de fleste alt i EDA, er det ikke Ironclad. For noen sett med data, kan det være lurt medianen til å dekke flere tall. Det er opp til intuisjon, erfaringer og ideer om analytikeren.

En annen teknikk, Hanning, er
en løpende vektet gjennomsnitt. Man erstatte et datapunkt med summen av en fjerdedel av foregående datapunkt pluss halve datapunkt pluss en fjerdedel av det neste datapunkt. Nok en teknikk er hoppe bety
.

I EDA, trenger du ikke bare bruke en teknikk på et sett med data. Ofte starter du med en median glatt, gjenta det flere ganger, og deretter prøve en eller to andre.

For data i spredningsplott, bruke tre-median glatt, gjenta det (det er, bruke den til den nylig utjevnede data), Han smoothed data, og deretter bruke skip mener. Igjen, ingen teknikk (eller rekkefølgen av teknikker) er rett eller galt. Du bruker det du tror lyser meningsfulle trekk ved dataene.

Følgende er en del av et regneark for alt dette. Kolonne A viser året, og Kolonne B viser antall hjemme går hit det året i den amerikanske ligaen. De resterende kolonnene viser suksessive jevner av dataene.

Kolonne C gjelder de tre-median glatt kolonne B, og kolonne D gjelder de tre-median glatt kolonne C. En rask titt på tallene viser at repetisjon gjorde ikke mye forskjell. Kolonne E gjelder Hanning til kolonne D, og ​​kolonne F gjelder skip betyr for kolonne E.

I Kolonner C til F, renner det faktiske antall hjem brukes for første verdi (for året 1901) og for den endelige verdien (for året 2008).
Du kan enkelt se effekten av hver påfølgende glatting teknikk på glattet linjen. Nøkkelen er å høyreklikke på tomten området og velge Velg Data fra lokalmenyen. Klikk på navnet på dataserier som representerer glattet linje, redigere celleområdet i serien som skal gjenspeile den kolonnen som inneholder den bestemte glatting teknikk, og klikk OK for å lukke dialogredigering boksene.

Og nå historien begynner å avsløre seg selv. I stedet for en regresjonslinje som bare forteller deg at home runs økning som årene går, stimulere oppturer og nedturer tenke på hvorfor de er der. Her er en svært forkortet versjon av baseball historie i samsvar med de vendingene i glattet linjen.

Det lave flate segmentet fra 1901 gjennom 1920 betyr "død-ball era", en tid da sammensetningen av en baseball hemmet batted baller fra å gå langt nok til å bli hjemme går.

å utforske og visualisere data stimulerer tenkte på hva som produsere mønstrene lete avdekker. Spekulasjoner fører til testbare hypoteser, som fører til analyse.



Previous: