, statistikere, der typisk er nødt til at se på de store masser af data og har svært ved at se mønstre.nogle gange en generel tendens tyder på en bestemt analytisk redskab.og nogle gange er det redskab, selv om statistisk stærkt, er ’ t hjælpe statistikeren ankommer til en forklaring. følgende tal er en figur i home runs slået i american league fra 1901 indtil 2008. den indlysende overordnede tendens er, at efterhånden som årene går, mere homeruns er ramt.montering af en regressionslinje bekræfter denne idé.den ligning, home runs = 24.325 * år – 465395, er et glimrende egnet til data.det giver en r-squared værdi på 0, 91, hvilket tyder på, at en lineær model pænt beskriver forholdet mellem home runs og år.og så....hvad?bare montering af en regressionslinje dækker over vigtige ting i baseball — ting, både store og små, der udgør en baseball sæsonen, en æra, en historie.og baseball er mange af disse ting.målet er at få dem til at afsløre sig selv.den anden ekstrem fra regressionslinjen, er at forbinde punkterne.det ville give en masse zigzags, der sandsynligvis vil ’ t belyse et århundredes historie.problemet er, hvordan at sammenfatte, uden at fjerne så meget: slippe af med zigzags, men hold den vigtige bjergtoppe og dale.hvordan kan du gøre det uden at vide, hvad ’ er vigtigt på forhånd?indledende analyse af data (tp) bidrager til at vise vejen.en eda teknikken kaldes, tre median udjævning,,., for hvert punkt i en serie, i stedet for, at data med medianen af tre tal: de data, de data, der ligger forud for det, og de data, der følger efter. hvorfor den mediane?i modsætning til det, den ikke er følsom over for ekstreme værdier, der forekommer én gang i et stykke tid, og— ligesom zig - zag eller en.denne virkning er at filtrere støj - og forlade meningsfuldt op - og nedture.hvorfor tre numre?som de fleste alt i eda, at ’ er ikke vandtæt.for nogle datasæt, skal du måske medianen for at dække flere numre.det ’ op til den intuition, erfaringer og ideer af analytiker.en anden teknik, hanning, er en løbende vægtet gennemsnit.du erstatter et punkt med summen af en fjerde de foregående punkt plus halvdelen af data, og en fjerde næste punkt.en anden metode er skip,,.,, tp, behøver du ’ ikke bare bruge en teknik, et sæt af data.ofte, du starter med en median glat, gentages flere gange, og så forsøger en eller to andre.for dataene i scatterplot, anvende de tre median glat, gentag det (det er, gælder det for nyligt glattet data), hvilket han de oplysninger, og derefter anvende skip.igen, ingen teknik (eller kendelse af teknikker), er rigtigt eller forkert.det gælder, hvad du tror, lyser betydningsfulde elementer af data. som er en del af en arbejdsplan for det hele.kolonne a viser år og i kolonne b viser antallet af home runs slået det år i american league.de øvrige søjler viser flere baner af data, kolonne c, gælder de tre median glat, kolonne b, kolonne d gælder de tre median glat til kolonne c. et blik på tallene viser, at gentagelse har ’ t gøre stor forskel.kolonne e gælder hanning til kolonne d, kolonne f, gælder den springe til kolonne e, i kolonne c i f, det faktiske antal home runs, anvendes første værdi (for år 1901) og for den endelige værdi (for 2008.), kan man let se virkningen af hver af de på hinanden følgende udjævning teknik på beredt.det er afgørende, at right-click på observationsområdet og vælge udvalgte data fra pop - op - menuen.klik på navnet på de data, der er beredt, redigere celle række serier for at afspejle den kolonne, der er særlig udjævning teknik, og klik okay at lukke redigering dialog kasser.og nu den historie begynder at vise sig.i stedet for en regressionslinje, der siger, at home runs stigning, som årene går, de op - og nedture stimulere tænkt på, hvorfor de ’ er der.her og’ er et stærkt forkortede version af historien tilbage i overensstemmelse med de op - og nedture af glattet. den lave flade del fra 1901 gennem 1920 markerer og død bold æra, og og en tid, hvor sammensætningen af en baseball hæmmede slog kugler fra går langt nok til at blive home runs. at udforske og visualiserede de data, stimulerer har tænkt over det, og’ s producerer mønstre efterforskning finder ud af.spekulation, som fører til testbare hypoteser, som fører til analyse,.,,
data udjævning i excel
Previous:stammer