11.10.2019

Kako izračunati standardno odstopanje. Izračun standardnega odklona v programu Microsoft Excel


Lekcija št. 4

Tema: “Opisna statistika. Indikatorji raznolikosti lastnosti v agregatu"

Glavni kriteriji raznolikosti lastnosti v statistični populaciji so: meja, amplituda, povprečje standardni odklon, koeficient nihanja in koeficient variacije. V prejšnji lekciji smo razpravljali o tem, da povprečne vrednosti zagotavljajo le splošno značilnost lastnosti, ki se preučuje v agregatu, in ne upoštevajo vrednosti njenih posameznih različic: najmanjše in največje vrednosti, nad povprečjem, pod povprečje itd.

Primer. Povprečne vrednosti dveh različnih številskih zaporedij: -100; -20; 100; 20 in 0,1; -0,2; 0,1 sta popolnoma enaka in enakaO.Vendar so razponi razpršitve teh relativnih podatkov o srednjem zaporedju zelo različni.

Določitev naštetih kriterijev za raznovrstnost lastnosti poteka predvsem ob upoštevanju njene vrednosti v posameznih elementih statistične populacije.

Indikatorji za merjenje variacije lastnosti so absolutno in relativno. Absolutni indikatorji variacije vključujejo: razpon variacije, limit, standardni odklon, disperzijo. Koeficient variacije in koeficient nihanja se nanašata na relativne mere variacije.

Omejitev (lim)– To je merilo, ki je določeno z ekstremnimi vrednostmi različice v nizu variacij. Z drugimi besedami, to merilo je omejeno z najmanjšo in največjo vrednostjo atributa:

Amplituda (Am) oz razpon variacije – To je razlika med skrajnimi možnostmi. Izračun tega kriterija se izvede tako, da se njegova najmanjša vrednost odšteje od največje vrednosti atributa, kar nam omogoča, da ocenimo stopnjo razpršenosti opcije:

Pomanjkljivost meje in amplitude kot merila variabilnosti je, da sta popolnoma odvisna od ekstremnih vrednosti značilnosti v variacijski seriji. V tem primeru se nihanja vrednosti atributov znotraj serije ne upoštevajo.

Najbolj popoln opis raznolikosti lastnosti v statistični populaciji ponuja standardni odklon(sigma), ki je splošna mera odstopanja opcije od njene povprečne vrednosti. Standardni odklon se pogosto imenuje standardni odklon.

Standardni odklon temelji na primerjavi vsake možnosti z aritmetično sredino dane populacije. Ker bodo v agregatu vedno možnosti manjše in večje od nje, bo vsota odstopanj s predznakom "" izničena z vsoto odstopanj s predznakom "", tj. vsota vseh odstopanj je nič. Da bi se izognili vplivu predznakov razlik, se vzamejo odstopanja od kvadrata aritmetične sredine, tj. . Vsota kvadratov odklonov ni enaka nič. Če želite dobiti koeficient, ki lahko meri variabilnost, vzemite povprečje vsote kvadratov - ta vrednost se imenuje odstopanja:

V bistvu je disperzija povprečni kvadrat odstopanj posameznih vrednosti značilnosti od njene povprečne vrednosti. Razpršenost kvadrat standardnega odklona.

Varianca je dimenzijska količina (poimenovana). Torej, če so različice številske serije izražene v metrih, potem daje varianca kvadratne metre; če so možnosti izražene v kilogramih, potem daje varianca kvadrat te mere (kg 2) itd.

Standardni odklon– kvadratni koren variance:

, potem pri izračunu disperzije in standardnega odklona v imenovalcu ulomka namestoje treba postaviti.

Izračun standardnega odklona lahko razdelimo na šest stopenj, ki jih je treba izvesti v določenem zaporedju:

Uporaba standardnega odklona:

a) za presojo variabilnosti variacijskih serij in primerjalna ocena tipičnost (reprezentativnost) aritmetičnih povprečij. To je potrebno v diferencialna diagnoza pri ugotavljanju stabilnosti lastnosti.

b) rekonstruirati variacijsko serijo, tj. obnovitev njegovega frekvenčnega odziva na podlagi pravila treh sigm. V intervalu (M±3σ) 99,7 % vseh variant serije se nahaja v intervalu (M±2σ) - 95,5% in v območju (M±1σ) - 68,3 % možnost vrstice(slika 1).

c) za prepoznavanje "pojavnih" možnosti

d) določiti parametre norme in patologije z uporabo sigma ocen

e) za izračun koeficienta variacije

f) izračunati povprečno napako aritmetične sredine.

Za karakterizacijo katere koli populacije, ki imatip normalne porazdelitve , je dovolj poznati dva parametra: aritmetično sredino in standardno deviacijo.

Slika 1. Pravilo treh sigm

Primer.

V pediatriji se standardna deviacija uporablja za oceno telesnega razvoja otrok s primerjavo podatkov določenega otroka z ustreznimi standardnimi kazalci. Za standard se vzame aritmetično povprečje telesnega razvoja zdravih otrok. Primerjava kazalnikov s standardi se izvaja s pomočjo posebnih tabel, v katerih so navedeni standardi skupaj z njihovimi ustreznimi sigma lestvicami. Menijo, da če je kazalnik telesnega razvoja otroka znotraj standarda (aritmetična sredina) ±σ, potem telesni razvoj otrok (glede na ta indikator) ustreza normi. Če je indikator znotraj standarda ±2σ, potem je rahlo odstopanje od norme. Če kazalnik preseže te meje, se telesni razvoj otroka močno razlikuje od norme (možna je patologija).

Poleg kazalnikov variacije, izraženih v absolutnih vrednostih, statistične raziskave uporabljajo kazalnike variacije, izražene v relativnih vrednostih. Koeficient nihanja - to je razmerje med obsegom variacije in povprečno vrednostjo lastnosti. Koeficient variacije - to je razmerje med standardnim odklonom in povprečno vrednostjo značilnosti. Običajno so te vrednosti izražene v odstotkih.

Formule za izračun kazalnikov relativne variacije:

Iz zgornjih formul je razvidno, da večji koeficient V bližje ničli, manjša je variacija vrednosti značilnosti. Bolj V, bolj spremenljiv je znak.

V statistični praksi se najpogosteje uporablja koeficient variacije. Uporablja se ne le za primerjalno oceno variacije, temveč tudi za karakterizacijo homogenosti populacije. Populacija se šteje za homogeno, če koeficient variacije ne presega 33 % (za porazdelitve blizu normalne). Aritmetično razmerje σ in aritmetične sredine nevtralizira vpliv absolutne vrednosti teh značilnosti, odstotno razmerje pa naredi koeficient variacije brezdimenzionalno (neimenovano) vrednost.

Dobljena vrednost koeficienta variacije je ocenjena v skladu s približnimi gradacijami stopnje raznolikosti lastnosti:

Šibko - do 10%

Povprečje - 10 - 20%

Močna - več kot 20%

Uporaba koeficienta variacije je priporočljiva v primerih, ko je treba primerjati značilnosti, ki se razlikujejo po velikosti in dimenzijah.

Razlika med koeficientom variacije in drugimi merili razpršenosti je jasno prikazana primer.

Tabela 1

Sestava delavcev v industrijskih podjetjih

Na podlagi statističnih značilnosti, navedenih v primeru, lahko sklepamo o relativni homogenosti starostne sestave in ravni izobrazbe zaposlenih v podjetju glede na nizko poklicno stabilnost anketiranega kontingenta. Preprosto je videti, da bi poskus presoje teh družbenih trendov s standardnim odklonom vodil do napačnega zaključka, poskus primerjave računovodskih značilnosti »delovne izkušnje« in »starost« z računovodskim kazalnikom »izobrazba« pa bi bil na splošno nepravilna zaradi heterogenosti teh lastnosti.

Mediana in percentili

Pri ordinalnih (rangiranih) porazdelitvah, kjer je merilo za sredino niza mediana, standardna deviacija in disperzija ne moreta služiti kot značilnosti disperzije variante.

Enako velja za serije odprtih variacij. Ta okoliščina je posledica dejstva, da so odstopanja, iz katerih se izračunata varianca in σ, merjena iz aritmetične sredine, ki se ne izračuna v odprtih variacijskih serijah in serijah porazdelitev kvalitativnih značilnosti. Zato se za stisnjen opis porazdelitev uporablja drug parameter razpršitve - kvantil(sinonim - "percentil"), primeren za opis kvalitativnih in kvantitativnih značilnosti v kateri koli obliki njihove porazdelitve. Ta parameter se lahko uporablja tudi za pretvorbo kvantitativnih značilnosti v kvalitativne. V tem primeru se takšne ocene dodelijo glede na to, kateremu vrstnemu redu kvantila ustreza določena možnost.

V praksi biomedicinskih raziskav se najpogosteje uporabljajo naslednji kvantili:

– mediana;

, – kvartili (četrtine), kjer – spodnji kvartil, zgornji kvartil.

Kvantili razdelijo območje možnih sprememb v variacijski seriji na določene intervale. Mediana (kvantil) je opcija, ki je na sredini variacijske serije in to serijo deli na pol na dva enaka dela ( 0,5 in 0,5 ). Kvartil deli serijo na štiri dele: prvi del (spodnji kvartil) je opcija, ki ločuje opcije, katerih številčne vrednosti ne presegajo 25 % največje možne v dani seriji; kvartil ločuje opcije s številčno vrednostjo do 50 % največjega možnega. Zgornji kvartil () ločuje možnosti do 75 % največjih možnih vrednosti.

V primeru asimetrične porazdelitve spremenljivko glede na aritmetično sredino, se za njeno karakterizacijo uporabljajo mediana in kvartili. V tem primeru se uporabi naslednja oblika prikaza povprečne vrednosti - Mah (;). Na primer, preučevana značilnost - "obdobje, ko je otrok začel samostojno hoditi" - ima asimetrično porazdelitev v študijski skupini. Hkrati spodnji kvartil () ustreza začetku hoje - 9,5 meseca, mediana - 11 mesecev, zgornji kvartil () - 12 mesecev. V skladu s tem bo značilnost povprečnega trenda navedenega atributa predstavljena kot 11 (9,5; 12) mesecev.

Ocenjevanje statistične pomembnosti rezultatov študije

Statistično pomembnost podatka razumemo kot stopnjo, v kateri le-ti ustrezajo prikazani realnosti, tj. statistično pomembni podatki so tisti, ki ne izkrivljajo in pravilno odražajo objektivno resničnost.

Ocenjevanje statistične pomembnosti rezultatov raziskave pomeni ugotavljanje, s kakšno verjetnostjo je mogoče rezultate, pridobljene iz vzorčne populacije, prenesti na celotno populacijo. Ocenjevanje statistične pomembnosti je potrebno za razumevanje, koliko pojava je mogoče uporabiti za presojo pojava kot celote in njegovih vzorcev.

Ocena statistične pomembnosti rezultatov raziskave je sestavljena iz:

1. napake reprezentativnosti (napake povprečnih in relativnih vrednosti) - m;

2. meje zaupanja povprečnih ali relativnih vrednosti;

3. zanesljivost razlike v povprečnih ali relativnih vrednostih glede na merilo t.

Standardna napaka aritmetične sredine oz napaka reprezentativnosti označuje nihanja povprečja. Upoštevati je treba, da večji ko je vzorec, manjši je razpon povprečnih vrednosti. Standardna napaka povprečja se izračuna po formuli:

V sodobni znanstveni literaturi se aritmetična sredina piše skupaj z napako reprezentativnosti:

ali skupaj s standardnim odklonom:

Kot primer upoštevajte podatke o 1500 mestnih klinikah v državi (splošna populacija). Povprečno število pacientov, oskrbovanih v ambulanti, je 18.150 ljudi. Naključna izbira 10 % lokacij (150 klinik) daje povprečno število bolnikov 20.051 ljudi. Vzorčna napaka, ki je očitno posledica dejstva, da v vzorec ni bilo vključenih vseh 1500 klinik, je enaka razliki med temi povprečji - generalnemu povprečju ( M gen) in povprečje vzorca ( M izbrano). Če iz naše populacije oblikujemo drug vzorec enake velikosti, bo dal drugačno vrednost napake. Vsa ta vzorčna povprečja z dovolj velikimi vzorci so normalno porazdeljena okoli splošnega povprečja z dovolj velikimi veliko število ponovitve vzorca enakega števila objektov iz populacije. Standardna napaka povprečja m- to je neizogibno širjenje vzorčnih povprečij okoli splošnega povprečja.

V primeru, ko so rezultati raziskave predstavljeni v relativnih količinah (na primer v odstotkih) - izračunano standardna napaka ulomka:

kjer je P indikator v %, n je število opazovanj.

Rezultat je prikazan kot (P ± m) %. na primer odstotek ozdravitve med bolniki je bil (95,2±2,5) %.

V primeru, da število elementov populacije, potem pri izračunu standardne napake srednje vrednosti in ulomka v imenovalcu ulomka namestoje treba postaviti.

Za normalno porazdelitev (razdelitev vzorčnih povprečij je normalna) vemo, kateri delež populacije spada v kateri koli interval okoli povprečja. Še posebej:

V praksi je težava v tem, da so nam značilnosti splošne populacije neznane, vzorec pa je narejen prav z namenom njihove ocene. To pomeni, da če naredimo vzorce enake velikosti n iz splošne populacije, bo v 68,3 % primerov interval vseboval vrednost M(v 95,5% primerov bo na intervalu in v 99,7% primerov – na intervalu).

Ker je dejansko vzet le en vzorec, je ta trditev formulirana v smislu verjetnosti: z verjetnostjo 68,3 % je povprečna vrednost lastnosti v populaciji v intervalu, z verjetnostjo 95,5 % - v intervalu itd.

V praksi se okoli vzorčne vrednosti zgradi interval, tako da z dano (dovolj visoko) verjetnostjo verjetnost zaupanja – bi »pokril« pravo vrednost tega parametra v splošni populaciji. Ta interval se imenuje interval zaupanja.

Verjetnost zaupanjap to je stopnja zaupanja, da bo interval zaupanja dejansko vseboval pravo (neznano) vrednost parametra v populaciji.

Na primer, če je verjetnost zaupanja R je 90%, to pomeni, da bo 90 vzorcev od 100 dalo pravilno oceno parametra v populaciji. V skladu s tem je verjetnost napake, tj. nepravilna ocena splošnega povprečja za vzorec je v odstotkih enaka: . Za ta primer to pomeni, da bo 10 vzorcev od 100 dalo napačno oceno.

Očitno je stopnja zaupanja (verjetnost zaupanja) odvisna od velikosti intervala: širši kot je interval, večje je zaupanje, da bo vanj padla neznana vrednost za populacijo. V praksi se za sestavo intervala zaupanja uporabi vsaj dvakratna napaka vzorčenja, da se zagotovi vsaj 95,5-odstotno zaupanje.

Določitev meja zaupanja povprečij in relativnih vrednosti nam omogoča, da najdemo njihovi dve skrajni vrednosti - najmanjšo možno in največjo možno, znotraj katerih se lahko proučevani indikator pojavi v celotni populaciji. Na podlagi tega, meje zaupanja (ali interval zaupanja)- to so meje povprečnih ali relativnih vrednosti, preko katerih zaradi naključnih nihanj obstaja nepomembna verjetnost.

Interval zaupanja lahko prepišemo kot: , kjer t– merilo zaupanja.

Meje zaupanja aritmetične sredine v populaciji so določene s formulo:

M gen = M izberite + t m M

za relativno vrednost:

R gen = P izberite + t m R

Kje M gen in R gen- vrednosti povprečnih in relativnih vrednosti za splošno populacijo; M izberite in R izberite- vrednosti povprečnih in relativnih vrednosti, pridobljenih iz vzorčne populacije; m M in m p- napake povprečnih in relativnih vrednosti; t- kriterij zaupanja (merilo točnosti, ki se določi pri načrtovanju študije in je lahko enako 2 ali 3); t m- to je interval zaupanja ali Δ - največja napaka kazalnika, pridobljena v vzorčni študiji.

Treba je opozoriti, da je vrednost merila t v določeni meri povezano z verjetnostjo napovedi brez napak (p), izraženo v %. Izbere ga raziskovalec sam, ki ga vodi potreba po pridobitvi rezultata z zahtevano stopnjo natančnosti. Tako je za verjetnost napovedi brez napak 95,5 % vrednost kriterija t je 2, za 99,7 % - 3.

Navedene ocene intervala zaupanja so sprejemljive samo za statistične populacije z več kot 30 opazovanji, pri manjši velikosti populacije (majhni vzorci) pa se za določitev kriterija t uporabljajo posebne tabele. V teh tabelah se želena vrednost nahaja na presečišču črte, ki ustreza velikosti populacije (n-1), in stolpec, ki ustreza stopnji verjetnosti napovedi brez napak (95,5 %; 99,7 %), ki jo je izbral raziskovalec. V medicinskih raziskavah je pri določanju meja zaupanja za kateri koli indikator verjetnost napovedi brez napak 95,5 % ali več. To pomeni, da mora biti vrednost kazalnika, pridobljenega iz vzorčne populacije, najti v splošni populaciji v vsaj 95,5 % primerov.

    Vprašanja na temo lekcije:

    Relevantnost indikatorjev raznolikosti lastnosti v statistični populaciji.

    Splošne značilnosti absolutni indikatorji variacije.

    Standardni odklon, izračun, uporaba.

    Relativne mere variacije.

    Mediana, kvartilni rezultat.

    Ocenjevanje statistične pomembnosti rezultatov študije.

    Standardna napaka aritmetične sredine, formula za izračun, primer uporabe.

    Izračun deleža in njegova standardna napaka.

    Koncept verjetnosti zaupanja, primer uporabe.

10. Koncept intervala zaupanja, njegova uporaba.

    Testne naloge na temo s standardnimi odgovori:

1. ABSOLUTNI KAZALNIKI VARIACIJE SE NANAŠAJO NA

1) koeficient variacije

2) koeficient nihanja

4) mediana

2. RELATIVNI KAZALNIKI VARIACIJE SE POVEZUJEJO

1) disperzija

4) koeficient variacije

3. KRITERIJ, KI JE DOLOČEN Z EKSTREMNIMI VREDNOSTMI OPCIJE V VARIACIJSKI SEZI

2) amplituda

3) disperzija

4) koeficient variacije

4. RAZLIKA EKSTREMNIH MOŽNOSTI JE

2) amplituda

3) standardni odklon

4) koeficient variacije

5. POVPREČNI KVADRAT ODSTOPOV POSAMEZNIH VREDNOSTI ZNAČILNOSTI OD NJENIH POVPREČNIH VREDNOSTI JE

1) koeficient nihanja

2) mediana

3) disperzija

6. RAZMERJE LESTVICE VARIACIJE DO POVPREČNE VREDNOSTI ZNAKA JE

1) koeficient variacije

2) standardni odklon

4) koeficient nihanja

7. RAZMERJE POVPREČNEGA KVADRATNEGA ODSTOPA DO POVPREČNE VREDNOSTI ZNAČILNOSTI JE

1) disperzija

2) koeficient variacije

3) koeficient nihanja

4) amplituda

8. MOŽNOST, KI JE NA SREDINI VARIACIJSKE SERIJE IN JO DELI NA DVA ENAKA DELA, JE

1) mediana

3) amplituda

9. PRI MEDICINSKIH RAZISKAVAH SE PRI DOLOČANJU MEJA ZAUPANJA ZA KATERI KOLI KAZALNIK SPREJEMA VERJETNOST NAPOVEDI BREZ NAPAK.

10. ČE 90 VZORCEV OD 100 PODA PRAVILNO OCENO PARAMETRA V POPULACIJI, TO POMENI, DA JE VERJETNOST ZAUPANJA p ENAKOPRAVNO

11. ČE JE 10 VZORCEV OD 100 NAPRAVILNA OCENA, JE VERJETNOST NAPAKE ENAKA

12. MEJE POVPREČNIH OZIROMA RELATIVNIH VREDNOSTI, KATERIH JE PRESEGA ZARADI NAKLJUČNIH NIHANJ NEPOMEMBNA VERJETNOST – TO JE

1) interval zaupanja

2) amplituda

4) koeficient variacije

13. ZA MAJHEN VZOREC SE ŠTEJE TISTA POPULACIJA, V KI JE

1) n je manjši ali enak 100

2) n je manjši ali enak 30

3) n je manjši ali enak 40

4) n je blizu 0

14. ZA VERJETNOST NAPOVEDI BREZ NAPAK 95 % KRITERIJSKA VREDNOST t JE

15. ZA VERJETNOST NAPOVEDI BREZ NAPAK 99 % KRITERIJSKA VREDNOST t JE

16. ZA PORAZDELITVE BLIZU NORMALNE SE POPULACIJA ŠTEJE ZA HOMOGENE, ČE KOEFICIENT VARIACIJE NE PRESEŽE

17. OPCIJA, LOČEVALNA OPCIJA, KATERIH ŠTEVILČNE VREDNOSTI NE PRESEGAJO 25 % NAJVEČJIH MOŽNIH V DANI SERiji – TO JE

2) spodnji kvartil

3) zgornji kvartil

4) kvartil

18. IMENUJE SE PODATKI, KI NE IZPAČLJAJO IN PRAVILNO ODRAŽAJO OBJEKTIVNO REALNOST

1) nemogoče

2) enako možno

3) zanesljiv

4) naključno

19. PO PRAVILU "TREH Sigm", Z NORMALNO RAZDELITEVO ZNAČILNOSTI ZNOTRAJ
BODO NAŠLI

1) 68,3 % možnost

Omeniti velja, da ima ta izračun variance pomanjkljivost - izkaže se za pristranskega, tj. njegovo matematično pričakovanje ni enako dejanski vrednosti variance. Preberite več o tem. Hkrati pa ni vse tako slabo. Ko se velikost vzorca povečuje, se še vedno približuje svojemu teoretičnemu analogu, tj. je asimptotično nepristranska. Zato pri delu z velike velikosti vzorcev, lahko uporabite zgornjo formulo.

Jezik znakov je koristno prevesti v jezik besed. Izkazalo se je, da je varianca povprečni kvadrat odstopanj. To pomeni, da se najprej izračuna povprečna vrednost, nato se razlika med vsako prvotno in povprečno vrednostjo vzame, kvadrira, doda in nato deli s številom vrednosti v populaciji. Razlika med posamezno vrednostjo in povprečjem odraža mero odstopanja. Kvadrira se tako, da postanejo vsa odstopanja izključno pozitivna števila in da se izognemo medsebojnemu uničenju pozitivnih in negativnih odstopanj pri njihovem seštevanju. Nato glede na kvadrat odstopanja preprosto izračunamo aritmetično sredino. Povprečje - kvadrat - odstopanja. Odstopanja se kvadrirajo in izračuna se povprečje. Rešitev je le v treh besedah.

Vendar pa v čista oblika, kot je aritmetična sredina ali indeks, se varianca ne uporablja. Je bolj pomožni in vmesni indikator, ki je potreben za druge vrste statističnih analiz. Niti običajne merske enote nima. Sodeč po formuli je to kvadrat merske enote izvirnih podatkov. Brez steklenice, kot pravijo, ne morete ugotoviti.

(modul 111)

Da bi varianco vrnili v realnost, torej jo uporabili za bolj vsakdanje namene, se iz nje izvleče kvadratni koren. Izkazalo se je tako imenovano standardni odklon (RMS). Obstajajo imena "standardna deviacija" ali "sigma" (iz imena grške črke). Formula standardnega odklona je:

Za pridobitev tega indikatorja za vzorec uporabite formulo:

Tako kot pri varianci obstaja nekoliko drugačna možnost izračuna. Ko pa vzorec raste, razlika izgine.

Standardni odklon seveda označuje tudi mero razpršenosti podatkov, vendar ga je zdaj (za razliko od razpršenosti) mogoče primerjati z izvirnimi podatki, saj imajo enake merske enote (to je jasno iz formule za izračun). Toda ta indikator v svoji čisti obliki ni zelo informativen, saj vsebuje preveč vmesnih izračunov, ki povzročajo zmedo (odklon, kvadrat, vsota, povprečje, koren). Vendar pa je že mogoče delati neposredno s standardnim odklonom, ker so lastnosti tega indikatorja dobro proučene in znane. Na primer, obstaja to pravilo treh sigm, ki navaja, da imajo podatki 997 vrednosti od 1000 znotraj ±3 sigme aritmetične sredine. Standardni odklon kot merilo negotovosti je prav tako vključen v številne statistične izračune. Z njegovo pomočjo se določi stopnja točnosti različnih ocen in napovedi. Če je variacija zelo velika, bo velik tudi standardni odklon, zato bo napoved netočna, kar se bo izrazilo na primer v zelo širokih intervalih zaupanja.

Koeficient variacije

Standardni odklon daje absolutno oceno mere disperzije. Da bi torej razumeli, kako velik je razpršitev glede na same vrednosti (tj. ne glede na njihovo lestvico), je potrebno relativni indikator. Ta indikator se imenuje koeficient variacije in se izračuna po naslednji formuli:

Koeficient variacije se meri v odstotkih (če se pomnoži s 100 %). S tem indikatorjem lahko primerjate različne pojave, ne glede na njihov obseg in merske enote. Zaradi tega dejstva je koeficient variacije tako priljubljen.

V statistiki velja, da če je vrednost koeficienta variacije manjša od 33%, se populacija šteje za homogeno; če je večja od 33%, potem je heterogena. Tukaj težko kar koli komentiram. Ne vem, kdo je to definiral in zakaj, vendar velja za aksiom.

Čutim, da me zanese suhoparna teorija in moram prinesti nekaj vizualnega in figurativnega. Po drugi strani pa vsi kazalniki variacije opisujejo približno isto stvar, le da so izračunani drugače. Zato je težko pokazati različne primere, razlikujejo se lahko le vrednosti kazalnikov, ne pa tudi njihovo bistvo. Primerjajmo torej, kako se vrednosti različnih kazalnikov variacije razlikujejo za isti nabor podatkov. Vzemimo primer izračuna povprečnega linearnega odstopanja (od ). Tukaj so izvorni podatki:

In urnik, ki vas bo spomnil.

S pomočjo teh podatkov izračunamo različne indikatorje variacije.

Povprečna vrednost je običajna aritmetična sredina.

Razpon variacije je razlika med največjo in najmanjšo vrednostjo:

Povprečno linearno odstopanje se izračuna po formuli:

Standardni odklon:

Povzemimo izračun v tabelo.

Kot je razvidno, dajeta linearna sredina in standardni odklon podobne vrednosti za stopnjo variacije podatkov. Varianca je sigma kvadrat, zato bo vedno relativna veliko število, kar pa pravzaprav ne pomeni nič. Razpon variacije je razlika med skrajnimi vrednostmi in lahko veliko pove.

Povzemimo nekaj rezultatov.

Variacija indikatorja odraža spremenljivost procesa ali pojava. Njegovo stopnjo je mogoče izmeriti z več kazalniki.

1. Razpon variacije - razlika med maksimumom in minimumom. Odraža obseg možnih vrednosti.
2. Povprečno linearno odstopanje – odraža povprečje absolutnih (modulo) odstopanj vseh vrednosti analizirane populacije od njihove povprečne vrednosti.
3. Disperzija - povprečni kvadrat odstopanj.
4. Standardni odklon je koren disperzije (povprečni kvadrat odklonov).
5. Koeficient variacije je najbolj univerzalen indikator, ki odraža stopnjo razpršenosti vrednosti, ne glede na njihovo lestvico in merske enote. Koeficient variacije se meri v odstotkih in se lahko uporablja za primerjavo variacije različnih procesov in pojavov.

Tako v statistični analizi obstaja sistem kazalnikov, ki odražajo homogenost pojavov in stabilnost procesov. Indikatorji variacije pogosto nimajo samostojnega pomena in se uporabljajo za nadaljnjo analizo podatkov (izračun intervalov zaupanja).

V tem članku bom govoril o kako najti standardni odklon. To gradivo je izredno pomembno za popolno razumevanje matematike, zato bi moral mentor matematike posvetiti ločeno lekcijo ali celo več, da bi jo preučili. V tem članku boste našli povezavo do podrobne in razumljive video vadnice, ki pojasnjuje, kaj je standardni odklon in kako ga najti.

Standardni odklon omogoča ovrednotenje širjenja vrednosti, dobljenih kot rezultat merjenja določenega parametra. Označeno s simbolom (grška črka "sigma").

Formula za izračun je precej preprosta. Če želite najti standardni odklon, morate vzeti kvadratni koren variance. Zdaj se morate vprašati: "Kaj je varianca?"

Kaj je varianca

Definicija variance gre takole. Disperzija je aritmetična sredina kvadratnih odstopanj vrednosti od povprečja.

Če želite ugotoviti varianco, zaporedoma izvedite naslednje izračune:

  • Določite povprečje (preprosto aritmetično povprečje niza vrednosti).
  • Nato od vsake vrednosti odštejte povprečje in kvadrirajte dobljeno razliko (dobite kvadrat razlike).
  • Naslednji korak je izračun aritmetične sredine dobljenih kvadratov razlik (zakaj točno kvadratov lahko izveste spodaj).

Poglejmo si primer. Recimo, da se vi in ​​vaši prijatelji odločite izmeriti višino svojih psov (v milimetrih). Kot rezultat meritev ste prejeli naslednje mere višine (v vihru): 600 mm, 470 mm, 170 mm, 430 mm in 300 mm.

Izračunajmo povprečje, varianco in standardni odklon.

Najprej poiščemo povprečno vrednost. Kot že veste, morate za to sešteti vse izmerjene vrednosti in jih deliti s številom meritev. Napredek izračuna:

Povprečna mm.

Torej je povprečje (aritmetična sredina) 394 mm.

Zdaj moramo določiti odstopanje višine posameznega psa od povprečja:

končno, za izračun variance, kvadriramo vsako od dobljenih razlik in nato poiščemo aritmetično sredino dobljenih rezultatov:

Razpršenost mm 2 .

Tako je disperzija 21704 mm 2.

Kako najti standardno odstopanje

Torej, kako lahko zdaj izračunamo standardni odklon, če poznamo varianco? Kot se spomnimo, iz tega vzemite kvadratni koren. To pomeni, da je standardni odklon enak:

Mm (zaokroženo na najbližje celo število v mm).

S to metodo smo ugotovili, da so nekateri psi (na primer rotvajlerji) zelo veliki psi. So pa tudi zelo majhni psi (na primer jazbečarji, a jim tega ne smeš povedati).

Najbolj zanimivo je, da standardna deviacija nosi s seboj koristne informacije. Sedaj lahko pokažemo, kateri od dobljenih rezultatov merjenja višine so znotraj intervala, ki ga dobimo, če narišemo standardni odklon od povprečja (na obe strani).

To pomeni, da s standardnim odklonom dobimo "standardno" metodo, ki nam omogoča, da ugotovimo, katera od vrednosti je normalna (statistično povprečje) in katera je izjemno velika ali, nasprotno, majhna.

Kaj je standardni odklon

Ampak ... vse bo malo drugače, če analiziramo vzorec podatke. V našem primeru smo upoštevali splošna populacija. Se pravi, naših 5 psov so bili edini psi na svetu, ki so nas zanimali.

Če pa so podatki vzorec (vrednosti, izbrane iz velike populacije), je treba izračune narediti drugače.

Če obstajajo vrednosti, potem:

Vsi ostali izračuni se izvajajo podobno, vključno z določitvijo povprečja.

Na primer, če je naših pet psov le vzorec populacije psov (vseh psov na planetu), moramo deliti z 4, ne 5, namreč:

Varianca vzorca = mm 2.

V tem primeru je standardni odklon za vzorec enak mm (zaokroženo na najbližje celo število).

Lahko rečemo, da smo naredili nekaj "popravka" v primeru, ko so naše vrednosti le majhen vzorec.

Opomba. Zakaj točno kvadratne razlike?

Toda zakaj pri izračunu variance vzamemo točno kvadrat razlike? Recimo, da ste pri merjenju nekega parametra prejeli naslednji niz vrednosti: 4; 4; -4; -4. Če preprosto seštejemo absolutna odstopanja od povprečja (razlike)... se negativne vrednosti izničijo s pozitivnimi:

.

Izkazalo se je, da je ta možnost neuporabna. Potem je morda vredno poskusiti absolutne vrednosti odstopanj (to je module teh vrednosti)?

Na prvi pogled se izkaže dobro (dobljena vrednost, mimogrede, se imenuje povprečno absolutno odstopanje), vendar ne v vseh primerih. Poskusimo drug primer. Rezultat meritve naj bo naslednji niz vrednosti: 7; 1; -6; -2. Potem je povprečno absolutno odstopanje:

Vau! Spet smo dobili rezultat 4, čeprav imajo razlike precej večji razpon.

Zdaj pa poglejmo, kaj se zgodi, če kvadriramo razlike (in nato vzamemo kvadratni koren njihove vsote).

Za prvi primer bo to:

.

Za drugi primer bo to:

Zdaj pa je čisto druga zadeva! Večja ko je razpršenost razlik, večja je standardna deviacija ... to je tisto, kar smo ciljali.

Pravzaprav v ta metoda Uporablja se ista ideja kot pri izračunu razdalje med točkami, le da se uporablja na drugačen način.

In z matematičnega vidika je uporaba kvadratov in kvadratni koren daje več koristi, kot bi jih lahko dobili na podlagi absolutne vrednosti odstopanj, zaradi česar je standardna deviacija uporabna za druge matematične probleme.

Sergey Valerievich vam je povedal, kako najti standardno odstopanje

Standardni odklon(sinonimi: standardni odklon, standardni odklon, kvadratno odstopanje; povezani izrazi: standardni odklon, standardni namaz) - v teoriji verjetnosti in statistiki najpogostejši indikator razpršenosti vrednosti naključne spremenljivke glede na njeno matematično pričakovanje. Pri omejenih nizih vzorcev vrednosti se namesto matematičnega pričakovanja uporablja aritmetična sredina množice vzorcev.

Enciklopedični YouTube

  • 1 / 5

    Standardni odklon se meri v merskih enotah same naključne spremenljivke in se uporablja pri izračunu standardne napake aritmetične sredine, pri konstruiranju intervalov zaupanja, pri statističnem testiranju hipotez, pri merjenju linearne povezave med naključnimi spremenljivkami. Definirano kot kvadratni koren variance naključne spremenljivke.

    Standardni odklon:

    s = n n − 1 σ 2 = 1 n − 1 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s=(\sqrt ((\frac (n)(n-1))\sigma ^(2)))=(\sqrt ((\frac (1)(n-1))\sum _( i=1)^(n)\levo(x_(i)-(\bar (x))\desno)^(2)));)
    • Opomba: Zelo pogosto prihaja do neskladij v imenih MSD (povprečno kvadratno odstopanje) in STD (standardno odstopanje) z njunima formulama. Na primer, v modulu numPy programskega jezika Python je funkcija std() opisana kot "standardni odklon", medtem ko formula odraža standardni odklon (deljenje s korenom vzorca). V Excelu je funkcija STANDARDEVAL() drugačna (deljenje s korenom iz n-1).

    Standardni odklon(ocena standardnega odklona naključne spremenljivke x glede na njegovo matematično pričakovanje, ki temelji na nepristranski oceni njegove variance) s (\displaystyle s):

    σ = 1 n ∑ i = 1 n (x i − x ¯) 2 . (\displaystyle \sigma =(\sqrt ((\frac (1)(n))\sum _(i=1)^(n)\levo(x_(i)-(\bar (x))\desno) ^(2))).)

    Kje σ 2 (\displaystyle \sigma ^(2))- disperzija; x i (\displaystyle x_(i)) - jaz element izbora; n (\displaystyle n)- Velikost vzorca; - aritmetična sredina vzorca:

    x ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + … + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\pike +x_(n)).)

    Opozoriti je treba, da sta obe oceni pristranski. V splošnem primeru je nemogoče sestaviti nepristransko oceno. Vendar je ocena, ki temelji na nepristranski oceni variance, dosledna.

    V skladu z GOST R 8.736-2011 se standardni odklon izračuna z uporabo druge formule tega razdelka. Preverite rezultate.

    Pravilo treh sigm

    Pravilo treh sigm (3 σ (\displaystyle 3\sigma )) - skoraj vse vrednosti normalno porazdeljene naključne spremenljivke ležijo v intervalu (x ¯ − 3 σ ; x ¯ + 3 σ) (\displaystyle \left((\bar (x))-3\sigma ;(\bar (x))+3\sigma \desno)). Natančneje - s približno verjetnostjo 0,9973 je vrednost normalno porazdeljene naključne spremenljivke v določenem intervalu (pod pogojem, da vrednost x ¯ (\displaystyle (\bar (x))) res in ni pridobljeno kot rezultat obdelave vzorca).

    Če je prava vrednost x ¯ (\displaystyle (\bar (x))) je neznano, potem ne smete uporabljati σ (\displaystyle \sigma ), A s. Tako se pravilo treh sigm spremeni v pravilo treh s .

    Razlaga vrednosti standardnega odklona

    Večja vrednost standardnega odklona kaže večji razpon vrednosti v predstavljenem nizu z povprečna velikost množice; manjša vrednost torej kaže, da so vrednosti v nizu združene okoli povprečne vrednosti.

    Na primer, imamo tri nize številk: (0, 0, 14, 14), (0, 6, 8, 14) in (6, 6, 8, 8). Vsi trije nizi imajo srednje vrednosti enake 7, standardni odkloni pa enaki 7, 5 in 1. Zadnji niz ima majhen standardni odklon, saj so vrednosti v nizu združene okoli srednje vrednosti; prvi niz ima največ velik pomen standardni odklon - vrednosti znotraj nabora se močno razlikujejo od povprečne vrednosti.

    V splošnem se standardni odklon lahko šteje za merilo negotovosti. Na primer, v fiziki se standardna deviacija uporablja za določitev napake niza zaporednih meritev neke količine. Ta vrednost je zelo pomembna za določitev verjetnosti preučevanega pojava v primerjavi z vrednostjo, ki jo predvideva teorija: če se povprečna vrednost meritev močno razlikuje od vrednosti, ki jih predvideva teorija (velik standardni odklon), potem je treba dobljene vrednosti ali način njihovega pridobivanja ponovno preveriti. identificirati s tveganjem portfelja.

    Podnebje

    Recimo, da obstajata dve mesti z enako povprečno najvišjo dnevno temperaturo, vendar se eno nahaja na obali, drugo pa na ravnini. Znano je, da imajo mesta na obali veliko različnih najvišjih dnevnih temperatur, ki so nižje od mest v notranjosti. Zato bo standardni odklon najvišjih dnevnih temperatur za obalno mesto manjši kot za drugo mesto, kljub temu, da je njihova povprečna vrednost enaka, kar v praksi pomeni, da je verjetnost, da Najvišja temperatura zrak vsakega določenega dne v letu se bo močneje razlikoval od povprečne vrednosti, višje za mesto znotraj celine.

    Šport

    Predpostavimo, da obstaja več nogometnih moštev, ki so ocenjena po nekem naboru parametrov, na primer število doseženih in prejetih golov, priložnosti za zadetek itd. Najverjetneje bo najboljša ekipa v tej skupini imela najboljše vrednosti po več parametrih. Manjši kot je standardni odklon ekipe za vsakega od predstavljenih parametrov, bolj predvidljiv je rezultat ekipe; takšne ekipe so uravnotežene. Na drugi strani pa ekipa z dobra vrednost standardni odklon je težko napovedati rezultat, kar je posledično razloženo z neravnovesjem, npr. močna obramba, vendar s šibkim napadom.

    Uporaba standardnega odklona moštvenih parametrov omogoča v takšni ali drugačni meri predvidevanje rezultata dvoboja med dvema ekipama, oceno moči in šibke strani ukazov, zato tudi izbranih načinov boja.

    Standardni odklon je eden tistih statističnih izrazov v podjetniškem svetu, ki daje verodostojnost ljudem, ki ga uspejo dobro izpeljati v pogovoru ali predstavitvi, hkrati pa pušča nejasno zmedo za tiste, ki ne vedo, kaj to je, a jim je preveč nerodno. vprašaj. Pravzaprav večina menedžerjev ne razume koncepta standardne deviacije in če ste eden izmed njih, je čas, da prenehate živeti v laži. V današnjem članku vam bom povedal, kako vam lahko ta premalo cenjena statistična mera pomaga bolje razumeti podatke, s katerimi delate.

    Kaj meri standardni odklon?

    Predstavljajte si, da ste lastnik dveh trgovin. Da bi se izognili izgubam, je pomembno imeti jasen nadzor nad stanjem zalog. Da bi ugotovili, kateri upravitelj bolje upravlja zaloge, se odločite analizirati zadnjih šest tednov zalog. Povprečni tedenski strošek zaloge za obe trgovini je približno enak in znaša približno 32 konvencionalnih enot. Na prvi pogled povprečni odtok kaže, da oba menedžerja delujeta podobno.

    Toda če si podrobneje ogledate dejavnosti druge trgovine, se boste prepričali, da je povprečna vrednost sicer pravilna, vendar je variabilnost zaloge zelo visoka (od 10 do 58 USD). Tako lahko sklepamo, da povprečje podatkov ne ovrednoti vedno pravilno. Tukaj nastopi standardni odklon.

    Standardni odklon kaže, kako so vrednosti porazdeljene glede na povprečje v našem . Z drugimi besedami, razumete lahko, kako velik je razpon odtoka iz tedna v teden.

    V našem primeru smo uporabili Excelovo funkcijo STDEV za izračun standardnega odklona skupaj s srednjo vrednostjo.

    Pri prvem vodji je bila standardna deviacija 2. To nam pove, da vsaka vrednost v vzorcu v povprečju za 2 odstopa od povprečja. Je dober? Poglejmo vprašanje z drugega zornega kota – standardni odklon 0 nam pove, da je vsaka vrednost v vzorcu enaka svojemu povprečju (v našem primeru 32,2). Tako se standardna deviacija 2 ne razlikuje veliko od 0, kar pomeni, da je večina vrednosti blizu povprečja. Bližje ko je standardni odklon 0, bolj zanesljivo je povprečje. Poleg tega standardni odklon blizu 0 kaže na majhno variabilnost podatkov. To pomeni, da vrednost odtoka s standardnim odklonom 2 kaže na neverjetno doslednost prvega upravitelja.

    V primeru druge trgovine je bil standardni odklon 18,9. Se pravi, strošek odtoka v povprečju iz tedna v teden odstopa za 18,9 od povprečne vrednosti. Noro namaz! Bolj kot je standardni odklon od 0, manj natančno je povprečje. V našem primeru številka 18,9 nakazuje, da povprečni vrednosti (32,8 USD na teden) preprosto ni mogoče zaupati. Pove nam tudi, da je tedenski odtok zelo spremenljiv.

    To je na kratko koncept standardne deviacije. Čeprav ne omogoča vpogleda v druge pomembne statistične meritve (Mode, Mediana ...), ima standardna deviacija dejansko ključno vlogo pri večini statističnih izračunov. Razumevanje načel standardnega odklona bo osvetlilo številne vaše poslovne procese.

    Kako izračunati standardno odstopanje?

    Zdaj vemo, kaj pravi standardna deviacijska številka. Ugotovimo, kako se izračuna.

    Oglejmo si nabor podatkov od 10 do 70 v korakih po 10. Kot lahko vidite, sem zanje že izračunal vrednost standardnega odklona s funkcijo STANDARDEV v celici H2 (oranžno).

    Spodaj so koraki, po katerih Excel doseže 21.6.

    Upoštevajte, da so vsi izračuni vizualizirani za boljše razumevanje. Pravzaprav se v Excelu izračun zgodi takoj, vsi koraki pa ostanejo v zakulisju.

    Najprej Excel najde vzorčno povprečje. V našem primeru se je izkazalo povprečje 40, ki se v naslednjem koraku odšteje od vsake vzorčne vrednosti. Vsaka dobljena razlika se kvadrira in sešteje. Dobili smo vsoto, ki je enaka 2800, ki jo je treba deliti s številom vzorčnih elementov minus 1. Ker imamo 7 elementov, se izkaže, da moramo 2800 deliti s 6. Iz dobljenega rezultata najdemo kvadratni koren, to številka bo standardna deviacija.

    Za tiste, ki jim načelo izračuna standardnega odklona z vizualizacijo ni povsem jasno, podajam matematično razlago iskanja te vrednosti.

    Funkcije za izračun standardnega odklona v Excelu

    Excel ima več vrst formul standardnega odklona. Vse kar morate storiti je, da vnesete =STDEV in videli boste sami.

    Omeniti velja, da funkciji STDEV.V in STDEV.G (prva in druga funkcija na seznamu) podvajata funkciji STDEV oziroma STDEV (peta oziroma šesta funkcija na seznamu), ki sta bili obdržani zaradi združljivosti s prejšnjimi različice Excela.

    Na splošno razlika v končnicah funkcij .B in .G kaže načelo izračuna standardnega odklona vzorca ali populacije. Razliko med tema dvema nizoma sem razložil že v prejšnjem.

    Značilnost funkcij STANDARDEVAL in STANDARDEVAL (tretja in četrta funkcija na seznamu) je, da se pri izračunu standardnega odklona matrike logično in besedilne vrednosti. Besedilne in prave logične vrednosti so 1, lažne logične vrednosti pa 0. Ne morem si predstavljati situacije, v kateri bi potreboval ti dve funkciji, zato menim, da ju je mogoče prezreti.