Стандартното отклонение се определя като. Изчисляване на стандартно отклонение в Microsoft Excel

Мъдрите математици и статистици излязоха с по-надежден показател, макар и с малко по-различна цел - средно линейно отклонение. Този показател характеризира мярката за дисперсия на стойностите на набор от данни около тяхната средна стойност.

За да покажете мярката за разсейване на данните, първо трябва да решите спрямо какво ще бъде изчислено това разсейване - обикновено това е средната стойност. След това трябва да изчислите колко далеч са стойностите на анализирания набор от данни от средните. Ясно е, че всяка стойност отговаря на определена стойност на отклонение, но ние се интересуваме от общата оценка, обхващаща цялата популация. Следователно средното отклонение се изчислява с помощта на обичайната средноаритметична формула. Но! Но за да се изчисли средната стойност на отклоненията, те трябва първо да бъдат добавени. И ако съберем положителни и отрицателни числа, те взаимно ще се компенсират и сумата им ще клони към нула. За да се избегне това, всички отклонения се вземат по модул, т.е. всички отрицателни числа стават положителни. Сега средното отклонение ще покаже обобщена мярка за разпространението на стойностите. В резултат на това средното линейно отклонение ще бъде изчислено по формулата:

а– средно линейно отклонение,

х– анализирания показател, с тире отгоре – средната стойност на показателя,

н– брой стойности в анализирания набор от данни,

Надявам се, че сумиращият оператор не плаши никого.

Средното линейно отклонение, изчислено по посочената формула, отразява средното абсолютно отклонение от средната стойност за дадена популация.

На снимката червената линия е средната стойност. Отклоненията на всяко наблюдение от средната стойност са обозначени с малки стрелки. Те се събират по модул и се сумират. След това всичко се разделя на броя на стойностите.

За да е пълна картината, трябва да дадем пример. Да кажем, че има фирма, която произвежда изрезки за лопати. Всеки резник трябва да е с дължина 1,5 метра, но по-важното е, че всички те трябва да са еднакви или съгл. поне, плюс или минус 5 см. Въпреки това, небрежните работници или отрязаха 1,2 м или 1,8 м. Летните жители са недоволни. Директорът на фирмата решава да направи статистически анализ на дължината на изрезките. Избрах 10 парчета и измерих дължината им, намерих средната стойност и изчислих средното линейно отклонение. Средната стойност се оказа точно необходимата - 1,5 м. Но средното линейно отклонение беше 0,16 м. Така се оказва, че всеки резник е по-дълъг или по-къс от необходимото средно с 16 см. Има какво да се говори с работници . Всъщност не съм виждал реално използване на този индикатор, така че сам измислих пример. В статистиката обаче има такъв показател.

дисперсия

Подобно на средното линейно отклонение, дисперсията също отразява степента на разпространение на данните около средната стойност.

Формулата за изчисляване на дисперсията изглежда така:

(за вариационни серии (претеглена дисперсия))

(за негрупирани данни (проста вариация))

Където: σ 2 – дисперсия, Xi– анализираме показателя sq (стойност на знака), – средната стойност на индикатора, f i – броят на стойностите в анализирания набор от данни.

Дисперсията е средният квадрат на отклоненията.

Първо се изчислява средната стойност, след това се взема разликата между всяка първоначална и средна стойност, повдига се на квадрат, умножава се по честотата на съответната стойност на атрибута, добавя се и след това се разделя на броя на стойностите в популацията.

Въпреки това, в чиста форма, като средно аритметично или индекс, дисперсията не се използва. Това е по-скоро спомагателен и междинен показател, който се използва за други видове статистически анализи.

Опростен начин за изчисляване на дисперсията

Стандартно отклонение

За да се използва дисперсията за анализ на данни, се взема квадратен корен от дисперсията. Оказва се т.нар стандартно отклонение.

Между другото, стандартното отклонение се нарича още сигма - от гръцката буква, която го обозначава.

Стандартното отклонение, очевидно, също характеризира мярката за дисперсия на данните, но сега (за разлика от дисперсията) може да се сравни с оригиналните данни. По правило средните квадратични мерки в статистиката дават по-точни резултати от линейните. Следователно средната стандартно отклонениее по-точна мярка за дисперсията на данните от линейното средно отклонение.

$X$. Като начало нека си припомним следното определение:

Определение 1

Население-- съвкупност от произволно избрани обекти от даден тип, върху които се извършват наблюдения с цел получаване на конкретни стойности на случайна величина, извършвани при постоянни условия при изследване на една случайна величина от даден тип.

Определение 2

Обща вариация-- средноаритметичната стойност на квадратите на отклоненията на стойностите на варианта на съвкупността от тяхната средна стойност.

Нека стойностите на опция $x_1,\ x_2,\dots ,x_k$ имат съответно честоти $n_1,\ n_2,\dots ,n_k$. След това общата дисперсия се изчислява по формулата:

Нека помислим специален случай. Нека всички опции $x_1,\ x_2,\dots ,x_k$ са различни. В този случай $n_1,\ n_2,\dots ,n_k=1$. Откриваме, че в този случай общата дисперсия се изчислява по формулата:

Тази концепция също се свързва с концепцията за общо стандартно отклонение.

Определение 3

Общо стандартно отклонение

\[(\sigma )_g=\sqrt(D_g)\]

Дисперсия на извадката

Нека ни бъде дадена примерна популация по отношение на случайна променлива $X$. Като начало нека си припомним следното определение:

Определение 4

Извадкова популация-- част от избрани обекти от генералната съвкупност.

Определение 5

Дисперсия на извадката-- средно аритметично на стойностите на извадката от съвкупността.

Нека стойностите на опция $x_1,\ x_2,\dots ,x_k$ имат съответно честоти $n_1,\ n_2,\dots ,n_k$. След това дисперсията на извадката се изчислява по формулата:

Нека разгледаме частен случай. Нека всички опции $x_1,\ x_2,\dots ,x_k$ са различни. В този случай $n_1,\ n_2,\dots ,n_k=1$. Откриваме, че в този случай дисперсията на извадката се изчислява по формулата:

Също така свързана с тази концепция е концепцията за стандартното отклонение на извадката.

Определение 6

Примерно стандартно отклонение-- корен квадратен от общата дисперсия:

\[(\sigma )_в=\sqrt(D_в)\]

Коригирана дисперсия

За да се намери коригираната дисперсия $S^2$, е необходимо дисперсията на извадката да се умножи по частта $\frac(n)(n-1)$, т.е.

Тази концепция се свързва и с концепцията за коригирано стандартно отклонение, което се намира по формулата:

В случай, че стойностите на вариантите не са дискретни, а представляват интервали, тогава във формулите за изчисляване на общите или извадковите дисперсии стойността на $x_i$ се приема за стойност на средата на интервала до на който $x_i.$ принадлежи.

Пример за задача за намиране на дисперсията и стандартното отклонение

Пример 1

Извадката от съвкупността се определя от следната таблица на разпределение:

Снимка 1.

Нека намерим за него дисперсията на извадката, стандартното отклонение на извадката, коригираната дисперсия и коригираното стандартно отклонение.

За да разрешим този проблем, първо правим таблица за изчисление:

Фигура 2.

Стойността $\overline(x_в)$ (извадково средно) в таблицата се намира по формулата:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(305)(20)=15,25\]

Нека намерим дисперсията на примера, използвайки формулата:

Примерно стандартно отклонение:

\[(\sigma )_в=\sqrt(D_в)\приблизително 5,12\]

Коригирана дисперсия:

\[(S^2=\frac(n)(n-1)D)_в=\frac(20)(19)\cdot 26.1875\приблизително 27.57\]

Коригирано стандартно отклонение.

Стандартно отклонение(синоними: стандартно отклонение, стандартно отклонение, квадратно отклонение; свързани термини: стандартно отклонение, стандартен спред) - в теорията на вероятностите и статистиката, най-често срещаният индикатор за дисперсията на стойностите на случайна променлива спрямо нейното математическо очакване. При ограничени масиви от извадки от стойности вместо математическото очакване се използва средноаритметичното от набора от извадки.

Енциклопедичен YouTube

1 / 5
Стандартното отклонение се измерва в мерни единици на самата случайна променлива и се използва при изчисляване на стандартната грешка на средната аритметична стойност, при конструиране на доверителни интервали, при статистическо тестване на хипотези, при измерване на линейната зависимост между случайни променливи. Дефинира се като корен квадратен от дисперсията на случайна променлива.
Стандартно отклонение:
s = n n − 1 σ 2 = 1 n − 1 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s=(\sqrt ((\frac (n)(n-1))\sigma ^(2)))=(\sqrt ((\frac (1)(n-1))\sum _( i=1)^(n)\left(x_(i)-(\bar (x))\right)^(2)));)
- Забележка: Много често има несъответствия в имената на MSD (средно квадратно отклонение) и STD (стандартно отклонение) с техните формули. Например в модула numPy на езика за програмиране Python функцията std() е описана като „стандартно отклонение“, докато формулата отразява стандартното отклонение (деление на корена на извадката). В Excel функцията STANDARDEVAL() е различна (деление по корен от n-1).
Стандартно отклонение(оценка на стандартното отклонение на случайна променлива хспрямо неговото математическо очакване въз основа на безпристрастна оценка на неговата дисперсия) s (\displaystyle s):
σ = 1 n ∑ i = 1 n (x i − x ¯) 2 . (\displaystyle \sigma =(\sqrt ((\frac (1)(n))\sum _(i=1)^(n)\left(x_(i)-(\bar (x))\right) ^(2))).)
Където σ 2 (\displaystyle \sigma ^(2))- дисперсия; x i (\displaystyle x_(i)) - азелемент на селекцията; n (\displaystyle n)- размер на извадката; - средно аритметично от извадката:
x ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + … + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\lточки +x_(n)).)
Трябва да се отбележи, че и двете оценки са пристрастни. В общия случай е невъзможно да се изгради безпристрастна оценка. Въпреки това оценката, базирана на безпристрастната оценка на дисперсията, е последователна.
В съответствие с GOST R 8.736-2011 стандартното отклонение се изчислява по втората формула на този раздел. Моля, проверете резултатите.

Правилото на трите сигми

Правилото на трите сигми (3 σ (\displaystyle 3\sigma )) - почти всички стойности на нормално разпределена случайна променлива лежат в интервала (x ¯ − 3 σ ; x ¯ + 3 σ) (\displaystyle \left((\bar (x))-3\sigma ;(\bar (x))+3\sigma \right)). По-строго - с приблизително вероятност 0,9973, стойността на нормално разпределена случайна променлива се намира в посочения интервал (при условие, че стойността x ¯ (\displaystyle (\bar (x)))вярно, а не получено в резултат на обработка на пробата).
Ако истинската стойност x ¯ (\displaystyle (\bar (x)))е неизвестен, тогава не трябва да използвате σ (\displaystyle \sigma ), А с. Така правилото на трите сигми се трансформира в правилото на трите с .

Интерпретация на стойността на стандартното отклонение

По-голямата стойност на стандартното отклонение показва по-голямо разпространение на стойностите в представения набор със средната стойност на набора; по-малка стойност, съответно, показва, че стойностите в набора са групирани около средната стойност.
Например, имаме три набора от числа: (0, 0, 14, 14), (0, 6, 8, 14) и (6, 6, 8, 8). И трите набора имат средни стойности, равни на 7, и стандартни отклонения, съответно равни на 7, 5 и 1. Последният набор има малко стандартно отклонение, тъй като стойностите в набора са групирани около средната стойност; първият набор има най-голямата стойност на стандартното отклонение - стойностите в рамките на набора се различават значително от средната стойност.
В общ смисъл стандартното отклонение може да се счита за мярка за несигурност. Например във физиката стандартното отклонение се използва за определяне на грешката на серия от последователни измервания на някакво количество. Тази стойност е много важна за определяне на правдоподобността на изследваното явление в сравнение със стойността, предвидена от теорията: ако средната стойност на измерванията се различава значително от стойностите, предвидени от теорията (голямо стандартно отклонение), тогава получените стойности или методът за получаването им трябва да бъдат проверени отново. идентифицирани с портфейлния риск.

Климат

Да предположим, че има два града с еднаква средна максимална дневна температура, но единият е разположен на брега, а другият в равнината. Известно е, че градовете, разположени на брега, имат много различни максимални дневни температури, които са по-ниски от градовете, разположени във вътрешността. Следователно стандартното отклонение на максималните дневни температури за крайбрежен град ще бъде по-малко, отколкото за втори град, въпреки факта, че средната им стойност е една и съща, което на практика означава, че вероятността, че Максимална температуравъздух за всеки конкретен ден от годината ще се различава по-силно от средната стойност, по-висока за град, разположен във вътрешността на континента.

спорт

Да приемем, че има няколко футболни отбора, които се оценяват според някакъв набор от параметри, например брой отбелязани и допуснати голове, положения за гол и т.н. Най-вероятно най-добрият отбор в тази група ще има най-добри стойностипо повече параметри. Колкото по-малко е стандартното отклонение на екипа за всеки от представените параметри, толкова по-предвидим е резултатът на отбора; такива екипи са балансирани. От друга страна отборът с страхотна ценастандартното отклонение е трудно да се предвиди резултатът, което от своя страна се обяснява с дисбаланса, напр. силна защита, но със слаба атака.
Използването на стандартното отклонение на отборните параметри дава възможност в една или друга степен да се прогнозира резултатът от мач между два отбора, като се преценят силните страни и слаби страникоманди, а следователно и избраните методи на борба.

Дефинира се като обобщаваща характеристика на размера на вариацията на черта в съвкупността. Тя е равна на корен квадратен от средното квадратно отклонение на отделните стойности на атрибута от средноаритметичното, т.е. Коренът на и може да се намери по следния начин:

1. За основния ред:

2. За вариационната серия:

Трансформацията на формулата за стандартно отклонение я довежда до форма, по-удобна за практически изчисления:

Средно аритметично стандартно отклонение определя колко средно специфичните опции се отклоняват от тяхната средна стойност и също така е абсолютна мярка за променливостта на характеристика и се изразява в същите единици като опциите и следователно се тълкува добре.

Примери за намиране на стандартното отклонение: ,

За алтернативни характеристики формулата за стандартно отклонение изглежда така:

където p е делът на единиците в популацията, които имат определена характеристика;

q е делът на единиците, които нямат тази характеристика.

Концепцията за средно линейно отклонение

Средно линейно отклонениедефинирана като средноаритметично абсолютни стойностиотклонения на отделните варианти от .

1. За основния ред:

2. За вариационната серия:

където сумата n е сума от честотите на вариационните серии.

Пример за намиране на средното линейно отклонение:

Предимството на средното абсолютно отклонение като мярка за дисперсия в обхвата на вариация е очевидно, тъй като тази мярка се основава на отчитане на всички възможни отклонения. Но този индикатор има значителни недостатъци. Произволното отхвърляне на алгебрични знаци за отклонения може да доведе до факта, че математическите свойства на този индикатор далеч не са елементарни. Това прави много трудно използването на средното абсолютно отклонение при решаване на проблеми, включващи вероятностни изчисления.

Следователно средното линейно отклонение като мярка за вариация на характеристика рядко се използва в статистическата практика, а именно когато сумирането на показатели без отчитане на знаци има икономически смисъл. С негова помощ се анализират например оборотът на външната търговия, съставът на работниците, ритъмът на производството и др.

Среден квадрат

Приложен среден квадрат, например за изчисляване на средния размер на страните на n квадратни сечения, средните диаметри на стволове, тръби и др. Разделя се на два вида.

Прост среден квадрат. Ако при замяна на отделни стойности на характеристика с средна стойностАко е необходимо сумата от квадратите на първоначалните стойности да се поддържа постоянна, тогава средната стойност ще бъде квадратична средна стойност.

Това е корен квадратен от частното от разделянето на сумата от квадратите на отделните стойности на атрибута на техния брой:

Претегленият среден квадрат се изчислява по формулата:

където f е знакът за тегло.

Среден куб

Прилага се среден кубичен, например при определяне на средната дължина на страна и кубове. Разделя се на два вида.
Средна кубична проста:

При изчисляване на средни стойности и дисперсия в сериите на интервално разпределение, истинските стойности на атрибута се заменят с централните стойности на интервалите, които са различни от средните аритметични стойностивключени в интервала. Това води до систематична грешка при изчисляване на дисперсията. V.F. Шепард определи това грешка в изчисляването на дисперсията, причинена от използването на групирани данни, е 1/12 от квадрата на стойността на интервала, както в посока на увеличаване, така и в посока на намаляване на величината на дисперсията.

Поправката на Шепардтрябва да се използва, ако разпределението е близко до нормалното, отнася се до характеристика с непрекъснат характер на вариация и се основава на значително количество първоначални данни (n > 500). Въпреки това, въз основа на факта, че в някои случаи и двете грешки, действащи в различни посоки, се компенсират взаимно, понякога е възможно да се откаже въвеждането на корекции.

как по-малка стойностдисперсия и стандартно отклонение, толкова по-хомогенна е популацията и по-типична ще бъде средната стойност.
В практиката на статистиката често има нужда от сравняване на вариации различни знаци. Например, от голям интерес е да се сравнят вариациите във възрастта на работниците и тяхната квалификация, трудов стаж и размер заплати, себестойност и печалба, трудов стаж и производителност на труда и др. За такива сравнения показателите за абсолютна променливост на характеристиките са неподходящи: невъзможно е да се сравни променливостта на трудовия опит, изразена в години, с промяната на заплатите, изразена в рубли.

За извършване на такива сравнения, както и сравнения на променливостта на една и съща характеристика в няколко популации с различни средни аритметични, се използва относителен показател variation - коефициент на вариация.

Структурни средни

За да се характеризира централната тенденция в статистическите разпределения, често е рационално да се използва заедно със средната аритметична стойност на определена стойност на характеристиката X, която поради определени характеристики на нейното местоположение в серията на разпределение може да характеризира нейното ниво.

Това е особено важно, когато в серия на разпределение екстремните стойности на дадена характеристика имат неясни граници. Поради това точно определениеСредно аритметичното обикновено е невъзможно или много трудно. В такива случаи средно нивоможе да се определи, като се вземе например стойност на характеристика, която се намира в средата на честотна серия или която се среща най-често в текущата серия.

Такива стойности зависят само от естеството на честотите, т.е. от структурата на разпределението. Те са типични по местоположение в серия от честоти, поради което такива стойности се считат за характеристики на центъра на разпределението и следователно са получили дефиницията на структурни средни стойности. Те се използват за учене вътрешна структураи структурата на серията за разпределение на стойностите на атрибутите. Такива показатели включват:

Най-съвършената характеристика на вариацията е средното квадратично отклонение, което се нарича стандарт (или стандартно отклонение). Стандартно отклонение() е равен на корен квадратен от средното квадратно отклонение на отделните стойности на атрибута от средното аритметично:

Стандартното отклонение е просто:

Претегленото стандартно отклонение се прилага към групирани данни:

Между средноквадратичното и средното линейно отклонение при нормални условия на разпределение възниква следното съотношение: ~ 1,25.

Стандартното отклонение, което е основната абсолютна мярка за вариация, се използва при определяне на ординатните стойности на крива на нормално разпределение, при изчисления, свързани с организацията на наблюдението на извадката и установяване на точността на характеристиките на извадката, както и при оценката на граници на вариация на характеристика в хомогенна популация.

Дисперсия, нейните видове, стандартно отклонение.

Дисперсия на случайна променлива— мярка за разпространението на дадена случайна променлива, т.е. нейното отклонение от математическото очакване. В статистиката често се използва обозначението или. Корен квадратенна дисперсията се нарича стандартно отклонение, стандартно отклонение или стандартен спред.

Обща дисперсия (σ 2) измерва вариацията на черта в нейната цялост под влиянието на всички фактори, които са причинили тази вариация. В същото време, благодарение на метода на групиране, е възможно да се идентифицира и измери вариацията, дължаща се на груповата характеристика и вариацията, възникваща под въздействието на неотчетени фактори.

Междугрупова дисперсия (σ 2 м.гр) характеризира систематична вариация, т.е. разлики в стойността на изследваната характеристика, които възникват под влияние на характеристиката - факторът, който формира основата на групата.

Стандартно отклонение(синоними: стандартно отклонение, стандартно отклонение, квадратно отклонение; сродни термини: стандартно отклонение, стандартно разпространение) - в теорията на вероятностите и статистиката, най-често срещаният индикатор за дисперсията на стойностите на случайна променлива спрямо нейното математическо очакване. При ограничени масиви от извадки от стойности вместо математическото очакване се използва средноаритметичното от набора от извадки.

Стандартното отклонение се измерва в единици на самата случайна променлива и се използва при изчисляване на стандартната грешка на средната аритметична стойност, при конструиране на доверителни интервали, при статистическо тестване на хипотези, при измерване на линейната зависимост между случайни променливи. Дефинира се като корен квадратен от дисперсията на случайна променлива.

Стандартно отклонение:

Стандартно отклонение(оценка на стандартното отклонение на случайна променлива хспрямо неговото математическо очакване въз основа на безпристрастна оценка на неговата дисперсия):

къде е дисперсията; — азелемент на селекцията; — размер на извадката; — средно аритметично от извадката:

Трябва да се отбележи, че и двете оценки са пристрастни. В общия случай е невъзможно да се изгради безпристрастна оценка. Въпреки това оценката, базирана на безпристрастната оценка на дисперсията, е последователна.

Същност, обхват и ред за определяне на мода и медиана.

В допълнение към средните мощности в статистиката, за относителното характеризиране на стойността на варираща характеристика и вътрешната структура на сериите на разпределение се използват структурни средни стойности, които са представени главно от мода и медиана.

Мода- Това е най-разпространеният вариант на сериала. Модата се използва например при определяне на размера на дрехите и обувките, които са най-търсени сред клиентите. Режимът за дискретна серия е този с най-висока честота. Когато изчислявате режима за серия от интервални вариации, първо трябва да определите модалния интервал (по максимална честота), а след това - стойността на модалната стойност на атрибута по формулата:

- - модна стойност

- — долна граница на модалния интервал

- — размер на интервала

- — модална интервална честота

- — честота на интервала, предхождащ модала

- — честота на интервала след модала

Медиана -това е стойността на атрибута, който е в основата на класираната серия и разделя тази серия на две равни части.

За да определите медианата в дискретна серия при наличие на честоти, първо изчислете полусумата на честотите и след това определете коя стойност на варианта попада върху нея. (Ако сортираната серия съдържа нечетен брой характеристики, тогава средното число се изчислява по формулата:

M e = (n (общ брой функции) + 1)/2,

в случай на четен брой характеристики, медианата ще бъде равна на средната стойност на двете характеристики в средата на реда).

При изчисляване медианиза серия от интервални вариации, първо определете средния интервал, в който се намира медианата, и след това определете стойността на медианата, като използвате формулата:

- — необходимата медиана

- - долна граница на интервала, който съдържа медианата

- — размер на интервала

- — сбор от честоти или брой членове на серията

Сума от натрупаните честоти на интервали, предхождащи медианата

- — честота на средния интервал

Пример. Намерете модата и медианата.

Решение:
В този пример модалният интервал е във възрастовата група 25-30 години, тъй като този интервал е с най-висока честота (1054).

Нека изчислим величината на модата:

Това означава, че модалната възраст на студентите е 27 години.

Нека изчислим медианата. Средният интервал е в възрастова група 25-30 години, тъй като в рамките на този интервал има опция, която разделя населението на две равни части (Σf i /2 = 3462/2 = 1731). След това заместваме необходимите числени данни във формулата и получаваме средната стойност:

Това означава, че половината от студентите са на възраст под 27,4 години, а другата половина са над 27,4 години.

В допълнение към режима и медианата могат да се използват индикатори като квартили, разделящи класираната серия на 4 равни части, децили- 10 части и процентили - на 100 части.

Понятието селективно наблюдение и неговия обхват.

Селективно наблюдениесе прилага при използване на непрекъснато наблюдение физически невъзможнопоради голямо количество данни или не е икономически целесъобразно. Физическата невъзможност възниква например при изследване на пътникопотоци, пазарни цени, семейни бюджети. Икономическа нецелесъобразност възниква при оценка на качеството на стоките, свързани с тяхното унищожаване, например дегустация, тестване на тухли за здравина и др.

Статистическите единици, избрани за наблюдение, съставляват рамката на извадката или извадката, а целият им масив съставлява генералната съвкупност (GS). В този случай броят на единиците в извадката се означава с н, а в целия ХС - н. Поведение n/Nнаречен относителен размер или пропорция на извадката.

Качеството на резултатите от извадковото наблюдение зависи от представителността на извадката, т.е. от това доколко тя е представителна в ХС. За да се осигури представителност на извадката, е необходимо спазването принцип на случаен избор на единици, което предполага, че включването на HS единица в извадката не може да бъде повлияно от друг фактор освен случайност.

Съществува 4 начина за произволен изборза проба:
1. Всъщност произволноселекция или "метод на лото", когато се задават статистически стойности серийни номера, поставени върху определени предмети (например бъчви), които след това се смесват в някакъв контейнер (например в торба) и се избират на случаен принцип. На практика този метод се осъществява с помощта на генератор на произволни числа или математически таблици на произволни числа.
2. Механичниизбор, според който всеки ( N/n)-та стойност на генералната съвкупност. Например, ако съдържа 100 000 стойности и трябва да изберете 1000, тогава всяка 100 000 / 1000 = 100-та стойност ще бъде включена в извадката. Освен това, ако не са класирани, тогава първият се избира на случаен принцип от първите сто, а числата на останалите ще бъдат със сто по-високи. Например, ако първата единица е № 19, тогава следващата трябва да бъде № 119, след това № 219, след това № 319 и т.н. Ако единиците на съвкупността са класирани, първо се избира номер 50, след това номер 150, след това номер 250 и т.н.
3. Извършва се избор на стойности от разнороден масив от данни стратифицирани(стратифициран) метод, когато популацията първо се разделя на хомогенни групи, към които се прилага случаен или механичен подбор.
4. Специален метод за вземане на проби е сериенселекция, при която произволно или механично избират не отделни стойности, а техните серии (последователности от някакво число до някакво число в редица), в рамките на които се извършва непрекъснато наблюдение.
Качеството на извадковите наблюдения също зависи от тип проба: повтаря сеили неповторимо.

При повторна селекцияСтатистическите стойности или техните серии, включени в извадката, се връщат към общата популация след употреба, като имат шанс да бъдат включени в нова извадка. Освен това всички стойности в популацията имат еднаква вероятност за включване в извадката.

Неповторима селекцияозначава, че статистическите стойности или техните серии, включени в извадката, не се връщат в общата популация след употреба и следователно за останалите стойности на последната вероятността да бъдат включени в следващата извадка се увеличава.

Неповтарящото се вземане на проби дава по-точни резултати, така че се използва по-често. Но има ситуации, когато не може да се приложи (проучване на пътникопотоци, потребителско търсене и т.н.) и тогава се извършва повторна селекция.

Максимална извадкова грешка при наблюдение, средна извадкова грешка, процедура за тяхното изчисляване.

Нека разгледаме подробно методите за формиране на извадкова съвкупност, изброени по-горе, и грешките, които възникват при това. представителност .
Съвсем произволноизвадката се основава на произволно избиране на единици от съвкупността без никакви систематични елементи. Технически действителният случаен подбор се извършва чрез теглене на жребий (например лотарии) или използване на таблица със случайни числа.

Правилният случаен подбор „в неговата чиста форма“ рядко се използва в практиката на селективното наблюдение, но е оригиналът сред другите видове подбор, той прилага основните принципи на селективното наблюдение. Нека разгледаме някои въпроси от теорията на метода за вземане на проби и формулата за грешка за проста случайна извадка.

Пристрастност при вземане на пробие разликата между стойността на параметъра в генералната съвкупност и неговата стойност, изчислена от резултатите от извадковото наблюдение. За средна количествена характеристика грешката на извадката се определя от

Показателят се нарича пределна извадкова грешка.
Средната стойност на извадката е случайна променлива, която може да приеме различни значенияв зависимост от това кои единици са включени в извадката. Следователно грешките на извадката също са случайни променливи и могат да приемат различни стойности. Следователно, определете средната стойност на възможни грешки - средна извадкова грешка, което зависи от:

Размер на извадката: отколкото още числа, толкова по-малка е средната грешка;

Степента на промяна в характеристиката, която се изследва: колкото по-малка е вариацията на характеристиката и, следователно, дисперсията, толкова по-малка е средната грешка на извадката.

При случаен повторен изборсредната грешка се изчислява:
.
На практика общата дисперсия не е точно известна, но в теория на вероятноститедоказано е, че
.
Тъй като стойността за достатъчно голямо n е близка до 1, можем да приемем, че . Тогава може да се изчисли средната извадкова грешка:
.
Но в случаите на малка извадка (с n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

При произволно неповтарящо се вземане на пробидадените формули се коригират със стойността. Тогава средната неповтаряща се извадкова грешка е:
И .
защото винаги е по-малко, тогава множителят () винаги е по-малък от 1. Това означава, че средната грешка по време на неповтаряща се селекция винаги е по-малка, отколкото по време на повторна селекция.
Механично вземане на пробисе използва, когато общата съвкупност е подредена по някакъв начин (например избирателни списъци по азбучен ред, телефонни номера, номера на къщи, номера на апартаменти). Изборът на единици се извършва на определен интервал, който е обратен на процента на извадката. И така, при 2% извадка се избират всеки 50 единици = 1/0,02, при 5% извадка, всеки 1/0,05 = 20 единици от общата съвкупност.

Референтната точка се избира по различни начини: произволно, от средата на интервала, с промяна на референтната точка. Основното е да се избягват системни грешки. Например при 5% извадка, ако първата единица е 13-та, то следващите са 33, 53, 73 и т.н.

По отношение на точността, механичният подбор е близък до действителното произволно вземане на проби. Следователно, за да се определи средната грешка на механичното вземане на проби, се използват подходящи формули за случаен избор.

При типична селекция изследваната популация е предварително разделена на хомогенни сходни групи. Например, когато се изследват предприятията, това могат да бъдат отрасли, подотрасли; когато се изследва населението, това могат да бъдат региони, социални или възрастови групи. След това се прави независима селекция от всяка група механично или чисто на случаен принцип.

Типичното вземане на проби дава по-точни резултати от другите методи. Типизирането на генералната съвкупност гарантира, че всяка типологична група е представена в извадката, което прави възможно елиминирането на влиянието на междугруповата вариация върху средната извадкова грешка. Следователно, когато се намира грешката на типична проба според правилото за добавяне на дисперсии (), е необходимо да се вземе предвид само средната стойност на груповите дисперсии. Тогава средната грешка на извадката е:
при повторен избор
,
с неповтаряща се селекция
,
Където - средната стойност на дисперсиите в рамките на групата в извадката.

Сериен избор (или гнездо). използва се, когато съвкупността е разделена на серии или групи преди началото на извадковото изследване. Тези серии могат да бъдат опаковки на готови продукти, студентски групи, екипи. Сериите за изследване се избират механично или чисто произволно, като в рамките на серията се извършва непрекъснат преглед на единици. Следователно средната извадкова грешка зависи само от междугруповата (междусерийната) дисперсия, която се изчислява по формулата:

където r е броят на избраните серии;
- средно от i-та серия.

Средната грешка на серийната извадка се изчислява:

при повторен избор:
,
с неповтаряща се селекция:
,
където R е общият брой епизоди.

Комбиниранселекцияе комбинация от разгледаните методи за избор.

Средната извадкова грешка за всеки метод на извадка зависи главно от абсолютния размер на извадката и в по-малка степен от процента на извадката. Нека приемем, че са направени 225 наблюдения в първия случай от популация от 4500 единици, а във втория от популация от 225 000 единици. Дисперсиите и в двата случая са равни на 25. Тогава в първия случай, с 5% селекция, грешката на извадката ще бъде:

Във втория случай, с 0,1% избор, той ще бъде равен на:

По този начин, с намаляване на процента на вземане на проби с 50 пъти, грешката на вземане на проби се увеличава леко, тъй като размерът на извадката не се променя.
Да приемем, че размерът на извадката е увеличен до 625 наблюдения. В този случай грешката на извадката е:

Увеличаването на извадката с 2,8 пъти със същия размер на популацията намалява размера на грешката на извадката с повече от 1,6 пъти.

Методи и методи за формиране на извадкова съвкупност.

В статистиката се използват различни методи за формиране на извадкови съвкупности, което се определя от целите на изследването и зависи от спецификата на обекта на изследване.

Основното условие за провеждане на извадково изследване е да се предотврати появата на систематични грешки, произтичащи от нарушаване на принципа на равните възможности за всяка единица от генералната съвкупност, която да бъде включена в извадката. Предотвратяването на систематични грешки се постига чрез използването на научно обосновани методи за формиране на извадкова съвкупност.

Има следните методи за избор на единици от популацията:

1) индивидуален подбор - за извадката се избират отделни единици;

2) групов подбор - извадката включва качествено хомогенни групи или серии от изследвани единици;

3) комбиниран подбор е комбинация от индивидуален и групов подбор.
Методите за подбор се определят от правилата за формиране на извадкова съвкупност.

Пробата може да бъде:
- всъщност произволносе състои в това, че извадковата съвкупност се формира в резултат на случаен (непреднамерен) подбор на отделни единици от генералната съвкупност. В този случай броят на единиците, избрани в извадката от популацията, обикновено се определя въз основа на приетата пропорция на извадката. Пропорцията на извадката е отношението на броя на единиците в извадковата съвкупност n към броя на единиците в генералната съвкупност N, т.е.
- механиченсе състои в това, че подборът на единици в извадковата съвкупност се извършва от генералната съвкупност, разделена на равни интервали (групи). В този случай размерът на интервала в популацията е равен на обратната пропорция на извадката. И така, при 2% проба се избира всяка 50-та единица (1:0,02), при 5% проба, всяка 20-та единица (1:0,05) и т.н. По този начин, в съответствие с приетата пропорция на селекция, генералната популация е, така да се каже, механично разделена на групи с еднакъв размер. От всяка група се избира само една единица за извадката.
- типичен -при което генералната съвкупност първо се разделя на хомогенни типични групи. След това от всяка типична група се използва чисто произволна или механична извадка за индивидуален избор на единици в извадковата популация. Важна характеристика на типичната извадка е, че тя дава по-точни резултати в сравнение с други методи за подбор на единици в извадката;
- сериен- при които генералната съвкупност е разделена на групи с еднакъв размер - серии. Сериите се избират в извадката. В рамките на серията се извършва непрекъснато наблюдение на единиците, включени в серията;
- комбинирани- вземането на проби може да бъде двуетапно. В този случай населението първо се разделя на групи. След това се избират групите, а в рамките на последните се избират отделните звена.
В статистиката се разграничават следните методи за избор на единици в извадкова съвкупност::
- единичен етапвземане на проби - всяка избрана единица незабавно се подлага на изследване по зададен критерий (правилно произволно и серийно вземане на проби);
- многоетапенизвадка - прави се селекция от генералната съвкупност на отделни групи и отделни единици се избират от групите (типична извадка с механичен метод за подбор на единици в извадката).
Освен това има:
- повторна селекция- по схемата на върната топка. В този случай всяка единица или серия, включена в извадката, се връща към генералната съвкупност и следователно има шанс да бъде включена отново в извадката;
- повторете избора- по схемата на невърната топка. Има по-точни резултати със същия размер на извадката.
Определяне на необходимия размер на извадката (с помощта на t-таблица на Student).

Един от научните принципи в теорията на пробите е да се гарантира, че са избрани достатъчен брой единици. Теоретично необходимостта от спазване на този принцип е представена в доказателствата на граничните теореми в теорията на вероятностите, които позволяват да се установи какъв обем единици трябва да се избере от съвкупността, така че да е достатъчен и да гарантира представителността на извадката.

Намаляването на стандартната грешка на извадката и следователно увеличаването на точността на оценката винаги е свързано с увеличаване на размера на извадката, следователно още на етапа на организиране на наблюдението на извадката е необходимо да се реши какъв е размерът на пробната съвкупност трябва да бъде такава, че да гарантира необходимата точност на резултатите от наблюдението. Изчисляването на необходимия размер на извадката се конструира с помощта на формули, получени от формулите за максималните грешки на извадката (A), съответстващи на определен тип и метод на подбор. И така, за произволен повторен размер на извадката (n) имаме:

Същността на тази формула е, че при случаен повторен избор на необходимия брой, размерът на извадката е право пропорционален на квадрата на коефициента на доверие (t2)и дисперсия на вариационната характеристика (?2) и е обратно пропорционална на квадрата на максималната извадкова грешка (?2). По-специално, с увеличаване на максималната грешка с фактор два, необходимият размер на извадката може да бъде намален с фактор четири. От трите параметъра два (t и?) се задават от изследователя.

В същото време изследователят, на базата наОт целта и задачите на извадковото изследване трябва да се реши въпросът: в каква количествена комбинация е по-добре да се включат тези параметри, за да се осигури оптимален вариант? В един случай той може да бъде по-доволен от надеждността на получените резултати (t), отколкото от мярката за точност (?), в друг - обратното. По-трудно е да се реши въпросът относно стойността на максималната грешка на извадката, тъй като изследователят няма този индикатор на етапа на проектиране на наблюдението на извадката, следователно на практика е обичайно да се определя стойността на максималната грешка на извадката, обикновено в рамките на 10% от очакваното средно ниво на атрибута. Към установяването на прогнозната средна стойност може да се подходи по различни начини: използване на данни от подобни предишни проучвания или използване на данни от рамката на извадката и провеждане на малка пилотна извадка.

Най-трудното нещо за установяване при проектирането на извадково наблюдение е третият параметър във формула (5.2) - дисперсията на извадковата популация. В този случай е необходимо да се използва цялата информация, с която изследователят разполага, получена от проведени преди това подобни и пилотни проучвания.

Въпрос относно дефинициятанеобходимият размер на извадката става по-сложен, ако извадковото изследване включва изучаване на няколко характеристики на извадковите единици. В този случай средните нива на всяка от характеристиките и тяхната вариация като правило са различни и следователно решаването на коя вариация на коя от характеристиките да се даде предпочитание е възможно само като се вземат предвид целта и задачите на изследване.

При проектирането на извадково наблюдение се приема предварително определена стойност на допустимата извадкова грешка в съответствие с целите на конкретно изследване и вероятността от заключения въз основа на резултатите от наблюдението.

Като цяло формулата за максималната грешка на средната стойност на извадката ни позволява да определим:

Големината на възможните отклонения на показателите на генералната съвкупност от показателите на извадката;

Необходимият размер на извадката, осигуряващ необходимата точност, при която границите на възможна грешка няма да надхвърлят определена зададена стойност;

Вероятността грешката в извадка да има определена граница.

Студентско разпределениев теорията на вероятностите това е еднопараметрично семейство от абсолютно непрекъснати разпределения.

Динамична серия (интервал, момент), затваряща динамична серия.

Серия Dynamics- това са стойностите на статистическите показатели, които са представени в определена хронологична последователност.

Всеки времеви ред съдържа два компонента:

1) показатели за периоди от време (години, тримесечия, месеци, дни или дати);

2) показатели, характеризиращи изследвания обект за периоди от време или на съответни дати, които се наричат нива на серии.

Нивата на серията са изразеникакто абсолютни, така и средни или относителни стойности. В зависимост от естеството на показателите се изграждат времеви редове от абсолютни, относителни и средни стойности. Динамичните серии от относителни и средни стойности се изграждат въз основа на получени серии от абсолютни стойности. Има интервални и моментни серии от динамика.

Динамични интервални сериисъдържа стойности на индикатора за определени периоди от време. В интервални серии нивата могат да бъдат сумирани, за да се получи обемът на явлението за по-дълъг период или така наречените натрупани суми.

Серия от динамични моментиотразява стойностите на индикаторите в определен момент от време (дата от време). В моментните серии изследователят може да се интересува само от разликата в явленията, която отразява промяната в нивото на серията между определени дати, тъй като сумата от нивата тук няма реално съдържание. Кумулативните суми не се изчисляват тук.

Най-важното условие за правилното изграждане на динамичните редове е съпоставимостта на нивата на редовете, принадлежащи към различни периоди. Нивата трябва да бъдат представени в хомогенни количества и трябва да има еднаква пълнота на покриване на различните части на явлението.

За даЗа да се избегне изкривяване на реалната динамика, при статистическо изследване се извършват предварителни изчисления (затваряне на динамичните редове), които предхождат статистическия анализ на динамичните редове. Затварянето на динамични серии се разбира като комбинация в една серия от две или повече серии, чиито нива са изчислени по различна методология или не съответстват на териториалните граници и др. Затварянето на динамичните серии може също така да означава привеждане на абсолютните нива на динамичните серии до обща основа, което неутрализира несравнимостта на нивата на динамичните серии.

Концепцията за съпоставимост на динамичните редове, коефициенти, растеж и темпове на растеж.

Серия Dynamics- това са поредица от статистически показатели, характеризиращи развитието на природните и социалните явления във времето. Статистическите колекции, публикувани от Държавния комитет по статистика на Русия, съдържат голям брой динамични серии в таблична форма. Динамичните серии позволяват да се идентифицират моделите на развитие на изследваните явления.

Динамичните серии съдържат два вида индикатори. Индикатори за време(години, тримесечия, месеци и т.н.) или точки във времето (в началото на годината, в началото на всеки месец и т.н.). Индикатори за ниво на ред. Индикаторите на нивата на динамичните серии могат да бъдат изразени в абсолютни стойности (производство на продукт в тонове или рубли), относителни стойности (дял на градското население в%) и средни стойности (средни заплати на работниците в индустрията по години и т.н.). В таблична форма времевият ред съдържа две колони или два реда.

Правилното изграждане на времеви редове изисква изпълнението на редица изисквания:
1. всички индикатори на поредица от динамика трябва да бъдат научно обосновани и надеждни;
2. индикаторите на поредица от динамика трябва да бъдат сравними във времето, т.е. трябва да се изчисляват за едни и същи периоди от време или на едни и същи дати;
3. показателите за редица динамики трябва да са сравними на територията;
4. индикаторите на поредица от динамика трябва да бъдат сравними по съдържание, т.е. изчислени по единна методология, по един и същ начин;
5. показателите за редица динамики трябва да бъдат сравними в целия диапазон от взети под внимание стопанства. Всички показатели на серия от динамика трябва да бъдат дадени в едни и същи мерни единици.
Статистически показателиможе да характеризира или резултатите от процеса, който се изучава за определен период от време, или състоянието на явлението, което се изучава в определен момент от време, т.е. показателите могат да бъдат интервални (периодични) и моментни. Съответно, първоначално динамичните серии могат да бъдат интервални или моментни. Сериите от моментна динамика от своя страна могат да бъдат с равни или неравни времеви интервали.

Оригиналната динамична серия може да се трансформира в серия от средни стойности и серия от относителни стойности (верижни и основни). Такива времеви редове се наричат производни времеви редове.

Методологията за изчисляване на средното ниво в динамичните серии е различна в зависимост от вида на динамичните серии. Използвайки примери, ще разгледаме видовете динамични серии и формули за изчисляване на средното ниво.

Абсолютни увеличения (Δy) показват колко единици се е променило следващото ниво на серията в сравнение с предишното (гр. 3. - верижни абсолютни увеличения) или в сравнение с първоначалното ниво (гр. 4. - основни абсолютни увеличения). Формулите за изчисление могат да бъдат записани, както следва:

Когато абсолютните стойности на серията намаляват, ще има съответно „намаляване“ или „намаляване“.

Индикаторите за абсолютен ръст показват, че например през 1998 г. производството на продукт „А” се е увеличило с 4 хил. тона спрямо 1997 г. и с 34 хил. тона спрямо 1994 г.; за други години виж таблицата. 11,5 гр. 3 и 4.

Скорост на растежпоказва колко пъти се е променило нивото на серията спрямо предходното (гр. 5 - верижни коефициенти на растеж или спад) или спрямо първоначалното ниво (гр. 6 - основни коефициенти на растеж или спад). Формулите за изчисление могат да бъдат записани, както следва:

Темпове на растежпоказват какъв процент е следващото ниво от серията в сравнение с предходното (гр. 7 - темпове на растеж на веригата) или в сравнение с първоначалното ниво (гр. 8 - основни темпове на растеж). Формулите за изчисление могат да бъдат записани, както следва:

Така например през 1997 г. обемът на производството на продукт "А" в сравнение с 1996 г. е 105,5% (

Скорост на растежпокажете с какъв процент се е увеличило нивото на отчетния период в сравнение с предходния (колона 9 - верижни темпове на растеж) или в сравнение с първоначалното ниво (колона 10 - основни темпове на растеж). Формулите за изчисление могат да бъдат записани, както следва:

T pr = T r - 100% или T pr = абсолютен ръст / ниво от предходния период * 100%

Така например през 1996 г., в сравнение с 1995 г., продуктът "А" е произведен с 3,8% (103,8% - 100%) или (8:210)x100% повече, а в сравнение с 1994 г. - с 9% (109% - 100%).

Ако абсолютните нива в серията намаляват, тогава скоростта ще бъде по-малка от 100% и съответно ще има скорост на спад (скорост на нарастване със знак минус).

Абсолютна стойност от 1% увеличение(колона 11) показва колко единици трябва да бъдат произведени за даден период, така че нивото от предходния период да се увеличи с 1%. В нашия пример през 1995 г. е необходимо да се произведат 2,0 хиляди тона, а през 1998 г. - 2,3 хиляди тона, т.е. много по-голям.

Абсолютната стойност на 1% растеж може да се определи по два начина:

Нивото от предходния период се дели на 100;

Разделете абсолютните увеличения на веригата на съответните темпове на растеж на веригата.

Абсолютна стойност от 1% увеличение =

В динамика, особено за дълъг период, е важен съвместен анализ на темпа на растеж със съдържанието на всеки процент увеличение или намаление.

Имайте предвид, че разглежданата методология за анализиране на времеви редове е приложима както за времеви редове, чиито нива са изразени в абсолютни стойности (t, хиляди рубли, брой служители и т.н.), така и за времеви редове, нивата на които се изразяват в относителни показатели (% дефекти, % пепелно съдържание на въглища и др.) или средни стойности (среден добив в c/ha, средна работна заплата и др.).

Наред с разглежданите аналитични показатели, изчислени за всяка година в сравнение с предходното или изходно ниво, при анализиране на динамичните серии е необходимо да се изчислят средните аналитични показатели за периода: средното ниво на серията, средногодишното абсолютно увеличение (намаляване) и средния годишен темп на растеж и темп на растеж.

Методите за изчисляване на средното ниво на серия от динамика бяха обсъдени по-горе. В серията с интервална динамика, която разглеждаме, средното ниво на серията се изчислява с помощта на простата средноаритметична формула:

Средногодишен обем на производството на продукта за 1994-1998г. възлиза на 218,4 хил. тона.

Средният годишен абсолютен прираст също се изчислява с помощта на простата формула за средна аритметична стойност:

Годишните абсолютни прирасти варират през годините от 4 до 12 хил. тона (виж колона 3), а средногодишният прираст на производството за периода 1995 – 1998г. възлиза на 8,5 хиляди тона.

Методите за изчисляване на средния темп на растеж и средния темп на растеж изискват по-подробно разглеждане. Нека ги разгледаме на примера на годишните показатели на ниво серия, дадени в таблицата.

Средно ниво на динамичната серия.

Динамични серии (или времеви серии)- това са числените стойности на определен статистически показател в последователни моменти или периоди от време (т.е. подредени в хронологичен ред).

Наричат се числените стойности на един или друг статистически показател, който съставлява динамичните серии нива на сериятаи обикновено се обозначава с буквата г. Първи термин от поредицата y 1наречен начален или начално ниво, и последният y n - финал. Моментите или периодите от време, за които се отнасят нивата, са обозначени с T.

Динамичните серии обикновено се представят под формата на таблица или графика, а по абсцисната ос се изгражда времева скала T, а по ординатната ос - скалата на серийните нива г.

Средни показатели на динамичния ред

Всяка серия от динамика може да се разглежда като определен набор нпроменящи се във времето индикатори, които могат да бъдат обобщени като средни стойности. Такива обобщени (средни) показатели са особено необходими, когато се сравняват промените в даден показател през различни периоди, в различни страни и т.

Обобщена характеристика на динамичните серии може да служи, на първо място, ниво на среден ред. Методът за изчисляване на средното ниво зависи от това дали серията е моментна или интервална (периодична).

Кога интервална серия, нейното средно ниво се определя по формулата на просто средно аритметично на нивата на серията, т.е.

=
Ако е налична моментред, съдържащ ннива ( y1, y2, …, yn) с равни интервали между датите (времената), тогава такава серия може лесно да се преобразува в серия от средни стойности. В този случай индикаторът (нивото) в началото на всеки период е едновременно индикаторът в края на предходния период. Тогава средната стойност на индикатора за всеки период (интервалът между датите) може да се изчисли като половината от сумата на стойностите прив началото и в края на периода, т.е. Как. Броят на тези средни ще бъде . Както беше посочено по-рано, за серии от средни стойности средното ниво се изчислява, като се използва средноаритметичното.

Следователно можем да напишем:
.
След трансформиране на числителя получаваме:
,

Където Y1И Yn— първо и последно ниво на реда; Yi— междинни нива.

Тази средна стойност е известна в статистиката като средно хронологиченза моментни серии. Получава името си от думата "cronos" (време, латински), тъй като се изчислява от индикатори, които се променят във времето.

При неравенствоинтервали между датите, средната хронологична стойност за серия от моменти може да се изчисли като средноаритметично от средните стойности на нивата за всяка двойка моменти, претеглени от разстоянията (интервали от време) между датите, т.е.
.
В такъв случайпредполага се, че в интервалите между датите нивата са приемали различни стойности и ние сме едно от двете известни ( yiИ yi+1) определяме средните стойности, от които след това изчисляваме общата средна стойност за целия анализиран период.
Ако се приеме, че всяка стойност yiостава непроменена до следващия (i+ 1)- ти момент, т.е. Ако е известна точната дата на промяна на нивата, тогава изчислението може да се извърши с помощта на формулата за среднопретеглена аритметична стойност:
,

където е времето, през което нивото е останало непроменено.

В допълнение към средното ниво в динамичните редове се изчисляват и други средни показатели - средното изменение на нивата на реда (основен и верижен метод), средната скорост на изменение.

Базовата средна абсолютна промянае частното на последната основна абсолютна промяна, разделено на броя на промените. Това е

Верига означава абсолютна промяна нива на серията е частното от разделянето на сумата от всички верижни абсолютни промени на броя на промените, т.е.

Знакът на средните абсолютни промени също се използва, за да се прецени естеството на промяната в средното явление: растеж, спад или стабилност.

От правилото за контролиране на базисните и верижните абсолютни изменения следва, че базисните и верижните средни изменения трябва да са еднакви.

Наред със средното абсолютно изменение се изчислява и относително средно по базисния и верижния метод.

Основна средна относителна промянаопределя се по формулата:

Верижна средна относителна промянаопределя се по формулата:

Естествено основните и верижните средни относителни промени трябва да са еднакви и като ги съпоставим със стойността на критерия 1, се прави извод за характера на промяната на явлението средно: растеж, спад или стабилност.
Чрез изваждане на 1 от основната или верижната средна относителна промяна, съответното средна скорост на изменение, по знака на който може да се съди и за характера на промяната в изследваното явление, отразена от тази поредица от динамика.

Сезонни колебания и индекси на сезонност.

Сезонните колебания са стабилни вътрешногодишни колебания.

Основният принцип на управление за постигане на максимален ефект е максимизиране на приходите и минимизиране на разходите. Чрез изучаване на сезонните колебания проблемът с максималното уравнение се решава на всяко ниво на годината.

При изучаване на сезонните колебания се решават два взаимосвързани проблема:

1. Идентифициране на спецификата на развитие на явлението във вътрешногодишна динамика;

2. Измерване на сезонните колебания с изграждане на сезонен вълнов модел;

За измерване на сезонните вариации обикновено се броят сезонните пуйки. Като цяло те се определят от съотношението на изходните уравнения на динамичния ред към теоретичните уравнения, които служат като база за сравнение.

Тъй като случайните отклонения се наслагват върху сезонните колебания, индексите на сезонността се осредняват, за да се елиминират.

В този случай за всеки период от годишния цикъл се определят обобщени показатели под формата на средни сезонни индекси:

Средните индекси на сезонни колебания са освободени от влиянието на случайни отклонения на основната тенденция на развитие.

В зависимост от характера на тенденцията формулата за средния индекс на сезонност може да приеме следните форми:

1.За серии от вътрешногодишна динамика с ясно изразена основна тенденция на развитие:

2. За серии от вътрешногодишна динамика, в които няма възходяща или намаляваща тенденция или е незначителна:

Къде е общата средна стойност;

Методи за анализ на основния тренд.

Развитието на явленията във времето се влияе от различни по естество и сила на въздействие фактори. Някои от тях имат случаен характер, други имат почти постоянно въздействие и формират определена тенденция на развитие в динамиката.

Важна задача на статистиката е да идентифицира динамиката на тренда в серии, освободени от влиянието на различни случайни фактори. За тази цел динамичните редове се обработват чрез методите на уголемяване на интервали, пълзяща средна и аналитично изравняване и др.

Метод за увеличаване на интерваласе основава на уголемяване на времеви периоди, които включват нивата на поредица от динамика, т.е. е замяната на данни, свързани с малки периоди от време, с данни за по-големи периоди. Особено ефективно е, когато началните нива на серията се отнасят за кратки периоди от време. Например серии от индикатори, свързани с ежедневни събития, се заменят с серии, свързани със седмични, месечни и т.н. Това ще покаже по-ясно „ос на развитие на феномена“. Средната стойност, изчислена за разширени интервали, ни позволява да идентифицираме посоката и характера (ускоряване или забавяне на растежа) на основната тенденция на развитие.

Метод на подвижната среднаподобно на предишното, но в този случай действителните нива се заменят със средни нива, изчислени за последователно движещи се (плъзгащи се) разширени интервали, покриващи мнива на серията.

Например, ако приемем m=3,тогава първо се изчислява средната стойност на първите три нива на серията, след това - от същия брой нива, но започвайки от второто, след това - започвайки от третото и т.н. По този начин средната стойност се „плъзга“ по динамичния ред, премествайки се с един член. Изчислено от мчленове, подвижните средни се отнасят до средата (центъра) на всеки интервал.

Този метод елиминира само случайни колебания. Ако серията има сезонна вълна, тогава тя ще продължи дори след изглаждане с помощта на метода на пълзящата средна.

Аналитично подравняване. За да се елиминират случайните колебания и да се идентифицира тенденция, се използва изравняване на серийни нива с помощта на аналитични формули (или аналитично изравняване). Същността му е да замени емпиричните (действителните) нива с теоретични, които се изчисляват с помощта на определено уравнение, прието като модел на математически тренд, където теоретичните нива се разглеждат като функция на времето: . В този случай всяко действително ниво се разглежда като сбор от два компонента: , където е систематичен компонент и се изразява с определено уравнение, и е случайна променлива, която причинява колебания около тенденцията.

Задачата на аналитичното привеждане в съответствие се свежда до следното:

1. Определяне, въз основа на действителни данни, на типа хипотетична функция, която може най-адекватно да отрази тенденцията на развитие на изследвания показател.

2. Намиране на параметрите на посочената функция (уравнение) от емпирични данни

3. Изчисляване с помощта на намереното уравнение на теоретичните (подравнени) нива.

Изборът на определена функция се извършва, като правило, въз основа на графично представяне на емпирични данни.

Моделите са регресионни уравнения, чиито параметри се изчисляват по метода на най-малките квадрати

По-долу са най-често използваните регресионни уравнения за подравняване на времеви редове, като се посочва кои специфични тенденции на развитие са най-подходящи за отразяване.

За намиране на параметрите на горните уравнения има специални алгоритми и компютърни програми. По-специално, за намиране на параметрите на уравнение на права линия може да се използва следният алгоритъм:

Ако периодите или моментите от време са номерирани така, че St = 0, тогава горните алгоритми ще бъдат значително опростени и ще се превърнат в

Подравнените нива на графиката ще бъдат разположени на една права линия, минаваща на най-близкото разстояние от действителните нива на дадена динамична серия. Сумата от квадратите на отклоненията е отражение на влиянието на случайни фактори.

Използвайки го, изчисляваме средната (стандартна) грешка на уравнението:

Тук n е броят на наблюденията, а m е броят на параметрите в уравнението (имаме два от тях - b 1 и b 0).

Основната тенденция (тенденция) показва как систематичните фактори влияят върху нивата на поредица от динамики, а колебанията на нивата около тенденцията () служат като мярка за влиянието на остатъчните фактори.

За да се оцени качеството на използвания модел на времеви редове, той също се използва F тест на Фишер. Това е съотношението на две дисперсии, а именно съотношението на дисперсията, причинена от регресия, т.е. факторът, който се изследва, до дисперсията, причинена от случайни причини, т.е. остатъчна дисперсия:

В разширена форма формулата за този критерий може да бъде представена по следния начин:

където n е броят на наблюденията, т.е. брой нива на редове,

m е броят на параметрите в уравнението, y е действителното ниво на серията,

Подравнено ниво на ред - ниво на среден ред.

Един модел, който е по-успешен от другите, може не винаги да е достатъчно задоволителен. Той може да бъде разпознат като такъв само в случай, че неговият критерий F преминава известната критична граница. Тази граница се установява с помощта на таблици за F-разпределение.

Същност и класификация на показателите.

В статистиката индексът се разбира като относителен показател, който характеризира промяната в величината на явление във времето, пространството или в сравнение с всеки стандарт.

Основният елемент на индексната връзка е индексираната стойност. Под индексирана стойност се разбира стойността на характеристика на статистическа съвкупност, чиято промяна е обект на изследване.

С помощта на индексите се решават три основни задачи:

1) оценка на промените в сложно явление;

2) определяне на влиянието на отделни фактори върху промените в сложно явление;

3) сравнение на величината на дадено явление с величината на миналия период, величината на друга територия, както и със стандарти, планове и прогнози.

Индексите се класифицират по 3 критерия:

2) според степента на обхващане на елементите на съвкупността;

3) според методите за изчисляване на общи индекси.

По съдържаниеиндексирани количества, индексите се разделят на индекси на количествени (обемни) показатели и индекси на качествени показатели. Индекси на количествени показатели - индекси на физическия обем на промишлените продукти, физически обем на продажбите, численост на персонала и др. Индекси на качествени показатели - индекси на цени, разходи, производителност на труда, средна заплата и др.

Според степента на покритие на единиците на съвкупността индексите се делят на два класа: индивидуални и общи. За да ги характеризираме, въвеждаме следните конвенции, приети в практиката на използване на индексния метод:

р- количество (обем) на всеки продукт във физическо изражение ; Р- единична цена; z- себестойност на единица продукция; T— времето, изразходвано за производството на единица продукт (интензивност на труда) ; w- производство на продукция в стойностно изражение за единица време; v- произведена продукция в натурално изражение за единица време; T— общо прекарано време или брой служители.

За да се разграничи към кой период или обект принадлежат индексираните количества, обичайно е да се поставят индекси долу вдясно на съответния символ. Така например в динамичните индекси, като правило, индексът 1 се използва за сравняваните периоди (текущи, отчетни) и за периодите, с които се прави сравнението,

Индивидуални индексислужат за характеризиране на промени в отделни елементи на сложно явление (например промяна в обема на производството на един вид продукт). Те представляват относителни стойности на динамика, изпълнение на задължения, сравнение на индексирани стойности.

Определя се индивидуалният индекс на физическия обем на продуктите

От аналитична гледна точка дадените индивидуални индекси на динамика са подобни на коефициентите (темповете) на нарастване и характеризират изменението на индексираната стойност в текущия период спрямо базовия период, т.е. показват колко пъти се е увеличила (намалила) или какъв процент е растеж (намаляване). Стойностите на индекса се изразяват в коефициенти или проценти.

Общ (съставен) индексотразява промените във всички елементи на едно сложно явление.

Агрегиран индексе основната форма на индекс. Нарича се агрегат, защото неговият числител и знаменател са набор от „агрегати“

Средни индекси, тяхното определение.

Освен агрегатните индекси в статистиката се използва и друга тяхна форма - среднопретеглени индекси. Към тяхното изчисляване се прибягва, когато наличната информация не позволява да се изчисли общият агрегатен индекс. Така, ако няма данни за цените, но има информация за себестойността на продуктите в текущия период и са известни индивидуалните индекси на цените за всеки продукт, тогава общият индекс на цените не може да се определи като агрегиран, но е възможно да го изчислим като средно на отделните. По същия начин, ако количествата на отделните видове произведени продукти не са известни, но са известни индивидуалните индекси и себестойността на продукцията за базовия период, тогава общият индекс на физическия обем на производството може да се определи като среднопретеглена стойност стойност.

Среден индекс -Товаиндекс, изчислен като средна стойност на отделните индекси. Агрегираният индекс е основната форма на общ индекс, така че средният индекс трябва да бъде идентичен с агрегирания индекс. При изчисляване на средните индекси се използват две форми на средни стойности: аритметична и хармонична.

Средноаритметичният индекс е идентичен с агрегирания индекс, ако теглата на отделните индекси са членовете на знаменателя на агрегирания индекс. Само в този случай стойността на индекса, изчислена по формулата за средна аритметична стойност, ще бъде равна на съвкупния индекс.

Стандартното отклонение се определя като. Изчисляване на стандартно отклонение в Microsoft Excel

дисперсия

Дисперсия на извадката

Коригирана дисперсия

Пример за задача за намиране на дисперсията и стандартното отклонение

Енциклопедичен YouTube

Правилото на трите сигми

Интерпретация на стойността на стандартното отклонение

Климат

спорт

Концепцията за средно линейно отклонение

Среден квадрат

Среден куб

Структурни средни

Дисперсия, нейните видове, стандартно отклонение.

Същност, обхват и ред за определяне на мода и медиана.

Понятието селективно наблюдение и неговия обхват.

Съществува 4 начина за произволен изборза проба:

Качеството на извадковите наблюдения също зависи от тип проба: повтаря сеили неповторимо.

Максимална извадкова грешка при наблюдение, средна извадкова грешка, процедура за тяхното изчисляване.

Методи и методи за формиране на извадкова съвкупност.

Определяне на необходимия размер на извадката (с помощта на t-таблица на Student).

Динамична серия (интервал, момент), затваряща динамична серия.

Концепцията за съпоставимост на динамичните редове, коефициенти, растеж и темпове на растеж.

Средно ниво на динамичната серия.

Средни показатели на динамичния ред

Сезонни колебания и индекси на сезонност.

Методи за анализ на основния тренд.

Същност и класификация на показателите.

Средни индекси, тяхното определение.

Възникване и развитие на писмеността – автореферат

Композитор Реймънд Паулс: биография, личен живот, творчество Реймънд Паулс - биография