Вариант 01: 4 задания. С помощью критерия хи-квадрат проверить гипотезу — признак «возраст» является фактором длительности заболеваний

  • ID: 36114 
  • 14 страниц

Содержание:


Вариант 01: 4 задания. С помощью критерия хи-квадрат проверить гип…

Задание 1

Предположим, что нас интересует выручка от продажи баночного пива в магазинах города в течение дня. При исследовании 20 магазинов получены следующие данные.

Наблюдение Число посетителей Выручка (усл. един.)

1 907 11,20

2 926 11,05

3 506 6,84

4 741 9,21

5 789 9,42

6 889 10,08

7 874 9,45

8 510 6,73

9 529 7,24

10 420 6,12

11 679 7,63

12 872 9,43

13 924 9,46

14 607 7,64

15 452 6,92

16 729 8,95

17 794 9,33

18 844 10,23

19 1010 11,77

20 621 7,41

Построить регрессионную модель зависимости выручки магазина от числа посетителей. Проверить значимость модели. Построить прогноз выручки магазина, если число посетителей равно 1000. Проверить модель на гетероскедастичность.

Решение:

Найдем уравнения линейной регрессии...

неизвестные коэффициенты находятся по формулам (используя метод наименьших квадратов (МНК)):

Вычисления поясним с помощью таблицы, которую составим с помощью Microsoft Excel:

№ x y x2 y2 xy

1 907 11,2 822649 125,44 10158,4

2 926 11,05 857476 122,1025 10232,3

3 506 6,84 256036 46,7856 3461,04

4 741 9,21 549081 84,8241 6824,61

5 789 9,42 622521 88,7364 7432,38

6 889 10,08 790321 101,6064 8961,12

7 874 9,45 763876 89,3025 8259,3

8 510 6,73 260100 45,2929 3432,3

9 529 7,24 279841 52,4176 3829,96

10 420 6,12 176400 37,4544 2570,4

11 679 7,63 461041 58,2169 5180,77

12 872 9,43 760384 88,9249 8222,96

13 924 9,46 853776 89,4916 8741,04

14 607 7,64 368449 58,3696 4637,48

15 452 6,92 204304 47,8864 3127,84

16 729 8,95 531441 80,1025 6524,55

17 794 9,33 630436 87,0489 7408,02

18 844 10,23 712336 104,6529 8634,12

19 1010 11,77 1020100 138,5329 11887,7

20 621 7,41 385641 54,9081 4601,61

Сумма 14623 176,11 11306209 1602,097 134127,9

средние 731,15 8,81 565310,5 80,1 6706,4

Найдем коэффициенты a и b:

Вывод:

Коэффициент... говорит о том, что с ростом числа покупателей на 1 человека выручка магазина будет увеличиваться на 0,0087 усл. ед.

Проверим значимость коэффициентов a и b по t-критерию Стьюдента.

Выдвигаем гипотезу H0 о статистически незначимом отличии показателей от нуля: a= b=0.

tтабл. для числа степеней свободы k=n-2=20-2=18 и ?=0.05 составит tтабл.=2.1

Построим расчетную таблицу:

№...............

1 907 11,2 10,341 0,7386 30923,22

2 926 11,05 10,506 0,2955 37966,52

3 506 6,84 6,840 0,0000 50692,52

4 741 9,21 8,891 0,1015 97,0225

5 789 9,42 9,310 0,0120 3346,623

6 889 10,08 10,183 0,0107 24916,62

7 874 9,45 10,052 0,3630 20406,12

8 510 6,73 6,875 0,0210 48907,32

9 529 7,24 7,041 0,0397 40864,62

10 420 6,12 6,089 0,0009 96814,32

11 679 7,63 8,350 0,5188 2719,623

12 872 9,43 10,035 0,3661 19838,72

13 924 9,46 10,489 1,0587 37191,12

14 607 7,64 7,722 0,0067 15413,22

15 452 6,92 6,369 0,3039 77924,72

16 729 8,95 8,787 0,0267 4,6225

17 794 9,33 9,354 0,0006 3950,123

18 844 10,23 9,791 0,1931 12735,12

19 1010 11,77 11,240 0,2812 77757,32

20 621 7,41 7,844 0,1883 12133,02

Сумма 14623 176,11 176,11 4,5270 614602,6

Определим случайные ошибки ma, mb:

Тогда

Фактические значения t-статистики превосходят табличные значения:

поэтому гипотеза H0 отклоняется, т.е. a и b не случайно отличаются от нуля, а статистически значимы.

Проверим адекватность модели. Рассчитаем коэффициент детерминации R2:

Находим значение F-критерия:

Табличное значение найдем по таблице F-критерия Фишера при уровне значимости.... Получим...=4,41

Так как... >... (186,219>4,41), то признается статистическая значимость и надежность уравнения регрессии.

В качестве прогнозной точки возьмем...1000, тогда прогнозное значение

ден. ед.

Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный интервал прогноза: 11,152 ± 0,4313.

Проверим модель на гетероскедастичность. Для проверки воспользуемся тестом Голдфелда-Квандта.

Упорядочиваем все наблюдения по величине X. Разбиваем совокупность на 3 части (7, 6 и 7 единиц). Для первой и третьей части составляем уравнение регрессии и находим сумму квадратов остатков:

i...............

1 420 6,12 6,3781 -0,2581 0,0666

2 452 6,92 6,5711 0,3489 0,1217

3 506 6,84 6,8969 -0,0569 0,0032

4 510 6,73 6,9211 -0,1911 0,0365

5 529 7,24 7,0357 0,2043 0,0417

6 607 7,64 7,5063 0,1337 0,0179

7 621 7,41 7,5908 -0,1808 0,0327

8 679 7,63 Итого 0,3203

9 729 8,95

10 741 9,21

11 789 9,42

12 794 9,33

13 844 10,23

14 872 9,43 9,6821 -0,2521 0,0636

15 874 9,45 9,7135 -0,2635 0,0694

16 889 10,08 9,9483 0,1317 0,0174

17 907 11,2 10,2300 0,9700 0,9408

18 924 9,46 10,4962 -1,0362 1,0736

19 926 11,05 10,5275 0,5225 0,2730

20 1010 11,77 11,8424 -0,0724 0,0052

Итого 2,4431

Определяем расчетное значение F-критерия:

Определим критическое значение Fкр(?;k-m-1;k-m-1) по таблице значений F-распределения:

=...

Т.к. 7,626 > 5,05, то гипотезу об отсутствии гетероскедастичности отвергаем.

Задание 2

С помощью критерия хи-квадрат проверить гипотезу - признак "возраст" является фактором длительности заболеваний желудочно-кишечного тракта на заводе "Экран"

Число дней нетрудосп. за год Возраст, лет

До 30 31-40 41-50 51 и более

0 9 6 3 3

1-5 2 4 2 1

6-10 5 1 6 2

11-15 1 2 7 3

16 и более 0 9 13 5

Решение:

Сформулируем следующую нулевую гипотезу:

Н0: длительность заболеваний желудочно-кишечного тракта не зависит от возраста сотрудников.

Альтернативная гипотеза:

Н1: длительность заболеваний желудочно-кишечного тракта зависит от возраста сотрудников.

Для проверки нулевой гипотезы выполним следующие расчеты:

Рассчитаем итоговые суммы

Число дней нетрудосп. за год Возраст, лет Итого

До 30 31-40 41-50 51 и более

0 9 6 3 3 21

1-5 2 4 2 1 9

6-10 5 1 6 2 14

11-15 1 2 7 3 13

16 и более 0 9 13 5 27

Итого 17 22 31 14 84

Составим промежуточную таблицу для расчета критерия.... В ячейки таблицы записываем величину выражения...:

Число дней нетрудосп. за год Возраст, лет

До 30 31-40 41-50 51 и более

0 0,227 0,078 0,014 0,031

1-5 0,026 0,081 0,014 0,008

6-10 0,105 0,003 0,083 0,020

11-15 0,005 0,014 0,122 0,049

16 и более 0,000 0,136 0,202 0,066

=...

По таблице значений критических точек распределения... при числе степеней свободы k=(5-1)(4-1)=12 и уровне значимости ?=0,05 определяем, что....

Так как...>..., то гипотеза о независимости длительности заболеваний желудочно-кишечного тракта от возраста сотрудников отклоняется, т.е. длительность заболеваний желудочно-кишечного тракта зависит от возраста сотрудников.

Задание 3

Дан временной ряд, характеризующий динамику затрат на рекламу по месяцам.

Месяц 1 2 3 4 5 6 7

Затраты 4,8 3,8 8,7 8,2 9,7 14,6 18,2

Определить оптимальный тренд и рассчитать точечный прогноз затрат на рекламу на последующие три месяца. Проверить значимость модели.

Решение:

Коэффициенты регрессионного уравнения тренда... находятся по методу наименьших квадратов и равны:

Воспользуемся вспомогательной таблицей:

Месяц............

1 1 4,8 1 4,8

2 2 3,8 4 7,6

3 3 8,7 9 26,1

4 4 8,2 16 32,8

5 5 9,7 25 48,5

6 6 14,6 36 87,6

7 7 18,2 49 127,4

Сумма 28 68 140 334,8

На основе последней строки таблицы получим:

Следовательно, уравнение линейного тренда будет иметь вид:...

Оценим значимость уравнения. Для этого заполним вспомогательную таблицу:

t............

1 4,8 2,986 45,274 3,292

2 3,8 5,229 20,122 2,041

3 8,7 7,471 5,030 1,509

4 8,2 9,714 0,000 2,293

5 9,7 11,957 5,030 5,095

6 14,6 14,200 20,122 0,160

7 18,2 16,443 45,274 3,088

Сумма 68 68 140,851 17,477

Тогда

Табличное значение найдем по таблице F-критерия Фишера при уровне значимости.... Получим...(0,05;1;5)=6,608

Так как...>... (40,296>6,608), то признается статистическая значимость и надежность уравнения тренда.

Выполним точечный прогноз на последующие три месяца:

усл. ед.

усл. ед.

усл. ед.

Задание 4

Рассмотрим зависимость между весом новорожденного... (в граммах)... количества сигарет, выкуриваемых в день будущей матерью во время беременности и переменной..., которая отражает факт того, является ли ребенок первенцем или нет. Если...=0, то ребенок первенец, если...=1, то ребенок не первенец. Рассмотрим выборку из 20 значений:

Наблюдение.........

1 3520 10 1

2 3460 19 1

3 3000 16 1

4 3320 26 1

5 3540 4 1

6 3310 14 1

7 3360 21 1

8 3650 10 1

9 3150 22 1

10 3440 8 1

11 3210 29 1

12 3290 15 1

13 3190 3 0

14 3060 12 0

15 3270 17 0

16 3170 14 0

17 3230 18 0

18 3700 11 0

19 330 14 0

20 3460 9 0

Постройте линейную регрессионную модель, проверьте статистическую значимость коэффициентов модели. Проверьте значимость модели. Посчитайте прогноз веса новорожденного, если количество выкуриваемых сигарет равно 30 и ребенок первенец. Проверьте модель на автокорреляционную зависимость.

Решение:

Уравнение регрессии ищем в виде:...

Обозначения...

тогда...

Вектор... находится по формуле:...

В нашем случае

Тогда...

Таким образом....

Вычислим коэффициент множественной корреляции:

Составим расчетную таблицу

№..................

1 3520 3468,63 51,37 2638,877 337 113569

2 3460 3301,5 158,5 25122,25 277 76729

3 3000 3357,21 -357,21 127599 -183 33489

4 3320 3171,51 148,49 22049,28 137 18769

5 3540 3580,05 -40,05 1604,002 357 127449

6 3310 3394,35 -84,35 7114,922 127 16129

7 3360 3264,36 95,64 9147,01 177 31329

8 3650 3468,63 181,37 32895,08 467 218089

9 3150 3245,79 -95,79 9175,724 -33 1089

10 3440 3505,77 -65,77 4325,693 257 66049

11 3210 3115,8 94,2 8873,64 27 729

12 3290 3375,78 -85,78 7358,208 107 11449

13 3190 3097,98 92,02 8467,68 7 49

14 3060 2930,85 129,15 16679,72 -123 15129

15 3270 2838 432 186624 87 7569

16 3170 2893,71 276,29 76336,16 -13 169

17 3230 2819,43 410,57 168567,7 47 2209

18 3700 2949,42 750,58 563370,3 517 267289

19 330 2893,71 -2563,71 6572609 -2853 8139609

20 3460 2986,56 473,44 224145,4 277 76729

сумма - - - 8074704 - 9223620

Тогда

Коэффициент множественной детерминации равен:...

Зависимость... от... и... характеризуется как слабая, в которой 12,5% вариации среднего веса новорожденных определяется вариацией учтенных в модели факторов: среднего числа выкуренных сигарет и числом детей в семье. Прочие факторы, не включенные в модель, составляют 87,5% от общей вариации....

Проверим гипотезу...о статистической значимости уравнения регрессии и показателя тесноты связи (...), с помощью...- критерия Фишера.

Найдем...

Табличное значение при уровне значимости... составляет...

Сравнивая... и..., приходим к выводу к выводу о необходимости принять гипотезу..., так как...=3,59 >...=1.214. С вероятностью 0.95 делаем заключение о статистической не значимости уравнения в целом и показателя тесноты связи..., которые сформировались под случайным воздействием факторов... и....

Посчитаем прогноз веса новорожденного, если количество выкуриваемых сигарет равно 30 и ребенок первенец:

(гр.)

Проверим модель на автокорреляцию с помощью теста Дарбина-Уотсона. Критерий Дарбина-Уотсона имеет вид:

где...- отклонения от линии регрессии, i=1..n.

Используя таблицу:

1 51,34 2635,65

2 158,44 107,10 25102,93 11470,51

3 -357,26 -515,70 127635,51 265946,64

4 148,41 505,67 22024,35 255699,28

5 -40,06 -188,47 1604,94 35520,10

6 -84,39 -44,33 7122,44 1965,40

7 95,57 179,97 9134,10 32388,13

8 181,34 85,77 32883,68 7355,83

9 -95,86 -277,20 9189,30 76839,51

10 -65,79 30,07 4328,96 903,96

11 94,11 159,90 8855,98 25568,34

12 -85,83 -179,93 7366,42 32376,25

13 92,01 177,84 8465,45 31625,54

14 129,11 37,10 16668,96 1376,44

15 431,94 302,83 186573,81 91708,18

16 276,24 -155,70 76309,51 24242,54

17 410,51 134,27 168517,33 18027,59

18 750,54 340,03 563312,70 115622,43

19 -2563,76 -3314,30 6572856,35 10984583,50

20 473,41 3037,17 224115,30 9224379,85

Сумма квадратов 8072067,99 21237600,03

Находим

У нас n=20, m=2..., тогда... и....

Т.к. 4-...