Анимация
JavaScript


Главная  Библионтека 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 [ 17 ] 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261

можно дать вероятностный ответ, т. е. сказать, насколько вероятно или не вероятно происшедшее событие.

В приведенном выше примере совершенно естественно рассмотреть квадраты разностей между наблюдаемыми числами Yg и ожидаемыми числами nps- Можно сложить их, получив

V = (Гг - np2f + (Уз - прз) + • • + (У12 - при). (3)

Плохой набор игральных костей привел бы к относительно большому значению V, а для данного значения V можно сказать следующее: "Чему равна вероятность таких больших значений V, если использовать «правильные» игральные кости?". Если эта вероятность очень мала, скажем, мы будем знать, что только около одного раза из ста "правильные" игральные кости будут давать результаты, настолько далекие от ожидаемых значений, что возникнут определенные основания для подозрений. (Помним, тем не менее, что те же самые хорошие игральные кости будут давать такое большое значение V приблизительно в одном случае из ста, так что предусмотрительным лицам придется повторять эксперимент, когда большие значения V являются частыми.)

В статистике V в (3) слагаемым (У7 - прт) и (У2 - прг) приписываются равные веса, несмотря на то что (У7 - прг), вероятно, будет больше, чем (Уг - пр)", так как 7 появляются приблизительно в шесть раз чаще, чем 2. Оказывается, что "правильная" статистика, по крайней мере статистика, которая, как доказано, наиболее важна, будет приписывать (У7 - пру) только веса, приписываемого (Уг - прг), и необходимо изменить (3) следующим образом:

у (У2 - пр.Г (Уз - прз) (У12 - прг2) 4

ПР2 Прз npi2

Эта статистика называется статистикой "хи-квадрат" наблЬдаемых значений Уг,..., Y\2 при бросании игральных костей. Для данных из таблицы (2) получим, что

Теперь возникает важный вопрос: "Будет ли 7 невероятно большим значением для V при наших предположениях?". Прежде чем ответить на него, рассмотрим, как применяется метод "хи-квадрат" в общих ситуациях.

Предположим, что каждое" наблюдение может принадлежать одной из к категорий. Проводим п независимых наблюдений. Это означает, что исход одного наблюдения абсолютно не влияет на исход других наблюдений. Пусть ра - вероятность того, что каждое наблюдение относится к категории s, и пусть У - число наблюдений, которые действительно относятся к категории s. Образуем статистику

{Y,-np,f

=1 Р

в примере, приведенном выше, существует одиннадцать возможных исходов каждого бросания игральных костей, т. е. А; = И. (Формула (6) немного изменила обозначения формулы (4), так как нумеруются возможности \-к вместо 2-12.)



Возводя в квадрат (Fg - npsY = У/ - 2npaYa + пр в (6) и учитывая тот факт,

Yx + Y2 + --- + Yk=n,

получаем формулу

которая часто упрощает вычисление V.

Возвратимся к вопросу "Чему равно приемлемое значение У?". Его можно определить с помощью таких таблиц, как табл. 1, которая дает значения "х-распределе-ния с V степенями свободы" для различных значений v. Используем строку таблицы CV = к-\, так как число "степеней свободы"равно к-1, что на единицу меньше, чем число категорий. (Интуитивно это означает, что Yi,Y2,... ,Yk не являются полностью независимыми, так как формула (7) показывает, что Yk может быть вычислено, если Yi, Yk-i известны. Поэтому нужно считать, что число степеней свободы равно к-1. Эти аргументы не строги, но они подтверждаются теоретически.)

Если в таблице выбрать число х, стоящее на и-й строке и в столбце р, то "вероятность того, что значение V в (8) будет меньше либо равно х, приближенно равнар, если п достаточно велико". Например, 95-процентное значение в строке 10 равно 18.31; значения, такие, что V > 18.31, будут появляться приблизительно в 5% случаев.

Допустим, что наш эксперимент с бросанием игральных костей был промоделирован на компьютере с помощью некоторой последовательности чисел, предположительно случайных, со следующими результатами.

Значение s = 2 3 4 5 б 7 8 9 10 11 12

Эксперимент 1, П = 4 10 10 13 20 18 18 11 13 14 13 (9)

Эксперимент 2, У» = 3 7 11 15 19 24 21 17 13 9 5

Можно подсчитать х-статистику в первом случае, Vi = 29, и во втором случае, 2 = 1. Сравнивая эти величины со значениями таблицы при 10 степенях свободы, мы видим, что Vi намного больше; V будет больше 23.21 только в 1% случаев! (Используя более полные таблицы, можно обнаружить, что V будет так же велико, как и Vi, только в 0.1% случаев.) Поэтому эксперимент 1 демонстрирует значительное отклонение от случайного поведения. (Автор часто употребляет термин "отклонение от случайного поведения" и подобные ему термины в том смысле, что наблюдаемые реализации случайной величины маловероятны при предполагаемом распределении этой случайной величины. - Прим. ред.)

С другой стороны, V2 достаточно мало, так как наблюдаемые значения Yg в эксперименте 2 достаточно близки к ожидаемым значениям nps в (2). Из х-таблицы на самом деле ясно, что V2 слишком мало. Наблюдаемые значения настолько близки к ожидаемым, что нельзя рассматривать результаты как случайные! (В самом деле, если воспользоваться другими таблицами, можно увидеть, что такие маленькие значения V встречаются только в 0.03% случаев, когда имеем х-распределение с 10 степенями свободы.) Наконец, значение V = 7, полученное в (5), также



Таблица 1

НЕКОТОРЫЕ ПРОЦЕНТНЫЕ ТОЧКИ х-РАСПРЕДЕЛЕНИЯ

Р=1%

р = 5%

р = 25%

р = 50%

р = 75%

р = 95%

р = 99%

0.00016

0.00393

0.1015

0.4549

1.323

3.841

6.635

1/ = 2

0.02010

0.1026

0.5754

1.386

2.773

5.991

9.210

1/ = 3

0.1148

0.3518

1.213

2.366

4.108

7.815

11.34

1/ = 4

0.2971

0.7107

1.923

3.357

5.385

9.488

13.28

и = 5

0.5543

1.1455

2.675

4.351

6.626

11.07

15.09

1/ = 6

0.8721

1.635

3.455

5.348

7.841

12.59

16.81

1/= 7

1;.239

2.167

4.255

6.346

9.037

14.07

18.48

1/ = 8

1.646

2.733

5.071

7.344

10.22

15.51

20.09

1/ = 9

2.088

3.325

5.899

8.343

11.39

16.92

21.67

и =10

2.558

3.940

6.737

9.342

12.55

18.31

23.21

3.053

4.575

7.584

10.34

13.70

19.68

24.72

и =12

3.571

5.226

8.438

11.34

14.85

21.03

26.22

1/= 15

5.229

7.261

11.04

14.34

18.25

25.00

30.58

1/ = 20

8.260

10.85

15.45

19.34

23.83

31.41

37.57

и = 30

14.95

18.49

24.48

29.34

34.80

43.77

50.89

1/ = 50

29.71

34.76 1 42.94

49.33

56.33

67.50

76.15

1/ > 30

и+ V2ixp+1x1-1+0(1/)

-2.33

-1.64

-.674

0.00

0.674

1.64

2.33

Другае значения можно найти в книге Handbook of Mathematical Functions, вышедшей под редакцией М. Абрамовича (М. Abramowitz) и И. А. Стегун (I. А. Stegun) (Washington, D.C.: U.S. Government Printing Office, 1964); табл. 26.8. См. также (22) и упр. 16.

может быть проверено по табл. 1. Оно находится между 25- и 50-процентной точками, поэтому рассматривать это значение как значимо большое либо значимо малое нельзя. Таким образом, наблюдения в (2) являются удовлетворительно случайными по от1ошению к этому критерию. (Имеется в виду, что данные не опровергают гипотезу о распределении этой случайной величины. - Прим. ред.) В некоторой степени замечательно, что для использования таблиц не имеет значения, чему равны п и вероятность р. Только число и = к~1 влияет на результаты. Следует отметить, однако, что значения табл. 1 - это только приближенные значения: дело в том, что в ней приведены значения -распределения, которое является предельным распределением случайной величины V в формуле (6). Поэтому табличные значения близки к реальным только при больших п. Насколько большими должны быть п? Эмпирическое правило гласит: нужно взять п настолько большим, чтобы все значения величин nps были больше или равны пяти. Однако лучше брать существенно



0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 [ 17 ] 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261