Анимация
JavaScript
|
Главная Библионтека большие п, чтобы получить более надежный критерий. В приведенном выше примере п = 144, пр2 равнялось только 4 и эмпирическое правило было нарушено. Это объясняется только тем, что автору просто надоело бросать игральные кости; это привело к тому, что значения табл. 1 оказались менее подходящими. Эксперимент, проведенный на компьютере при п = 1000 или 10 ООО, или даже 100 ООО, был бы намного лучше рассмотренного нами. Мы могли также объединить данные при s = 2 и s = 12; этот критерий имел бы только 9 степеней свободы, но аппроксимация была бы более точной. Можно пояснить, насколько груба аппроксимация, если рассмотреть случай только двух категорий, имеющих вероятности pi и рг- Предположим, = и Р2 = I. В соответствии со сформулированным эмпирическим правилом необходимо провести более двадцати наблюдений, п > 20, чтобы иметь удовлетворительную точность. Давайте это проверим. Когда п - 20, возможные значения V будут такими: (Fi - 5р/5 -Ь (5 - Yi)/15 = -г для -5 < г < 15. Теперь посмотрим, насколько точно в первой строке {и = 1) табл. 1 описывается распределение V. -распределение непрерывно, в то время как распределение V имеет довольно большие скачки, поэтому нужно сделать несколько замечаний, прежде чем представить точное распределение. Если различные возможные исходы эксперимента приводят к величинам Vq <Vi < • • • < V„ с соответствующими вероятностями ло, тгь ..., л-„, то предположим, что заданная вероятность р попадает в интервал ло -I-----1-7г 1 < р < тго -I-----l-ttj-i -l-ttj. Найдем такую "процентную точку" х, где V меньше х с вероятностью <рнУ больше X с вероятностью < 1 - р. Нетрудно видеть, что существует только одно такое число, а именно - х = Vj. В нашем примере для п = 20 п и = 1 оказывается, что процентные точки для точного распределения, соответственно аппроксимации в табл. 1 для р = 1%, 5%, 25%, 50%, 75%, 95% и 99%, равны О, О, .27, .27, 1.07, 4.27, 6.67 (с точностью до двух десятичных знаков). Например, процентная точка для р = 95% равна 4.27, тогда как приближенное значение в табл. 1 равно 3.841, что существенно меньше. Поэтому, если пользоваться таблицей, следует отнести значение V = 4.27 за 95%-й уровень, на самом же деле вероятность того, что V > 4.27, больше 6.5%. Когда п = 21, ситуация, меняется мало, поскольку средние значения npi = 5.25 и прг = 15.75 могут никогда не достигаться точно. Процентные точки для п = 21 равны .02, .02, .14, .40, 1.29, 3.57, 5.73. Можно было бы ожидать, что значения из табл. 1 дадут лучшее приближение при п = 50, но соответствующая таблица, оказывается, в некоторых аспектах еще больше отличается от табл. 1, чем при п = 20: .03, .03, .03, .67, 1.31, 3.23, 6. Приведем значения при п = 300: О, О, .07, .44, 1.44, 4, 6.42. Даже в этом случае, когда пра > 75 для каждой категории, значения в табл. 1 хороши только относительно одной значащей цифры. Вопрос о правильном выборе п достаточно сложен. Если игральные кости действительно несимметричны, то это будет проявляться все больше и больше при
Диапазон V 0-1%, 99-100% 1-5% , 95-99% 5-10%, 90-95% Указание Обозначение Отбросить Подозрительный Почти подозрительный Рис. 2. Указания "значимости" отклонения х-критерия при Л = 90 (см. также рис. 5). возрастании п (см. упр. 12). Но при больших значениях п имеет место тенденция к сглаживанию локального неслучайного поведения, когда блоки чисел со строгим смещением следуют за блоками чисел с противоположным смещением. При реальном бросании игральных костей сглаживания локального неслучайного поведения можно не опасаться, так как одни и те же игральные кости используются во время всего эксперимента, но последовательность случайных чисел, генерируемых компьютером, может очень часто демонстрировать такие аномалии. Возможно, х критерий следовало бы применять для нескольких разных значений п. Во всяком случае, значения п должны быть по возможности большими. Теперь можно окончательно описать х-критерий следующим образом. Выполняется достаточно большое число п независимых наблюдений. (Важно избегать использования х-критерия при зависимых наблюдениях. См., например, упр. 10, в котором рассмотрен случай, когда одна половина наблюдений зависит от другой.) Подсчитываем число наблюдений, относящихся к каждой из к категорий, и величину V, приведенную в формулах (6) и (8). Затем V сравниваем с числами из табл. 1 при и = к - 1. "Если V меньше 1%-й точки или больше 99%-й точки, отбрасываем эти числа как недостаточно случайные. (Если быть более точными, то отбрасываем следующую гипотезу: вероятности того, что наблюдения относятся к категории s, равны Ра- - Прим. ред.) Если V лежит между 1%- и 5%-й точками или между 95%- и 99%-й точками, то эти числа "подозрительны"; если (интерполируя таблицу) V лежит между 5%- и 10%-й точками или 90%- и 95%-й точками, числа можно считать "почти подозрительными". Проверка по х-критерию часто производится три раза (и более) с разными данными. Если по крайней мере два из трех результатов оказьтаются подозрительными, то числа рассматриваются как недостаточно случайные. Например, на рис. 2 схематично показаны результаты применения пяти различных типов х-критерия для каждой из шести последовательностей случайных чисел. Каждой проверке подвергались три различных блока чисел последовательности. Генератор А - это метод Мак-Ларена-Марсалья (MacLaren-Marsaglia) (алгоритм 3.2.2М, примененный к последовательности в 3.2.2-(13)). Генератор Е - это метод
1=0 1=5 1=1
1=0 1=5 1=1 1 = 9.3 1 = 18.3 1 = 6.7 1 = 12.6 Рис. 3. Примеры функций распределения. Фибоначчи (Fibonacci), 3.2.2-(5), а другие генераторы - это линейные конгруэнтные последовательности со следующими параметрами. Хо = 0, 0 = 3141592653, с = 2718281829, т = 2. Хо = 0, 0 = 2 + 1, с=1, m = 23 Хо = 47594118, а = 23, с = О, m = 10» + 1. Хо = 314159265, а = 2* + 1, с = 1, m = 25. Генератор В Генератор С Генератор D Генератор F Из рис. 2 заключаем, что (как следует из результатов проверки) генераторы А, В, D удовлетворительны, генератор С находится на границе и его следовало бы отбросить, генераторы Е и F, безусловно, неудовлетворительны. Генератор F имеет, конечно, низкий потенциал; генераторы С и D уже обсуждались в литературе, но их множители слишком малы. (Генератор D - оригинальный мультипликативный генератор, предложенный Лехмером (Lehmer) в 1948 году; генератор С - оригинальный линейный конгруэнтный генератор с с Ф О, предложенный Ротенбергом (Rotenberg) в 1960 году.) Вместо терминов "подозрительный", "почти подозрительный" и т. д. для описания результатов применения х-критерия можно, кстати, использовать процедуру, обсуждаемую ниже в этом разделе. В. Критерий Колмогорова-Смирнова. Как мы уже видели, х-критерий применяется в ситуациях, когда наблюдения могут относиться только к конечному числу категорий. Однако совершенно небесполезно рассматривать случайные величины, которые принимают бесконечное множество значений, такие как случайные дроби (случайные действительные числа между О и 1). Хотя только конечное множество 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 [ 18 ] 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 |