CELLS статистики смещения частот
CELLS статистики смещения частот
Реализованные в параметре CELLS статистики позволяют провести более сложный анализ связи переменных. Например, в таблице 3.4 можно увидеть, что среди считающих, что иностранная помощь не нужна, 12% готовы отдать острова Японии, а среди считающих, что помощь нужна - их 37%. В то же время, в целом по совокупности 15% готовы передать острова. Существенны ли отличия от долей в целом по совокупности на 3% и 22%? Может ли в следующем обследовании связь оказаться противоположной? Основой для исследования смещения выборки от истинного распределения служат значения, ожидаемые в случае независимости выборки. Подпараметр EXPECTED параметра CELLS позволяет вывести в клетках абсолютные значения частот (Nij), ожидаемых в случае независимости соответствующих клетке значений переменных. Отклонение (Nij-Eij) наблюдаемой частоты от ожидаемой - более удобная величина для анализа: она достаточно наглядна, но неясно, насколько она статистически значима.
Более полезна статистика Zij=(Nij-Eij)/?ij - стандартизованное смещение частоты; Zij выдается в клетке при указании подпараметра ASRESID (Adjusted residuals). Иными словами, Zij представляет собой отклонение наблюдаемой частоты от ожидаемой, измеренное в числе стандартных отклонений. При этом стандартное отклонение вычисляется исходя из предположения, что Nij это случайная величина, имеющая гипергеометрическое распределение:
Если переменные независимы, то, при больших N, случайная величина Zij имеет нормальное распределение с параметрами (0,1). Для нее практически невероятно отклонение, большее трех стандартных отклонений, т.к. вероятность такого значения составляет менее 0.0027 (правило "трех сигм"). Поэтому, если мы получаем значение Zij, превышающее 3, то можем считать, что i-ое значение и j-ое значения X и Y связаны. На практике нередко, когда анализируетсся единственная клетка таблицы, выставляются более слабые требования. Существенными считаются односторонние отклонения, которые превышают 1,65?ij - вероятность их получения составляет 5%.
Таким образом, начиная с отклонения 1,65?ij и большего, можно уже высказывать гипотезу о существовании связи между значениями (см. таблицу нормального распределения в любом статистическоим справочнике). Эмпирическим критерием, когда распределение Zij близким к нормальному, следует считать является соотношение для дисперсии
Следует заметить, что в действительности мы имеем дело с множеством статистик значимости и, при переборе их, велика вероятность случайно получить их значения, превышающие указанные пороги. Если бы клетки были независимы, при критическом значении статистики Zij, равном 1.96 (5% уровень значимости) мы в среднем в условиях независимости данных находили бы 5 "значимых" из 100 клеток таблицы, а хотя бы одну статистику, Zij>1.96 мы можем получить с вероятностью (1-0.95100)=0.! Поэтому сложившаяся практика руководствоваться отклонением 1.65?ij оберегает нас только от грубейших ошибок.