Коэффициенты связи между ранговыми переменными
Коэффициенты связи между ранговыми переменными
Коэффициенты BTAU (Кендалла) и CTAU (Стюарта) служат для оценки взаимосвязи ранговых переменных.
Напомним, что ранговыми переменными называются переменные, в которых можно установить порядок между значениями, например, ответы на вопрос, требующий ответа "плохо", "средне" или "хорошо"% количественные переменные, такие, как возраст, доход, также можно использовать в качестве ранговых.
Рассмотрим пары всех объектов (строк матрицы данных). Для пары объектов (i,j) рассматривается, одинаково ли упорядочиваются объекты и по переменной X и по переменной Y. (если Xi<Xj и Yi<Yj или Xi>Xj и Yi>Yj - упорядочения одинаковы, если Xi<Xj и Yi>Yj или Xi<Xj и Yi>Yj - упорядочения не одинаковы). Число одинаковых упорядочений для всех пар объектов по X, Y обозначим Р; число разных - Q. Кендалл предложил рассматривать величину BTAU=(P-Q)/T, где T - нормирующий знаменатель, такой, чтобы величина BTAU изменялась от -1 до 1. (BTAU=-1 - полная отрицательная связь X и Y, BTAU=1 - полная положительная связь). Коэффициент CTAU несколько отличается нормирующим знаменателем. С точки зрения использования отличие их в том, что BTAU предпочтительнее использовать для квадратных таблиц сопряженности, то есть, когда r=c.
С помощью этих коэффициентов можно проверить гипотезу независимости переменных "степень противостояния СССР и Японии" и "степень альтруизма" против гипотезы их зависимости: одинаковой или противоположной упорядоченности, предварительно построив эти переменные на основе данных по нашей учебной анкете.
Пример: рассчитаем коэффициенты BTAU и CTAU для наших переменных v1 "Точка зрения на иностранную помощь" и V4 "Возможность удовлетворить территориальные требований Японии". Следует заметить, что код значения "не знаю" этих переменных максимален - 4 (см. анкету в приложении). Это нарушает порядок градаций и неясно, каким образом повлияет на результаты. Скорее всего, эта градация занимает какое-то промежуточное место, но неясно, между какими градациями. Поэтому самым простым выходом будет пожертвовать данными и провести расчеты, объявив этот код кодом неопределенности:
missing values v1 v4(4).
CROSSTABS /TABLES=v4 BY v1
/STATISTIC=CHISQ BTAU CTAU CMH(1)
/CELLS= COUNT ROW COL.