Анализ качественных признаков на основе логлинейной модели
Весьма распространенной проблемой в медицинских исследованиях является анализ качественных номинальных признаков, которые, как правило, представляются в виде кодов (например, цвет кожных покровов: розоватый -1, желтый -2, пунцовый -3 и т.д.). Интерес представляет частота встречаемости признаков в различных группах, а также сила и направление влияния одних признаков на другие. Нами уже были рассмотрены таблицы сопряженности 2×2, которые используются для анализа совместного распределения двух признаков, имеющих по две градации. Задачу можно сформулировать другими словами – оценка взаимного влияния двух двухуровневых факторов. Однако, встречаются более сложные случаи – многомерные таблицы сопряженности, например, нужно выяснить зависит ли срок госпитализации от возраста пациента и тяжести его состояния при поступлении в стационар (в каждую ячейку вводится число случаев ).
В данном примере фактор А -«срок госпитализации» имеет три уровня (i =1,2,3), фактор В - «возраст» - два уровня (j =1,2), и фактор С –«тяжесть состояния» - три уровня (k =1,2,3). Один из способов решения подобных задач – построение логлинейной модели вида: + + ,
где - теоретические частоты наблюдений λ - логарифмы эффектов различных сочетаний факторов А, В, и С на различных уровнях (интерпретируется как вклад факторов и их сочетаний в частоту). Переходя от логарифмов к натуральным значениям, получают теоретические (ожидаемые) частоты . Рассмотрим пример реализации логлинейного анализа в ППП STATISTICA с последующей интерпретацией результатов. Задача состоит в оценке факторов риска развития артериальной гипертензии. Анализировалась частота встречаемости следующих признаков (факторов)
Исходные данные представляются в виде матрицы n×m, где n - количество обследованных, m -число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.
Если какие-то ячейки таблицы сопряженности окажутся пустыми – не встречается данное сочетание факторов, то программа автоматически вставляет в эту ячейку величину 0,5, что никак не влияет на конечные результаты. Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Log-Linear analysis of Frequency Tables (логлинейный анализ) – «ОК». В открывшемся окне необходимо указать форму задания исходных данных input file Raw Data, и выбрать переменные из списка, щелкнув кнопкой Variables: в нашем примере отмечаем все признаки (факторы). Нажмите ОК. В открывшемся окошке Log-Linear model specification вы увидите, что фактор курения имеет код 1, потребление алкоголя - 2, потребление соли - 3, наследственный фактор - 4, наличие гипертонии (АГ) – 5. Нажмите на кнопку Tests of Marginal and Partial Association (проверка общих и частных взаимосвязей), появятся две таблицы. Первая из них «Results of Fitting all K-Factor Interactions», показывает результаты проверки нулевой гипотезы о независимости числа случаев от факторов и их сочетания. Проверка осуществляется по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона.
При К =1 и 2 р <0,05, т.е. влияние самих факторов и их попарных сочетаний статистически значимо, а сочетания по 3, 4 и 5 факторов – незначимо. Во второй таблице «Tests of Marginal and Partial Association» представлены данные о связи факторов и их сочетаний с ожидаемыми частотами наблюдений (рассчитанными по логлинейной модели). Из нее видно, что статистически значимыми являются 9 эффектов (р<0,05 по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона).
Так как нас интересует фактор наличия артериальной гипертонии (код 5) и связь его с другими изучаемыми факторами из данной таблицы выберем статистически значимые взаимодействия – это 3-5 и 4-5. О степени влияния того или иного фактора судят по отношению данного фактора к сумме всех факторов (в%).
Т.е. на 49% развитие артериальной гипертензии зависит от наследственных факторов, на 4% - от излишнего потребления соли и на 47% от других факторов, которые не рассматриваются в данном исследовании. Вернитесь в окошко Log-Linear model specification и нажмите ОК. Появятся результаты автоматического поиска оптимальной модели для ожидаемых частот наблюдения.
Оптимальной оказалась модель, включающая взаимодействия 2-1, 5-3, 4-2, 5-4. Значимость модели проверяется по критериям максимального правдоподобия и по критерию хи-квадрат Пирсона. Нулевая гипотеза заключается в равенстве наблюдаемых и рассчитанных по модели ожидаемых частот. Т.к. р =0,8 (т.е.>0.05) нулевая гипотеза принимается и модель считается адекватной. Более содержательный разбор наблюдавшихся частот можно провести, рассматривая таблицы 2×2 для попарного сочетания уровней факторов. Для этого нажмите кнопку Observed table (наблюдаемые частоты) и в появившемся окошке выберем, например, АГ и наследственный фактор. Появится 8 таблиц, первая из них
Среди тех кто не курит, не пьет, не потребляет излишне соль гипертоники встречаются в 224/78=2,9 раза реже, чем здоровые. Причем среди гипертоников лиц с наследственным фактором в 45,5/35,5=1,3 больше, чем лиц без него. Такой же анализ можно провести относительно других факторов и их сочетания. Для задач прогнозирования используется опция Fitted table (ожидаемые частоты). Аналогично получаем таблицу
Если человек не курит, не потребляет алкоголь, не имеет наследственную отягощенность и не потребляет много соли, то вероятность АГ составляет 22,1/60,9*100%=36%, а его отсутствия - 64%.
|