Вероятность правильного предсказания
На основе модели логистической регрессии можно строить предсказание, произойдет или не произойдет событие { y =1}. Правило предсказания, по умолчанию заложенное в процедуру LOGISTICREGRESSION, устроено по следующему принципу: если > 0,5, то считаем, что событие произойдет; если £0,5, то считаем, что событие не произойдет. Это правило оптимально с точки зрения минимизации числа ошибок, но очень грубо с точки зрения исследования связи. Зачастую оказывается, что вероятность события P { y =1} мала (значительно меньше 0,5), тогда все имеющиеся в данных сочетания x предсказывают противоположное событие, или велика (значительно больше 0,5), поэтому оказывается, что они предсказывают событие { y =1}. Поэтому необходима другая классификация, которая демонстрирует связь между зависимой и независимыми переменными. С этой целью стоит выделить два типа объектов: - объекты, имеющие повышенную вероятность события { y =1},для которых оцененная условная вероятность P { y =1 | x }, больше безусловной оценки вероятности P { y =1} (доли объектов, для которых y =1); - объекты, имеющие повышенную вероятность противоположного события { y =0}, для которых оцененная условная вероятность P { y =1 | x } меньше оценки безусловной вероятности P { y =1}. В нашем случае доля объектов, для которых y =1, равна 0,69. Поэтому в процедуре указан параметр /CRITERIA CUT(.69). Связь между этими классификациями представлена в таблице сопряженности (рис. 6.3). Но лучше, пользуясь EXCEL или калькулятором, в этой таблице вычислить процентные соотношения. Classification Table for ALCOHOL The Cut Value is.69 Predicted не пьет пьет Percent Observed не пьет н 541 340 61.41%
пьет п 694 1244 64.19% Таблица6. 6 Связь наблюдения и предсказания в логистической регрессии
|