FREQUENCIES STATISTICS - описанельные статистики
Подкоманда позволяет получить одномерные описательные статистики. FREQUENCIES V1 V2 V4 /STATISTICS DEFAULT.
Ключевые слова: MEAN - среднее; SEMEAN - стандартная ошибка среднего; MEDIAN - медиана(процентиль с 50%) MODE - мода(наиболее частое значение) STDDEV - стандартное отклонение; VARIANCE - дисперсия; KURTOSIS - эксцесс (пикообразность); SEKURT - стандартная ошибка эксцесса SKEWNESS - коэффициент асимметрии (скошенность); SESKEW - стандартная ошибка коэффициента асимметрии; RANGE - разброс = (MAX - MIN); MINIMUM - минимум; MAXIMUM - максимум; SUM - сумма всех значений переменной; ALL - все статистики. DEFAULTS - по умолчанию МEAN, STDDEV, MIN, MAX.
Для расчета параметра SEMEAN (стандартной ошибки среднего для выборки x1, x2,…, xn) вычисляются следующие статистики: MEAN VARIANCE: SEMEAN
Стандартную ошибку можно использовать для оценки доверительного интервала среднего. Напомним, что доверительным интервалом параметра называется интервал со случайными границами, накрывающий значение параметра с заданной (доверительной) вероятностью. В частности, приближенными оценками границ 95% двустороннего доверительного интервала являются значения Если распределение нормально, то в пределах Скошенность определяется расчетом третьего момента по следующей формуле: SKEWNESS: Если полученная величина < 0, то распределение растянуто влево, если > 0, то вправо. Пикообразность определяется значением четвертого момента: KURTOSIS: Таблица 3.2. Статистики по переменной V14 - "Душевой доход", выданные командой FREQUENCIES
Чем больше четвертый момент, тем больше пикообразность распределения; нулевое значение KURTOSIS означает, что пикообразность распределения совпадает с пикообразностью нормального распределения. Существенность отклонений статистик от теоретических можно проверить, используя стандартные ошибки этих статистик (в основе лежит факт, что отношение статистики к ее стандартной ошибке имеет распределение, близкое к нормальному). Перечисленные статистики играют в анализе данных особую роль - они позволяют провести первый этап статистических исследований выборки, проверить нормальность ее распределения. Ниже приведен пример описательных статистик, полученных для переменной "Среднемесячный душевой доход в семье", построенной по ответам на 14-й вопрос анкеты "Курильские острова" командой FREQUENCIES VARIABLES=V14 /NTILES=4 /PERCENTILES= 10 90 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SUM SKEWNESS SESKEW KURTOSIS SEKURT. которая вычисляет, также, n -тили и процентили.
Анализируя полученные данные (таблица 3.2), видим, что доход в семьях меняется в диапазоне от 21 рубля до 1500 рублей (разброс равен 1479). При этом средний доход составил около 230 рублей. Приближенными границами пятипроцентного доверительного интервала для истинного среднего будут значения: 229.11±1.96*5.83, где 1.96 - критическое значение нормального распределения для p=0.05/2=0.025. Скошенность skewness=3.035 Пикообразность kurtosis=15.080 и пикообразность kurtosis=15.080 значительно больше нуля (их стандартные ошибки, 0.094 и 0.188, свидетельствуют о статистической значимости такого отличия). Результатом задания процентилей и n-тилей являются выданные в таблице процентили (у 10% выборки доход меньше 100 руб., у 90% - меньше 400; имеются также 25%, 50%, 75% процентили).
|