Применение корреляционно - регресионного анализа в исследовании социально-трудовой сферы
Основные задачи и понятия кореляционно - регресионного анализа (КРА)
Понятия корреляции и регрессии появились в средине 18 века в работах английских статистиков Гальтона Ф. и Пирсона К. Термин корреляция произошел от латинского слова «correlation», что означает «связь, взаимосвязь, отношение», регрессия - от лат. слова «regressio» - что означает «движение назад». Корреляционно-регресионный анализ - это метод, позволяющий исследовать связи и установить зависимости между рядом переменных по накопленным экспериментальным данным.
Постановка задачи: Дано: исходная статистическая совокупность в виде двухмерной (N*m, m*Т) или трехмерной матрицы (N*m*T), которая содержит данные о значениях изучаемого признака и о значениях влияющих на него признаков, собранных на основе ряда экспериментов, опытов или на ряде объектов.
Требуется получить статистическую зависимость вида: Y=F(X 1, X 2,......., Xm), причем среди влияющих признаков должны остаться только существенно влияющие и не дублирующие друг друга признаки. Корреляционно-регрессионный анализ позволяет: 1. Выявить взаимосвязи между признаками и оценить тесноту этих связей. 2. Подобрать уравнение зависимости между влияющими признаками и результативным признаком. 3. Оценить полученное регрессионное уравнение с точки зрения того, насколько оно согласуется с собранными статистическими данными (значимости влияния каждого признака и адекватности полученного уравнения). Этапы корреляционно-регрессионного анализа (рис. 4.2): 1. Формулировка целей исследования, сбор статистических данных и их предварительная обработка. 2. Оценка тесноты связи между признаками. 3. Разработка гипотезы о возможном виде связи между результативными признаками и влияющими факторами. 4. Разработка регрессионной зависимости. 5. Оценка значимости влияющих признаков и адекватности уравнения регрессии. 6. Использование результатов для анализа исследуемого явления и управления объектом.
1-й этап. На основе сущностного (качественного) анализа следует отобрать признаки, которые могут влиять на исследуемый результативный показатель (y), т.е. выделить набор влияющих признаков (x1, x2, …, xn). Далее производится сбор исходных данных (см. способы формирования выборки) и их предварительная статистическая обработка для проверки однородности собранных данных. Проверка однородности собранных данных производится с помощью двух приемов: 1) устанавливаются значения признаков, резко выделяющихся из всей совокупности (на основе логического анализа), и выясняются причины таких отклонений (ошибка при проведении экспериментов, расчетные ошибки и т.п.). 2) используются математико-статистические приемы: производится проверка принадлежности отдельных выборок к единой генеральной совокупности. Если такая принадлежность не подтверждалась, то выборку следует разбить на группы и проверять однородность собранных данных внутри каждой группы. 2-й этап. Этап оценки тесноты связи между переменными. Анализ коэффициентов парной корреляции (влияющих признаков X и зависимой переменной Y) позволяет проранжировать признаки по степени существенности их влияния на Y и включить в модель главные из них. Анализ коэффициентов парной корреляции между влияющими признаками позволяет выявить дублирующие друг друга признаки. Обычно на практике считают, что признаки xi и xj дублируют друг друга, если коэффициент парной корреляции между ними . Наличие такой линейной связи между переменными называется колинеарностью. Такая тесная множественная связь между несколькими переменными называется мультиколинеарностью. При составлении уравнения регрессии необходимо исключить колинеарность или мультиколинеарность признаков, т.е. исключить дублирование признаков. При этом из набора дублирующих признаков в уравнении следует оставить именно тот или те из них, у которых степень связи с результирующим показателем более высокая (см. коэффициенты парной корреляции, влияющих признаков с Y). 3-й этап. Разработка гипотезы о возможном виде связи между результативными и влияющими признаками (выбор типа уравнения регрессии). Обоснование типа уравнения регрессии осуществляет сам исследователь. При этом используется логико-профессиональные, графические и иные приемы. Наиболее распространенными типами регрессионной зависимости при решении задач экономики труда является линейная: , степенная: и обратная зависимость: . 4-й этап. Для выбранного типа зависимости производится расчет его параметров: коэффициентов регрессии a1, а2, …an и свободного члена a0. При этом используется метод наименьших квадратов и некоторые другие более совершенные процедуры. После построения предварительного вида уравнения регрессии следует проверить существенность влияния каждого признака и оценить адекватность уравнения. 5-й этап. Проверка существенности влияния каждого признака производится при помощи критерия Стьюдента. Эмпирические значения критерия Стьюдента для каждого коэффициента регрессии рассчитываются по следующей формуле: , где aj –коэффициент регрессии для j -го фактора; δ aj – среднеквадратическая ошибка коэффициента регрессии; – эмпирическое значение критерия Стьюдента для j -того фактора (а точнее – для коэффициента регрессии при j -том факторе). Чтобы оценить значимость каждого коэффициента регрессии, эмпирические значения критерия Стьюдента сравниваются с табличными. Табличные значения критерия Стьюдента берутся из статистических таблиц t-распределения в зависимости от заданного уровня значимости α и числа степеней свободы V. Число степеней свободы (V) – рассчитывается как: V = N-m-1, где N – объем выборки; m – количество влияющих факторов. Если эмпирические значения критерия Стьюдента не меньше его табличного значения │ t эмп.│ ≥ tтабл, то коэффициент регрессии считается значимым (статистически достоверным). Соответствующий признак признается существенно влияющим. В противном случае, если │ tэмп.│ < tтабл., коэффициент регрессии считается статистически недостоверным и этот признак следует отбросить из уравнения. Если в уравнении регрессии в результате проверки несколько признаков оказались незначимыми, то их следует отбрасывать по очереди и при этом начинать с того признака, у которого эмпирическое значение критерия Стьюдента оказалось самым маленьким. Такое последовательное отбрасывание и пересчет уравнения регрессии следует продолжать до тех пор, пока в уравнении все коэффициенты регрессии не окажутся статистически значимыми. Оценка адекватности уравнения регрессии в целом представляет собой проверку соответствия полученного регрессионного уравнения собранным статистическим данным. Оценка адекватности уравнения регрессии осуществляется при помощи критерия Фишера, на основе сравнения эмпирического и табличного значение этого критерия. , где Q0 – остаточная сумма квадратов, характеризующих влияние неучтенных факторов. Q1 – остаточная сумма квадратов, храктеризующих влияние учтенных факторов. Табличное значение критерия Фишера находят по статистическим таблицам F-распределения в зависимости от (α, V1, V2), где α – уровень значимости V1 – первое число степеней свободы V1 = m-1 V2 – второе число степеней свободы V2 = N-m-1 Если Fэмп ≥ Fтабл – уравнение признается адекватным. Если Fэмп < Fтабл – уравнение регрессии признается неадекватным. Возможные причины неадекватности уравнения регрессии: 1. Неполный учет влияющих факторов. 2. Неправильно выбранный тип уравнения регрессии. 3. Недостаточный объем выборки.
Рис. 4.2. Укрупненная блок-схема КРА Производственные функции являются одним из разделов КРА и частным случаем использования КРА. Производственная функция – это эконометрическая модель зависимости производственного результата от 2 и более факторов - производственных ресурсов, существенной для которой является возможность взаимного замещения ресурсов.
,
где q – производственный результат; xi – затраты i -го ресурса.
Чаще всего производственные функции строятся как двух- и трехфакторные модели: 1. Двухфакторная модель: q=f(K, L) 2. Трехфакторная модель: q=f(K, L, M), где K – капитал, L – труд, М – затраты материалов.
Как правило, производственные функции строятся на макроуровне, однако этот аппарат может быть применен и для более низких уровней (предприятие, цех, участок). По характеру зависимости производственные функции могут быть: - линейные; - степенные и т.д. Широкое распространение в экономических исследованиях получила функция Кобба-Дугласа, имеющая следующий вид:
q=A*Kα *Lβ ,
A – постоянный множитель, α, β – показатели степени.
Основные показатели, используемые при анализе производственной функции: 1. Средняя эффективность ресурсов. 2. Предельная эффективность ресурсов. 3. Эластичность замещения ресурсов. 4. Эластичность выпуска продукции по факторам. 5. Предельная норма замещения. 6. Эластичность замещения и т.д. Практический пример 1. Взаимосвязь динамики занятости и важнейших макроэкономических показателей (87)
Период рыночных преобразований в России показал, что многие процессы в переходной экономике нашей страны обладают определенной спецификой и не всегда укладываются в общеизвестные теории рынка. Особенно ярко это проявилось в социально-турдовой сфере. Так, например, высокие темпы спада объемов производства в период кризиса должны были бы привести к адекватному снижению числа рабочих мест, а значит, и численности занятых. Однако на самом деле этого не произошло. Почти 50% падения объемов производства в 1997 г. по сравнению с 1991 г. сопровождалось лишь 14% сокращения численности занятых за тот же период времени. Поэтому весьма интересно, на наш взгляд, было бы проследить взаимосвязь динамики занятости и основных макроэкономических показателей и выявить специфику этой взаимосвязи для российской экономики. Для выявления взаимосвязей между динамикой занятости и динамикой основных макроэкономических показателей была сформирована исходная база данных, представляющая собой совокупность динамических рядов статистически оцениваемых показателей (по материалам Госкомстата России). Выбор системы показателей осуществлялся, исходя как из общих предпосылок возможной взаимосвязи между ними, так и с учетом наличия достаточной ретроспективы исходной базы для последующего анализа их взаимосвязи сдинамикой занятости. Исходная база данных приведена в табл. 4.1. Таблица 4.1 Динамика макроэкономических показателей
Продолжение таблицы 4.1.
Для того чтобы учесть воздействие предыдущих периодов на величину и динамику анализируемого показателя, следует от исследования цепных индексов перейти к исследованию базисных индексов. В этом случае появится возможность учесть не только собственно взаимосвязь между показателями (что и является предметом исследования), но опосредованно учесть фактор времени и пролонгированное взаимовлияние между ними. Для решения поставленной задачи табл. 4.1, содержащую исходную базу данных, необходимо преобразовать в табл. 4.2, в которой динамические ряды представляют собой значения соответствующих индексов к базовому году (в качестве базового взят 1991 г.). Для осуществления предварительного анализа взаимной динамики выбранных показателей были построены графики их динамических рядов и рассчитана матрица парных корреляций, отражающая наличие и тесноту статистической взаимосвязи между ними. Графики, отражающие изменения во времени значений каждого показателя, представлены на рис. 4.1, а матрица парных корреляций – в табл. 4.3. Анализ таблицы парных корреляций показывает, что существенной статистической связи между индексом численности занятых и другими показателями не наблюдается. Наибольшее значение имеют коэффициенты парной корреляции индекса численности занятых, индекса реальной заработной платы (он равен 0, 61), индекса ВВП (0, 43) и индекса объема промышленного производства (0, 42). Однако ни величина этих коэффициентов, ни их статистическая значимость не позволяют с уверенностью говорить о наличии тесной взаимосвязи между ними. Тем не менее было бы ошибочно констатировать отсутствие взаимосвязей между исследуемыми динамическими рядами. Дело в том, что цепные индексы не в состоянии уловить «лаговые» взаимодействия, присущие экономическим системам, причем попытка учесть лаги за счет смещения динамических рядов показателей по временной шкале также не приводит к желаемому результату, что иллюстрируется рис. 4.3.
Рис. 4.3. Динамика макроэкономических показателей.
Таблица 4.2 Динамика индексов к 1991 г.
Продолжение табл. 4.2.
Графики, отражающие динамику базисных индексов, и матрица парных коэффициентов корреляции представлены соответственно на рис. 4.4 и в табл. 4.4. Анализируя данные табл. 4.4, нетрудно заметить, что ряды базисных индексов характеризуются существенно более высокими коэффициентами парной корреляции, причем эти коэффициенты статистически значимы при уровне доверия не ниже 90%, что позволяет говорить о наличии тесной взаимосвязи между динамическими рядами базисных индексов исследуемой системы показателей. На следующем этапе анализа была предпринята попытка построения многофакторного регрессионного уравнения, в котором в качестве результирующего фактора выступает индекс численности занятых, а в качестве независимых - оставшиеся показатели. Поскольку размеры исходных выборок не позволяют строить регрессионные уравнения с девятью независимыми факторами, сначала был осуществлен качественный анализ матрицы парных корреляций с целью выявления факторов, которые наиболее существенно влияют на динамику занятости. В результате этого анализа были исключены из рассмотрения: индекс объема промышленного производства, поскольку он практически на 100% связан с индексом ВВП; степень износа основных фондов и коэффициентов обновления основных фондов, поскольку их связь с динамикой занятости оказалась наиболее слабой (коэффициент парной корреляции равен -0, 86 и 0, 89 соответственно), а также индекс номинальной заработной платы, поскольку он имеет функциональную связь с индексом реальной заработной платы и индексом инфляции (потребительских цен).
Таблица 4.3 Матрица парных корреляций системы показателей исходной базы данных
Таблица 4.4 Матрица парных корреляций цепных индексов
Таким образом, в качестве независимых факторов вместо девяти остается пять. Однако даже в этом случае построение адекватного регрессионного соотношения вызывает большие сомнения, поскольку объем выборок результирующего и факторных признаков (всего шесть наблюдений) оказываются слишком малы для оценки статистической значимости как самого уравнения так и отдельных коэффициентов регрессии, входящих в него. Косвенно этот факт подтверждается также тем, что знаки некоторых коэффициентов регрессии (при факторах - индекс ВВП и индекс инфляции) противоречат установленному характеру их взаимосвязи с индексом занятости (например, парный коэффициент корреляции индексов занятости и ВВП - положителен, а в уравнении регрессии соответствующий коэффициент имеет отрицательный знак). Поэтому несмотря на то, что подобная пятифакторная модель описывает 100% вариации результативного признака (индекса занятости), от нее пришлось отказаться. Тем не менее, формальные методы корреляционно-регрессионного анализа позволили определить наличие существенных и корректно оцененных зависимостей между динамикой индекса занятости и отобранными ранее факторами.
Рис. 4.4. Динамика базисных индексов Применение пошагового регрессионного анализа (были использованы две методики: первая - пошаговое включение факторов, вторая - пошаговое исключение факторов из уравнения регрессии) позволило построить два статистически значимых регрессионных уравнения. Первое уравнение увязывает индекс занятости с двумя факторами: индексом ВВП и средним возрастом основных производственных фондов. Второе уравнение устанавливает регрессионную зависимость индекса занятости от индекса инфляции (потребительских цен) и индекса инвестиций в основной капитал. Первую группу факторов можно условно рассматривать как факторы производства, а вторую отнести к группе финансовых факторов. Несмотря на то, что как между факторами внутри каждой группы, так и между факторами, входящими в разные группы, существует тесная корреляционная связь (см. табл. 4.4), такое деление факторов на группы для целей данного анализа оправданным и конструктивным. Первое регрессионное уравнение представляет собой зависимость вида: Jзан=87, 5-0, 002*Jинф+0, 17*Jинв, где Jзан – индекс численности занятых, в % к 1991 г.; Jинф – индекс потребительских цен, в разах к 1991 г.; Jинв – индекс инвестиций в основной капитал (в сопоставимых ценах), в % к 1991 г. R2 = 0, 98; DW = 2, 9; коэффициенты регрессии статистически значимы по критерию Стьюдента, а модель по критерию Фишера Частные коэффициенты эластичности, рассчитанные на основе полученного соотношения, позволяют судить о том, на сколько процентов в среднем изменится анализируемый показатель с изменением на 1% каждого фактора при фиксированном значении другого. Для расчета этих коэффициентов используется следующая формула: , где Эi – частный коэффициент эластичности; ai – коэффициент регрессии при i-м факторе; Xi – среднее значение i-го фактора; Y – среднее значение изучаемого показателя.
Таким образом, при неизменном индексе инвестиции а основной капитал 1% роста накопленного индекса инфляция приведет к снижению индекса занятости на 0, 03% (Э1 = -0, 03), а при неизменном индексе инфляции 1% роста накопленного индекса инвестиций приведет к росту накопленного индекса занятости на 0.08% (Э2 = 0, 08). Следовательно, можно сделать вывод, что инвестиции в основной капитал в среднем оказывают существенно большее влияние на занятость, чем инфляционные процессы. Для определения факторов, в развитии которых заложены наиболее крупные резервы улучшения исследуемого показателя, требуется оценить различия в степени варьирования вошедших в уравнение факторов. Эти оценки делаются на основе расчета β -коэффициентов, которые вычисляются по формуле: β i=ai , где аi - коэффициент регрессии при i-м факторе; - среднее квадратическое отклонение i-го фактора; - среднее квадратическое отклонение исследуемого показателя. В результате расчетов получим: β 1 =0, 51; β 2 = 0, 55. Анализ β -коэффициентов показывает, что на индекс занятости наибольшее влияние из двух исследуемых факторов с учетом уровня их колеблемости способен оказать фактор - индекс инвестиций в основной капитал, что полностью подтверждает предыдущий вывод, сделанный на основе анализа частных коэффициентов эластичности. Таким образом, можно констатировать, что доминирующее воздействие на результирующий признак (то есть индекс занятости) оказывает инвестиционный фактор. Второе регрессионное уравнение представляет собой попытку подойти с другой стороны к установлению зависимости между динамикой занятости и иными макроэкономическими показателями, а именно: динамикой валового внутреннего продукта и средним возрастом основных производственных фондов. Выбор этих показателей связан не только с чисто статистическими критериями (высоким уровнем коэффициентов парной корреляции между ними и динамикой занятости), но и обусловлен реальными экономическими процессами. Если взаимосвязь между динамикой занятости и динамикой ВВП достаточно очевидна, то воздействие среднего возраста основных фондов требует пояснения. Следует исходить из того, что с ростом среднего возраста фондов значительное число рабочих мест (особенно на фондах старших возрастов) будет не в состоянии эффективно функционировать, что должно приводить к их сокращению, а следовательно к сокращению занятости. Полученная зависимость имеет вид: Jзан=102, 5 – 1, 66*Тофп+0, 18* Jввп, где Jзан - индекс численности занятых, в % к 1991 г.; Тофп – средний возраст основных производительных фондов в промышленности, лет; Jввп – индекс ВВП (в сопоставимых ценах), в % к 1991 г. R2 = 0, 99; DW = 2, 8; коэффициенты регрессии статистически значимы по критерию Стьюдента, а модель – по критерию Фишера. Факторный признак – средний возраст основных производственных фондов в промышленности – был выбран в связи с отсутствием данных по среднему возрасту основных фондов в экономике в целом. Разумеется, корректнее было бы использовать показатель среднего возраста основных фондов по экономике в целом, но на самом деле ошибка модели при такой замене будет весьма незначительной и для методических целей вполне допустимой, поскольку средний возраст фондов в промышленности тесно коррелирует с аналогичным показателем для экономики в целом. Частные коэффициенты эластичности для этого соотношения имеют значения: Э1 = -0, 25; Э2 = 0, 14. Таким образом, 1% роста возраста основных производственных фондов приводит к снижению индекса занятости на 0, 25% (при условии неизменности индекса ВВП), 1% роста индекса ВВП (при условии неизменности возраста ОПФ) приводит к росту индекса занятости на 0, 14%. Следовательно, по абсолютному приросту наибольшее влияние на занятость оказывает фактор возраста основных фондов. Этот вывод подтверждают и расчеты β -коэффициентов, которые соответственно равны 0, 41 для индекса ВВП и 0, 61 для возраста основных фондов, то есть наибольшие резервы повышения численности занятых заложены в росте инвестиционной активности, ведущей к совершенствованию производственной базы и снижению среднего возраста основных производственных фондов. В качестве факторов в построенных уравнениях регрессии выступают базисные индексы исследуемых показателей. Однако в результате несложных математических преобразований можно показать, что 1% изменения величины индекса соответствует 1% изменения показателя по абсолютной величине. Поэтому использование полученных частных коэффициентов эластичности позволяет утверждать, что: 1) для увеличения численности занятых на 1% необходимо, при прочих равных условиях (сохранении неизменным среднего возраста фондов), обеспечить рост ВВП на 7%; 2) для увеличения численности занятости на 1%, при прочих равных условиях (стабильном ВВП), снизить средний возраст основных производственных фондов на 4%. Достаточно тесная корреляционная связь наблюдается между индексами занятости и реальной заработной платы (см табл 4.4). Однофакторная регрессионная модель, отражающая зависимость индекса занятости от индекса реальной заработной платы, имеет вид: Jзан=75, 17+0, 29*JРЗП, где Jзан - индекс численности занятых, в % к 1991 г.; JРЗП - индекс реальной заработной платы, в % к 1991 г. R2 = 0, 77; DW = 1, 76; коэффициент регрессии статистически значим по критерию Стьюдента. а модель - по критерию Фишера Это опровергает существующие теоретические представления для рыночной экономики, говорящие, что рост реальной заработной платы приводит к снижению занятости. Для нашей экономики рост реальной заработной платы говорит, скорее, о компенсации ее падения в предыдущие годы, возможной лишь при нормализации производственного процесса. Одновременно падение реальной заработной платы, особенно выраженное в 1999 г., свидетельствует о глубоких кризисных явлениях в экономике, которые одновременно сказываются и на снижении численности занятых. Частный коэффициент эластичности для этого соотношения имеет значение: Э1 = 0, 18. Это указывает на то, что 1% роста реальной заработной платы сопровождается 0, 18% роста занятости. Несмотря на то, что данная модель описывает только около 70% вариации независимого параметра, она даст хорошие практические результаты. Так, верификация модели на данных 1998 г. позволила оценить величину накопленного индекса занятости в 1998 г. по отношению к 1999 г. как 87, 6%, в то время как его значение, рассчитанное по фактическим данным, оказалось равным 87, 1%. В отличие от базового периода в 1998 г., в результате финансового кризиса, имели место значительные колебания устоявшихся макроэкономических тенденций. Тем не менее, ошибка модели не превысила 1%, что подтверждает се адекватность реально протекающим процессам и возможность использования в качестве инструмента в задачах анализа и прогнозирования. Рассмотренный комплекс моделей является, на наш взгляд, целостной системой инструментальных средств анализа и прогнозирования динамики занятости во взаимоувязке с основными макроэкономическими показателями и может быть использован для практических расчетов.
Практический пример 2. Моделирование влияния основных показателей социально-экономического развития на демографическую ситуацию (42) Рассмотрим методологические подходы к решению двух взаимосвязанных задач, во-первых, к установлению количественных взаимосвязей между социально-экономическими и демографическими показателями, и, во-вторых, к соответствующей «достройке» социально-экономических прогнозов демографическими показателями, рассчитанными не автономно, а непосредственно на основе экономических данных. Для математико-статистических расчетов, преследующих цель установить количественные взаимосвязи между демографическими и социально-экономическими показателями, во-первых, можно про
|