Под корреляционным анализом понимают исследование закономерностей между явлениями (процессами), которые зависят от многих, иногда неизвестных факторов. Если две переменные зависят друг от друга так, что каждому значению
соответствует значение
, то между ними существует функциональная связь.
Однако часто между переменными
и
существует связь, но не вполне определенная. Одному значению
соответствует несколько значений (совокупность)
. В этом случае связь называют корреляционной.
Функция
является корреляционной, если каждому значению аргумента соответствует статистический ряд распределения функции
. Следовательно, корреляционные зависимости характеризуются вероятностными связями. Поэтому установление корреляционных зависимостей между величинами
и
возможно лишь тогда, когда выполняемы статистические измерения.
Например, модуль упругости грунта
зависит от его объемного веса
. С возрастанием объемного веса увеличивается модуль упругости грунта. Эта закономерность проявляется лишь при наличии большого количества измерений. Для каждой отдельно парной связи
наблюдаются большие отклонения.
Суть корреляционного анализа сводится к установлению уравнения регрессии, т.е. вида кривой между случайными величинами, оценка тесноты связей и достоверности результатов измерений.
Чтобы предварительно определить наличие корреляционной связи между
и
, наносят точки на график и строят так называемое корреляционное поле (рис.27). По тесноте группирования точек вокруг прямой или кривой линии, по наклону линии можно визуально судить о наличии корреляционной связи. Так, из рис. 27,
видно, что экспериментальные данные имеют определенную связь между
и
. В то же время измерения, приведенные на рис. 27,
, такой связи не имеют.
Корреляционное поле характеризует вид связи между
и
. По форме поля можно ориентировочно судить о форме графика, характеризующей прямолинейную или криволинейную зависимость. Даже для вполне выраженной формы корреляционного поля вследствие статистического характера связи исследуемого явления одно значение
может иметь несколько значений
.
Поэтому оптимальной будет такая функция, в которой соблюдаются условия наименьших квадратов:
(108)
где
– фактические ординаты поля;
– среднее значение ординаты с абсциссой
, вычисленной по уравнению.
Если нанести на корреляционном поле (см. рис.27,
) средние значения
(обозначенные крестиками), то линия
будет соответствовать функциональной зависимости
. Средняя линия корреляционного поля, для которой соблюдается условие (108), называется линией регрессии.
Существует три вида корреляции – прямолинейная, криволинейная и множественная. Наиболее распространенной является прямолинейная корреляция.
Поле корреляции аппроксимируют уравнением прямой. Линию регрессии рассчитывают из условий наименьших квадратов (108):
(109)
При этом кривая
наилучшим образом выравнивает значения постоянных коэффициентов
и
, т.е. коэффициентов уравнения регрессии. Их вычисляют по выражениям
(110)
, (111)
Критерием близости корреляционной зависимости между
и
к линейной функциональной зависимости является коэффициент корреляции
. Он показывает степень линейности связи
и
:
; (112)
; (113)
, (114)
где
– число измерений;
– среднеквадратичные отклонения.
Несмотря на громоздкость формулы (112), она наиболее простая для вычислений. Значение коэффициента корреляции всегда меньше единицы. При
величины
и
связаны функциональной связью (в данном случае линейной), т.е. каждому значению
соответствует одно значение
. Если
< 1, то линейной связи не существует. При
между
и
линейной корреляционной связи не существует, однако может существовать нелинейная регрессия. Обычно считают тесноту связи удовлетворительной при
; хорошей при
.
Уравнение регрессии прямой можно представить выражением (109) или
. (115)
Пример. Имеется статистический ряд парных измерений:
Необходимо найти уравнение прямолинейной регрессии, оценить тесноту связей и оценить степень достоверности. Расчет ведем в табличной форме, (табл. 8).
Таблица 8
|
|
|
|
|
|
|
|
|
|
|
| – 4,5
– 3,5
– 2,5
– 1,5
– 0,5
0,5
1,5
2,5
3,5
4.5
| – 15
– 12
– 9
– 7
– 2
+ 3
+ 4
+ 9
+ 11
+ 18
| 20,25
12,25
6,25
2,25
0,25
0,25
2,25
6,25
16,25
20,25
|
|
|
|
| 67,5
42,0
22,5
10,5
1,0
1,5
6,0
22,5
31,5
81,0
|
|
| –
| –
| 82,50
|
|
|
|
| 86,0
|
;

Вычисляем
из (114):

Полученный коэффициент корреляции довольно высок.
Коэффициент регрессии по (115) 
Уравнение регрессии 
Определим уравнение регрессии иным способом.
Коэффициент корреляции согласно (112)

Из (110) и (111)

По (109) уравнение регрессии имеет вид 
Расчет
по полученным двум уравнениям регрессии, а также сравнение с заданными величинами, приведены в табл. 9.
Таблица 9
х
|
|
|
|
|
|
|
|
|
|
|
у
у 1
у 2
|
7,1
7,1
|
10,6
10,6
|
14,2
14,2
|
17,7
17.7
|
21,3
21,3
|
24,8
24.8
|
28,3
28,3
|
31,8
31,9
|
35,4
35,4
|
38,9
39,0
|
Как видно из расчетов, сходимость хорошая.
Пример. Необходимо исследовать выносливость горных пород (количество циклов нагружения образцов до их разрушения) в зависимости от степени их нагружения 
Составим гипотезу научного исследования. Из литературных данных известно, что усталостное разрушение материалов, в том числе и горных пород, представляет собой в значительной степени вероятностный процесс, т.е. на усталостное разрушение влияет много случайных факторов. Поэтому можно описать лишь наиболее вероятную зависимость между выносливостью горных пород и интенсивностью нагружения 
Анализ литературных источников, а также поисковый эксперимент показали, что эта зависимость может быть описана экспоненциальной зависимостью в виде
, или
,
где
– величина приложенного напряжения, Па;
– прочность горной породы при изгибе, Па, определяется в соответствии с требованиями ГОСТа;
– количество циклов нагружения
, при которых горная порода разрушается;
– коэффициенты.
Применим для этой кривой метод прямолинейной корреляции.
Поисковый эксперимент показал, что разброс показателей измерения величины
очень высок, поэтому требуемое количество образцов для получения достоверных результатов при точности измерения ± 10 % и вероятности ее получения 95 % составляет 15 образцов в одной серии.
Зависимость исследуем в пределах
Выравнивание зависимости
приводит к результату
. Учитывая, что получена прямолинейная зависимость, а усталостное разрушение в значительной степени представляет собой вероятностный процесс, в дальнейшем исследовании используем уравнение прямолинейной корреляции (115)
,
где
– численные значения логарифмов количества циклов нагружения,
;
– частные значения относительной напряженности.
Далее составляем методику основных экспериментальных исследований, в соответствии с которой проверяются эксперименты. Экспериментальные данные занесены в табл. 10, с помощью которых произвели вычисления (п =106).
Таблица 10
№ п/п
|
|
|
|
|
|
|
|
…
| 0,91
0,91
0,91
…
0,58
0,58
| 0,1854
0,1854
0,1854
…
– 0,1446
– 0,1446
| 0,0343
0,0343
0,0343
…
0,0299
0,0209
| 2,1239
2,5340
2,2553
…
5,7982
6,0000
| – 2,1239
– 2,5350
– 2,2553
…
+ 1,5289
+ 1,7302
| 4,6049
3,0151
4,0582
…
2.3360
2,9936
| – 0,3970
– 0,3212
– 0,3727
…
– 0,2216
– 0,2509
|
| 76,81
| –
| 1,8980
| 452,5988
| –
| 162,7350
| – 16,4631
|
Вычисляем:
;
;
;
. Согласно (114)
.
Таким образом, 
Полученная формула отражает наиболее вероятную связь между величинами
и
для данных конкретных условий эксперимента.