Лаб_7 Корреляционный анализ. Пример нахождения коэффициента корреляции

Для определения степени зависимости между несколькими показателями применяется множественные коэффициенты корреляции. Их затем сводят в отдельную таблицу, которая имеет название корреляционной матрицы. Наименованиями строк и столбцов такой матрицы являются названия параметров, зависимость которых друг от друга устанавливается. На пересечении строк и столбцов располагаются соответствующие коэффициенты корреляции. Давайте выясним, как можно провести подобный расчет с помощью инструментов Excel.

Принято следующим образом определять уровень взаимосвязи между различными показателями, в зависимости от коэффициента корреляции:

  • 0 – 0,3 – связь отсутствует;
  • 0,3 – 0,5 – связь слабая;
  • 0,5 – 0,7 – средняя связь;
  • 0,7 – 0,9 – высокая;
  • 0,9 – 1 – очень сильная.

Если корреляционный коэффициент отрицательный, то это значит, что связь параметров обратная.

Для того, чтобы составить корреляционную матрицу в Экселе, используется один инструмент, входящий в пакет «Анализ данных» . Он так и называется – «Корреляция» . Давайте узнаем, как с помощью него можно вычислить показатели множественной корреляции.

Этап 1: активация пакета анализа

Сразу нужно сказать, что по умолчанию пакет «Анализ данных» отключен. Поэтому, прежде чем приступить к процедуре непосредственного вычисления коэффициентов корреляции, нужно его активировать. К сожалению, далеко не каждый пользователь знает, как это делать. Поэтому мы остановимся на данном вопросе.


После указанного действия пакет инструментов «Анализ данных» будет активирован.

Этап 2: расчет коэффициента

Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.


Этап 3: анализ полученного результата

Теперь давайте разберемся, как понимать тот результат, который мы получили в процессе обработки данных инструментом «Корреляция» в программе Excel.

Как видим из таблицы, коэффициент корреляции фондовооруженности (Столбец 2 ) и энерговооруженности (Столбец 1 ) составляет 0,92, что соответствует очень сильной взаимосвязи. Между производительностью труда (Столбец 3 ) и энерговооруженностью (Столбец 1 ) данный показатель равен 0,72, что является высокой степенью зависимости. Коэффициент корреляции между производительностью труда (Столбец 3 ) и фондовооруженностью (Столбец 2 ) равен 0,88, что тоже соответствует высокой степени зависимости. Таким образом, можно сказать, что зависимость между всеми изучаемыми факторами прослеживается довольно сильная.

Как видим, пакет «Анализ данных» в Экселе представляет собой очень удобный и довольно легкий в обращении инструмент для определения множественного коэффициента корреляции. С его же помощью можно производить расчет и обычной корреляции между двумя факторами.

Коэффициент корреляции (или линейный коэффициент корреляции) обозначается как «r» (в редких случаях как «ρ») и характеризует линейную корреляцию (то есть взаимосвязь, которая задается некоторым значением и направлением) двух или более переменных. Значение коэффициента лежит между -1 и +1, то есть корреляция бывает как положительной, так и отрицательной. Если коэффициент корреляции равен -1, имеет место идеальная отрицательная корреляция; если коэффициент корреляции равен +1, имеет место идеальная положительная корреляция. В остальных случаях между двумя переменными наблюдается положительная корреляция, отрицательная корреляция или отсутствие корреляции. Коэффициент корреляции можно вычислить вручную, с помощью бесплатных онлайн-калькуляторов или с помощью хорошего графического калькулятора.

Шаги

Вычисление коэффициента корреляции вручную

    Соберите данные. Перед тем как приступить к вычислению коэффициента корреляции, изучите данные пары чисел. Лучше записать их в таблицу, которую можно расположить вертикально или горизонтально. Каждую строку или столбец обозначьте как «х» и «у».

    • Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Вычислите среднее арифметическое «х». Для этого сложите все значения «х», а затем полученный результат разделите на количество значений.

    • В нашем примере даны четыре значения переменной «х». Чтобы вычислить среднее арифметическое «х», сложите эти значения, а затем сумму разделите на 4. Вычисления запишутся так:
    • μ x = (1 + 2 + 4 + 5) / 4 {\displaystyle \mu _{x}=(1+2+4+5)/4}
    • μ x = 12 / 4 {\displaystyle \mu _{x}=12/4}
    • μ x = 3 {\displaystyle \mu _{x}=3}
  2. Найдите среднее арифметическое «у». Для этого выполните аналогичные действия, то есть сложите все значения «у», а затем сумму разделите на количество значений.

    • В нашем примере даны четыре значения переменной «у». Сложите эти значения, а затем сумму разделите на 4. Вычисления запишутся так:
    • μ y = (1 + 3 + 5 + 7) / 4 {\displaystyle \mu _{y}=(1+3+5+7)/4}
    • μ y = 16 / 4 {\displaystyle \mu _{y}=16/4}
    • μ y = 4 {\displaystyle \mu _{y}=4}
  3. Вычислите стандартное отклонение «х». Вычислив средние значения «х» и «у», найдите стандартные отклонения этих переменных. Стандартное отклонение вычисляется по следующей формуле:

    • σ x = 1 n − 1 Σ (x − μ x) 2 {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{n-1}}\Sigma (x-\mu _{x})^{2}}}}
    • σ x = 1 4 − 1 ∗ ((1 − 3) 2 + (2 − 3) 2 + (4 − 3) 2 + (5 − 3) 2) {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{4-1}}*((1-3)^{2}+(2-3)^{2}+(4-3)^{2}+(5-3)^{2})}}}
    • σ x = 1 3 ∗ (4 + 1 + 1 + 4) {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(4+1+1+4)}}}
    • σ x = 1 3 ∗ (10) {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(10)}}}
    • σ x = 10 3 {\displaystyle \sigma _{x}={\sqrt {\frac {10}{3}}}}
    • σ x = 1 , 83 {\displaystyle \sigma _{x}=1,83}
  4. Вычислите стандартное отклонение «у». Выполните действия, которые описаны в предыдущем шаге. Воспользуйтесь той же формулой, но подставьте в нее значения «у».

    • В нашем примере вычисления запишутся так:
    • σ y = 1 4 − 1 ∗ ((1 − 4) 2 + (3 − 4) 2 + (5 − 4) 2 + (7 − 4) 2) {\displaystyle \sigma _{y}={\sqrt {{\frac {1}{4-1}}*((1-4)^{2}+(3-4)^{2}+(5-4)^{2}+(7-4)^{2})}}}
    • σ y = 1 3 ∗ (9 + 1 + 1 + 9) {\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(9+1+1+9)}}}
    • σ y = 1 3 ∗ (20) {\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(20)}}}
    • σ y = 20 3 {\displaystyle \sigma _{y}={\sqrt {\frac {20}{3}}}}
    • σ y = 2 , 58 {\displaystyle \sigma _{y}=2,58}
  5. Запишите основную формулу для вычисления коэффициента корреляции. В эту формулу входят средние значения, стандартные отклонения и количество (n) пар чисел обеих переменных. Коэффициент корреляции обозначается как «r» (в редких случаях как «ρ»). В этой статье используется формула для вычисления коэффициента корреляции Пирсона.

    • Здесь и в других источниках величины могут обозначаться по-разному. Например, в некоторых формулах присутствуют «ρ» и «σ», а в других «r» и «s». В некоторых учебниках приводятся другие формулы, но они являются математическими аналогами приведенной выше формулы.
  6. Вы вычислили средние значения и стандартные отклонения обеих переменных, поэтому можно воспользоваться формулой для вычисления коэффициента корреляции. Напомним, что «n» – это количество пар значений обеих переменных. Значение других величин были вычислены ранее.

    • В нашем примере вычисления запишутся так:
    • ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) {\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\right)}
    • ρ = (1 3) ∗ {\displaystyle \rho =\left({\frac {1}{3}}\right)*} [ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) {\displaystyle \left({\frac {1-3}{1,83}}\right)*\left({\frac {1-4}{2,58}}\right)+\left({\frac {2-3}{1,83}}\right)*\left({\frac {3-4}{2,58}}\right)}
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) {\displaystyle +\left({\frac {4-3}{1,83}}\right)*\left({\frac {5-4}{2,58}}\right)+\left({\frac {5-3}{1,83}}\right)*\left({\frac {7-4}{2,58}}\right)} ]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) {\displaystyle \rho =\left({\frac {1}{3}}\right)*\left({\frac {6+1+1+6}{4,721}}\right)}
    • ρ = (1 3) ∗ 2 , 965 {\displaystyle \rho =\left({\frac {1}{3}}\right)*2,965}
    • ρ = (2 , 965 3) {\displaystyle \rho =\left({\frac {2,965}{3}}\right)}
    • ρ = 0 , 988 {\displaystyle \rho =0,988}
  7. Проанализируйте полученный результат. В нашем примере коэффициент корреляции равен 0,988. Это значение некоторым образом характеризует данный набор пар чисел. Обратите внимание на знак и величину значения.

    • Так как значение коэффициента корреляции положительно, между переменными «х» и «у» имеет место положительная корреляция. То есть при увеличении значения «х», значение «у» тоже увеличивается.
    • Так как значение коэффициента корреляции очень близко к +1, значения переменных «х» и «у» сильно взаимосвязаны. Если нанести точки на координатную плоскость, они расположатся близко к некоторой прямой.

    Использование онлайн-калькуляторов для вычисления коэффициента корреляции

    1. В интернете найдите калькулятор для вычисления коэффициента корреляции. Этот коэффициент довольно часто вычисляется в статистике. Если пар чисел много, вычислить коэффициент корреляции вручную практически невозможно. Поэтому существуют онлайн-калькуляторы для вычисления коэффициента корреляции. В поисковике введите «коэффициент корреляции калькулятор» (без кавычек).

    2. Введите данные. Ознакомьтесь с инструкциями на сайте, чтобы правильно ввести данные (пары чисел). Крайне важно вводить соответствующие пары чисел; в противном случае вы получите неверный результат. Помните, что на разных веб-сайтах различные форматы ввода данных.

      • Например, на сайте http://ncalculators.com/statistics/correlation-coefficient-calculator.htm значения переменных «х» и «у» вводятся в двух горизонтальных строках. Значения разделяются запятыми. То есть в нашем примере значения «х» вводятся так: 1,2,4,5, а значения «у» так: 1,3,5,7.
      • На другом сайте, http://www.alcula.com/calculators/statistics/correlation-coefficient/ , данные вводятся по вертикали; в этом случае не перепутайте соответствующие пары чисел.
    3. Вычислите коэффициент корреляции. Введя данные, просто нажмите на кнопку «Calculate», «Вычислить» или аналогичную, чтобы получить результат.

      Использование графического калькулятора

      1. Введите данные. Возьмите графический калькулятор, перейдите в режим статистических вычислений и выберите команду «Edit» (Редактировать).

        • На разных калькуляторах нужно нажимать различные клавиши. В этой статье рассматривается калькулятор Texas Instruments TI-86.
        • Чтобы перейти в режим статистических вычислений, нажмите – Stat (над клавишей «+»). Затем нажмите F2 – Edit (Редактировать).
      2. Удалите предыдущие сохраненные данные. В большинстве калькуляторов введенные статистические данные хранятся до тех пор, пока вы не сотрете их. Чтобы не спутать старые данные с новыми, сначала удалите любую сохраненную информацию.

        • С помощью клавиш со стрелками переместите курсор и выделите заголовок «xStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец xStat.
        • С помощью клавиш со стрелками выделите заголовок «yStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец уStat.
      3. Введите исходные данные. С помощью клавиш со стрелками переместите курсор в первую ячейку под заголовком «xStat». Введите первое значение и нажмите Enter. В нижней части экрана отобразится «xStat (1) = __», где вместо пробела будет стоять введенное значение. После того как вы нажмете Enter, введенное значение появится в таблице, а курсор переместится на следующую строку; при этом в нижней части экрана отобразится «xStat (2) = __».

        • Введите все значения переменной «х».
        • Введя все значения переменной «х», с помощью клавиш со стрелками перейдите в столбец yStat и введите значения переменной «у».
        • После ввода всех пар чисел нажмите Exit (Выйти), чтобы очистить экран и выйти из режима статистических вычислений.
      4. Вычислите коэффициент корреляции. Он характеризует, насколько близко данные расположены к некоторой прямой. Графический калькулятор может быстро определить подходящую прямую и вычислить коэффициент корреляции.

        • Нажмите Stat (Статистика) – Calc (Вычисления). На TI-86 нужно нажать – – .
        • Выберите функцию «Linear Regression» (Линейная регрессия). На TI-86 нажмите , которая обозначена как «LinR». На экране отобразится строка «LinR _» с мигающим курсором.
        • Теперь введите имена двух переменных: xStat и yStat.
          • На TI-86 откройте список имен; для этого нажмите – – .
          • В нижней строке экрана отобразятся доступные переменные. Выберите (для этого, скорее всего, нужно нажать F1 или F2), введите запятую, а затем выберите .
          • Нажмите Enter, чтобы обработать введенные данные.
      5. Проанализируйте полученные результаты. Нажав Enter, на экране отобразится следующая информация:

        • y = a + b x {\displaystyle y=a+bx} : это функция, которая описывает прямую. Обратите внимание, что функция записана не в стандартной форме (у = kх + b).
        • a = {\displaystyle a=} . Это координата «у» точки пересечения прямой с осью Y.
        • b = {\displaystyle b=} . Это угловой коэффициент прямой.
        • corr = {\displaystyle {\text{corr}}=} . Это коэффициент корреляции.
        • n = {\displaystyle n=} . Это количество пар чисел, которое было использовано в вычислениях.

Количественная характеристика взаимосвязи может быть получена при вычислении коэффициента корреляции.

Корреляционный анализ в Excel

Сама функция имеет общий вид КОРРЕЛ(массив1;массив2). В поле «Массив1» вводим координаты диапазона ячеек одного из значений, зависимость которого следует определить. Как видим, коэффициент корреляции в виде числа появляется в заранее выбранной нами ячейке. Открывается окно с параметрами корреляционного анализа. В отличие от предыдущего способа, в поле «Входной интервал» мы вводим интервал не каждого столбца отдельно, а всех столбцов, которые участвуют в анализе. Как видим, приложение Эксель предлагает сразу два способа корреляционного анализа.

График корреляции в excel

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Поэтому гипотеза Н0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы. 7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

Как рассчитать коэффициент корреляции в Excel

Если коэффициент равен 0, это говорит о том, что взаимосвязь между значениями отсутствует. Чтобы найти взаимосвязь между переменными и у, воспользуйтесь встроенной функцией Microsoft Excel «КОРРЕЛ». Например, для «Массив1» выделите значения у, а для «Массив2» выделите значения х. В итоге вы получите рассчитанный программой коэффициент корреляции. Далее необходимо вычислить разницу между каждым x и xср, и yср. В выбранных ячейках напишите формулы x-x, y-. Не забудьте закрепить ячейки со средними значениями. Полученный результат и будет искомым коэффициентом корреляции.

Приведенная выше формула расчета коэффициента Пирсона, показывает насколько трудоемок этот процесс если выполнять его вручную. Второе, порекомендуйте, пожалуйста, какой вид корреляционного анализа можно использовать для разных выборок с большим разбросом данных? Как мне статистически доказать достоверность отличий между группой старше 60 лет и всеми остальными?

Сделай сам: вычисление корреляций валют с использованием Excel

Мы, к примеру, используем Microsoft Excel, но подойдёт и любая другая программа, в которой можно использовать корреляционную формулу. 7.После этого выделите ячейки с данными по EUR/USD. 9.Нажмите Enter для того, чтобы высчитать коэффициент корреляции для EUR/USD и USD/JPY. Обновлять цифры каждый день не стоит (ну, разве что вы одержимы корреляциями валюты).

Вы уже сталкивались с необходимостью рассчитать степень связи двух статистических величин и определить формулу, по которой они коррелируют? Для этого я воспользовался функцией CORREL (КОРРЕЛ) — о ней есть немного информации здесь. Она возвращает степень корреляции двух диапазонов данных. Теоретически, функцию корреляции можно уточнить, если перевести ее из линейной в экспоненциальную или логарифмическую. Анализ данных и графиков корреляции позволяет улучшить ее достоверность очень существенно.

Предположим, в ячейке В2 находится сам коэффициент корреляции, в ячейке В3 — количество полных наблюдений. У Вас русскоязычный офис?Кстати, нашел и ошибку — значимость не вычисляется для отрицательных корреляций. Если обе переменные метрические и имеют нормальное распределение, то выбор сделан правильно. И, можно ли, характеризовать критерий схожести кривых лишь по одному КК?У Вас не схожесть «кривых», а схожесть двух рядов, которая в принципе может описываться кривой.

Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.

Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.

Расчет коэффициента корреляции в Excel

Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.

Значения показателей x и y:

Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:


Чтобы упростить ее понимание, разобьем на несколько несложных элементов.

Между переменными определяется сильная прямая связь.

Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:

Покажем значения переменных на графике:


Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.



Матрица парных коэффициентов корреляции в Excel

Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.

Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».


Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.



 

Возможно, будет полезно почитать: