logo
1Геометрична інтерпретація задачі лінійного про

Множинні коефіцієнти кореляції

Для визначення тісноти зв’язку між поточною k-ю змінною і змінними, що залишились, використовується вибірковий множинний коефіцієнт кореляції: де D - визначник матриці парних коефіцієнтів кореляції. Для перевірки статистичної значущості коефіцієнта множинної кореляції використовується величина: що має F-розподіл з L і (n-L-2) рівнями волі відповідно. Якщо розраховане F-значення більше значення F-розподілу на відповідному рівні імовірності (0.9 і вище), то гіпотеза про лінійний зв'язок між k-ю змінною і рештою змінних не заперечується. У програмі для кожного коефіцієнта множинної кореляції виводиться F-значення і процентна точка F-розподілу, яка йому відповідає.

Коефіцієнт кореляції може бути обчислений  також за формулою:

 – середній добуток ознак х та у;

– середнє значення ознаки відповідно х і у;

х – середнє квадратичне відхилення ознаки х; ?у – середнє квадратичне

відхилення ознаки у.

Коефіцієнт кореляції на відміну від коефіцієнта коваріації є вже не абсолютною, а відносною мірою зв’язку між двома ознаками, тому він може набувати значення від -1 до +1. Чим ближче значення r до ±1, тим щільніший зв’язок. Знак “+” вказує на прямий, а знак “-“ – на зворотний зв’язок. При r=0 зв’язок відсутній. Поряд з коефіцієнтом кореляції використовується ще один критерій, за допомогою якого також вимірюється щільність зв’язку між двома або більше показниками та перевіряється адекватність (відповідність) побудованої регресійної моделі реальній дійсності. Тобто дається відповідь на запитання, чи дійсно зміна значення у лінійно залежить саме від зміни значення х, а не відбувається під впливом різних випадкових факторів. Таким критерієм є коефіцієнт детермінації. Щоб пояснити, що саме являє собою коефіцієнт детермінації та як він пов’язаний з коефіцієнтом кореляції, розглянемо питання про декомпозицію дисперсій. У статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи з регресійної прямої. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або не пояснюваним відхиленням. Загальне відхилення розкладається на дві складові: = + Піднесемо ці різниці до квадрату і просумуємо для всіх одиниць спостереження. Одержимо: - загальна сума квадратів - сума квадратів, що пояснює регресію; - сума квадратів помилок. Справедливий такий вираз: = + . Поділивши цей вираз на п, отримаємо вираз для дисперсій: + , де - загальна дисперсія ознаки у; - дисперсія, що пояснює регресію; - дисперсія помилок. Таким чином ми здійснили декомпозицію дисперсії, тобто розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини). Запишемо це у такому вигляді: Поділимо обидві частини на загальну дисперсію і отримаємо: У цьому виразі перша частина – це частка дисперсії, що пояснюється регресією, а друга – частка помилок в загальній дисперсії. Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається r2. Коефіцієнт детермінації використовується як критерій адекватності моделі, бо є мірою пояснювальної сили незалежної змінної х. Коефіцієнт детермінації визначається за формулою: , або Коефіцієнт детермінації завжди позитивний і перебуває в межах від нуля до одиниці. Він показує, яка частка коливань результативної ознаки y зумовлена коливанням факторної ознаки х. Формула для вычисления коэффициента детерминации:

где yi — наблюдаемое значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии   -средне арифметическое зависимой переменной.