неділю, 28 жовтня 2018 р.

Лінійна регресія в R

Загальний формат для лінійної моделі:
response~op1 term1 op2 term 2 op3 term 3…
де term — об’єкт або послідовність об’єктів, op — оператор, такий як +, -, що вказує як term буде включений у модель. Таблиця нижче включає деякі корисні приклади. Запримітьте, що математичні символи в колонці "Синтаксис" використовуються для визначення моделі, а не в в їхньому нормальному розумінні.

Приймемо, що Y - залежна змінна, A,B,C - незалежні змінні, що можуть впливати на Y. b1,b2, b3 - коефіцієнти моделі, що розраховуються.


Синтаксис
Модель
Коментарі
Y~A
Y=b0+b1A
Пряма лінія із неявно вказаним перетином осі y.
Y~-1+A
Y=b0+b1A+b2A
Пряма лінія без перетину осі y, тобто підігнана лінія проходитиме через (0,0)
Y~A+I(A^2)
Y=b0+b1A+b2A2
Поліномна модель, функція I() – дозволяє в модель включати нормальні математичні символи.
Y~A+B
Y=b0+b1A+b2B
Модель першого порядку, без взаємодії незалежних змінних
Y~A:B
Y=b0+b1AB
Модель, що містить лише взаємодії першого порядку між A та B
Y~A*B
Y=b0+b1A+b2B+b3AB
Повна модель першого порядку, еквівалентний код: Y~A+B+A:B
Y~(A+B+C)^2
Y=b0+b1A+b2B+b3C+b4AB+b5AC+b6AC
Модель, що включає всі явища першого порядку та взаємодії до n-го порядку, де n задається як ()^n. Еквівалентний вираз:
  Y~A*B*C-A:B:C.

Базовий синтаксис для розрахунку моделі в R методом найменших квадратів:
lm(Y~model)
де Y – об’єкт, що містить залежну змінну, що буде прогнозуватися, а model – це формула для вибраної математичної моделі (див. таблицю вище). Одержати сукупну інформацію про модель можна за допомогою функції summary().
mymodel=lm(Y~A)
summary(mymodel)
в результаті буде виведена інформацію про вид моделі та статистичні оцінки моделі.

Перевірити модель на нових даних можна з допомогою функції predict()

Джерело:
* Using R for Linear Regression