Basit Doğrusal Regresyon / Linear Regresyon
Simple linear regresyon, 2 nicel veri arasındaki ilişkiyi özetleyen istatiksel bir metoddur. Bağımsız değişkenlerin (X) değerlerini temel alarak bağımlı değişkeni (Y) tahmin etmenin bir yöntemidir. İki değişkenin doğrusal olarak birbirleri ile ilişkili olduğu varsayılmaktadır.
Basit doğrusal regresyon bize normal dağılmış, belirli bir oranda veri toplanmış iki değişken arasında doğrusal ilişki olup olmadığını test etme olanağı vermektedir.
Y bağımlı ve X bağımsız değişken olmak üzere, Y ile X değişkenleri arasındaki sebep- sonuç ilişkisini matematiksel model olarak ortaya koyan yönteme regresyon denir. Bu ilişkiyi doğrusal bir şekilde ortaya koyan bir işlev bulmaya çalışırız. Formülde basit bir doğrusal regresyon formülü verilmiştir.
Linear Regresyon;
- Hava durumu tahminlerinde
- Borsa Tahminlerinde
- Belirli bir bölgede ortalama ev fiyatlarını çıkarmada
- Bir ürüne olan talebi gösterme vb. alanlarda kullanılmaktadır.
Adım 1 : Veri Ön işleme
Veri Ön işleme adımlarının aynısını yapmamız gerekmektedir.
- Kütüphanelerin import edilmesi,
- Veri setinin yüklenmesi,
- Eksik değerlerin kontrolü,
- Veri Setinin test ve train olarak bölünmesi,
- Basit doğrusal regresyon modeli için kullanacağımız kütüphane ile özellik ölçeklendirme yapılacaktır.
Adım 2 : Basit Doğrusal Regresyon Modelinin Uygulanması (Fit)
Veri seti ile modeli eğitmek için sklearn.linear_model kütüphanesinden LinearRegression sınıfını kullanacağız. Sonra LinearRegression sınıfında bir regressor nesnesi oluşturuyoruz. Şimdi regressor nesnemizle birlikte Linear Regression sınıfının fit() metodunu kullanarak modelimizi eğitiyoruz.
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)
Adım 3 : Sonucu Tahmin Etmek
Basit linear nesnemizi oluşturup modelimizi eğittikten sonra şimdi de gözlemlerimizi, ayırdığımız x_test verilerini kullanarak tahmin edeceğiz. Daha önce oluşturduğumuz regressor nesnemizi predict() metodu ile tekrar kullanıyoruz ve çıktımızı y_pred vektörüne kaydediyoruz. Y_pred değerleri modelin bizim için tahmin ettiği değerlerdir.
Adım 4 : Görselleştirme
Son aşamamız ise sonuçlarımızın görselleştirilmesidir, Eğitim seti sonuçlarımızın saçılma grafiklerini çizmek için matplotlib.pyplot kütüphanesini ve modelimizin değerleri ne kadar yakın tahmin ettiğini görmek için test sonuçlarını kullanacağız.
import matplotlib.pyplot as plt
plt.scatter(X_train, y_train, color = ‘red’)