Kümelemede Data Normalization Yöntemleri
Öklid uzaklık yöntemine dayalı kümeleme işlemlerinde verilerin model üzerinde eşit etki gösterebilmesi için standartlaştırma işlemi gerekmektedir. Veri ölçeklendirmede en yaygın kullanılan yöntemler min-max normalizasyonu ve z-score’ dur. Amaç, verileri ortak bir noktaya getirerek karşılaştırılabilmelerini sağlamak, veriler arasındaki büyük farkları tek bir düzene sokmaktır. Bu amaçla en sık kullanılan iki yöntem min-max ve z-score ‘dur.
Min – Max Normalizasyonu
Bu işlemde ki amaç en küçük değeri 0 ve en büyük değeri 1 olacak şekilde normalleştirmek ve diğer bütün verileri bu [0-1] aralığına yaymaktır.
Z- score
Her nitelik için ortalama değerden uzaklığa ve nitelik değerlerindeki standart sapmaya göre yeni değeri hesaplanarak veriler standartlaştırılır. Mevcut model üzerine veriler streaming olarak geldiği için öncesinde bu verinin depolanmış seti üzerinde mean ve standart sapma değerleri feature’ lar için çıkarılarak model üzerinde normalizasyon için kullanılmaktadır.
Ortalama,
Standart Sapma,
Z- Score,
X değişken , μ ortalama, σ standart sapma değeridir.