Kümeleme Başarı Değerlendirme Yöntemleri
Kümeleme analizinde genel amaç birbirine benzer olan bireylerin aynı grup larda toplanmasıdır. Kümelerin başarısını değerlendirmek için sınıflara atanan veriler arasındaki benzerliklere ve kümeler arasındaki farklılığa bakılmaktadır. Bu bakımdan kümeler arasın daki benzerliği ölçmede hangi ölçünün kullanılacağı kümeleme analizinin en önemli sorunlarından birini teşkil eder.
Kümeleme yapan bir model ortaya konduktan sonra bu modelin başarısının ölçülmesi gerekmektedir. Akan veri kümeleme modellerinin başarasını ölçme yöntemleri yine klasik kümeleme yöntemlerini ölçme yöntemlerinde kullanılan yöntemlerle aynıdır. Purity Testi, F-Score, Accuracy, Rand index(RI), Adjusted Rand index(ARI) ve Silhouette index bu alanda kullanılan başlıca yöntemlerdir. Akan veri kümeleme modelini değerlendirirken bu parametrelerden sadece birini kullanmak başarıyı tam olarak ölçmek adına yeterli değildir. Bu nedenle bu parametrelerden birkaç tanesi bir arada kullanılmaktadır.
Örneğin;
Purity-ARI, Purity-Accuracy-F-Score veya Purity-ARI- Silhouette Index parametrelerinin kullanımı oldukça yaygındır.
Akan verilerin kümelenmesinde en çok tercih edilen metrikler Purity, Rand Index ve Sum of Squarred Errors’dur.
*SSQ ile cluster purity ise yoğunluk tabanlı kümeleme algoritmalarında en çok tercih edilen yöntemlerdir. örn(DenStream)
En çok kullanılan başarı değerlendirme yöntemleri
Evaluation Yöntemleri |
Purity |
F-Score |
Accuracy |
Rand Index (RI) |
Adjusted Rand Index (ARI) |
Silhouette Index |
Sum of Squarred Errors |
Jaccard index |
Entropy |
Cohesion |
Seperation |
Purity, önerilen modelin yaptığı kümeleme yaklaşımının saflık derecesini hesaplar. Her küme için içerisinde barındırdığı verilerden sayısı en fazla olan verilerin toplam veri sayısına oranıdır.
Accuracy kümelenen verilerin gerçekte ne kadarının doğru sınıfa atandığını bulmaya yarayan bir kümeleme başarısı değerlendirme yaklaşımıdır
Rand Index (RI), bir kümedeki verinin değerini hesaplarken o veriyi aynı kümede olan diğer verilerle ikili olarak karşılaştırır.
Silhouette index, her veri için iki uzaklığı baz alır. Bu uzaklıklardan ilki verinin bulunduğu kümeye ait diğer verilere olan uzaklıkların ortalamasıdır.
SSE, kendi içerisinde verilerin hata payını hesaplar. Verilerin hata paylarının karelerinin toplamını bulur.
Adjusted Rand Index (ARI), RI üzerinden hesaplanan bir kümeleme başarısı değerlendirme yöntemidir
Precision ve Recall en temel kümeleme başarısını değerlendirme yöntemleridir.
Jaccard index, modelin etiketlediği verileri gerçek etiketler ile karşılaştırır iki kümenin kesişimlerinin birleşimlerine oranıdır.
F-Score Precision ve Recall değerlerinin harmonik ortalamasıdır.
Entropy, Küme içerisindeki düzensizliğin ölçüsüdür.