General

Kümeleme Başarı Değerlendirme Yöntemleri

Kümeleme analizinde genel amaç birbirine benzer olan bireylerin aynı grup­ larda toplanmasıdır. Kümelerin başarısını değerlendirmek için sınıflara atanan veriler arasındaki benzerliklere ve kümeler arasındaki farklılığa bakılmaktadır. Bu bakımdan kümeler arasın­ daki benzerliği ölçmede hangi ölçünün kullanılacağı kümeleme analizinin en önemli sorunlarından birini teşkil eder.

Kümeleme yapan bir model ortaya konduktan sonra bu modelin başarısının ölçülmesi gerekmektedir. Akan veri kümeleme modellerinin başarasını ölçme yöntemleri yine klasik kümeleme yöntemlerini ölçme yöntemlerinde kullanılan yöntemlerle aynıdır. Purity Testi, F-Score, Accuracy, Rand index(RI), Adjusted Rand index(ARI) ve Silhouette index bu alanda kullanılan başlıca yöntemlerdir. Akan veri kümeleme modelini değerlendirirken bu parametrelerden sadece birini kullanmak başarıyı tam olarak ölçmek adına yeterli değildir. Bu nedenle bu parametrelerden birkaç tanesi bir arada kullanılmaktadır. 

Örneğin;

Purity-ARI, Purity-Accuracy-F-Score veya Purity-ARI- Silhouette Index parametrelerinin kullanımı oldukça yaygındır.

Akan verilerin kümelenmesinde en çok tercih edilen metrikler Purity, Rand Index ve Sum of Squarred Errors’dur. 

*SSQ ile cluster purity ise yoğunluk tabanlı kümeleme algoritmalarında en çok tercih edilen yöntemlerdir. örn(DenStream)

En çok kullanılan başarı değerlendirme yöntemleri 

Evaluation Yöntemleri
Purity
F-Score
Accuracy
Rand Index (RI)
Adjusted Rand Index (ARI)
Silhouette Index 
Sum of Squarred Errors 
Jaccard index  
Entropy
Cohesion 
Seperation

Purity, önerilen modelin yaptığı kümeleme yaklaşımının saflık derecesini hesaplar. Her küme için içerisinde barındırdığı verilerden sayısı en fazla olan verilerin toplam veri sayısına oranıdır.

purity

Accuracy kümelenen verilerin gerçekte ne kadarının doğru sınıfa atandığını bulmaya yarayan bir kümeleme başarısı değerlendirme yaklaşımıdır

Rand Index (RI), bir kümedeki verinin değerini hesaplarken o veriyi aynı kümede olan diğer verilerle ikili olarak karşılaştırır.

Silhouette index, her veri için iki uzaklığı baz alır. Bu uzaklıklardan ilki verinin bulunduğu kümeye ait diğer verilere olan uzaklıkların ortalamasıdır.

SSE, kendi içerisinde verilerin hata payını hesaplar. Verilerin hata paylarının karelerinin toplamını bulur.

Adjusted Rand Index (ARI), RI üzerinden hesaplanan bir kümeleme başarısı değerlendirme yöntemidir

Precision ve Recall en temel kümeleme başarısını değerlendirme yöntemleridir.

Jaccard index, modelin etiketlediği verileri gerçek etiketler ile karşılaştırır  iki kümenin kesişimlerinin birleşimlerine oranıdır.

F-Score Precision ve Recall değerlerinin harmonik ortalamasıdır.

Entropy,  Küme içerisindeki düzensizliğin ölçüsüdür.    

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Back to top button