Skip to main content

Kümeleme Başarı Değerlendirme Yöntemleri

Kümeleme analizinde genel amaç birbirine benzer olan bireylerin aynı grup­ larda toplanmasıdır. Kümelerin başarısını değerlendirmek için sınıflara atanan veriler arasındaki benzerliklere ve kümeler arasındaki farklılığa bakılmaktadır. Bu bakımdan kümeler arasın­ daki benzerliği ölçmede hangi ölçünün kullanılacağı kümeleme analizinin en önemli sorunlarından birini teşkil eder.

Kümeleme yapan bir model ortaya konduktan sonra bu modelin başarısının ölçülmesi gerekmektedir. Akan veri kümeleme modellerinin başarasını ölçme yöntemleri yine klasik kümeleme yöntemlerini ölçme yöntemlerinde kullanılan yöntemlerle aynıdır. Purity Testi, F-Score, Accuracy, Rand index(RI), Adjusted Rand index(ARI) ve Silhouette index bu alanda kullanılan başlıca yöntemlerdir. Akan veri kümeleme modelini değerlendirirken bu parametrelerden sadece birini kullanmak başarıyı tam olarak ölçmek adına yeterli değildir. Bu nedenle bu parametrelerden birkaç tanesi bir arada kullanılmaktadır. 

Örneğin;

Purity-ARI, Purity-Accuracy-F-Score veya Purity-ARI- Silhouette Index parametrelerinin kullanımı oldukça yaygındır.

Akan verilerin kümelenmesinde en çok tercih edilen metrikler Purity, Rand Index ve Sum of Squarred Errors’dur. 

*SSQ ile cluster purity ise yoğunluk tabanlı kümeleme algoritmalarında en çok tercih edilen yöntemlerdir. örn(DenStream)

En çok kullanılan başarı değerlendirme yöntemleri 

Evaluation Yöntemleri
Purity
F-Score
Accuracy
Rand Index (RI)
Adjusted Rand Index (ARI)
Silhouette Index 
Sum of Squarred Errors 
Jaccard index  
Entropy
Cohesion 
Seperation

Purity, önerilen modelin yaptığı kümeleme yaklaşımının saflık derecesini hesaplar. Her küme için içerisinde barındırdığı verilerden sayısı en fazla olan verilerin toplam veri sayısına oranıdır.

Accuracy kümelenen verilerin gerçekte ne kadarının doğru sınıfa atandığını bulmaya yarayan bir kümeleme başarısı değerlendirme yaklaşımıdır

Rand Index (RI), bir kümedeki verinin değerini hesaplarken o veriyi aynı kümede olan diğer verilerle ikili olarak karşılaştırır.

Silhouette index, her veri için iki uzaklığı baz alır. Bu uzaklıklardan ilki verinin bulunduğu kümeye ait diğer verilere olan uzaklıkların ortalamasıdır.

SSE, kendi içerisinde verilerin hata payını hesaplar. Verilerin hata paylarının karelerinin toplamını bulur.

Adjusted Rand Index (ARI), RI üzerinden hesaplanan bir kümeleme başarısı değerlendirme yöntemidir

Precision ve Recall en temel kümeleme başarısını değerlendirme yöntemleridir.

Jaccard index, modelin etiketlediği verileri gerçek etiketler ile karşılaştırır  iki kümenin kesişimlerinin birleşimlerine oranıdır.

F-Score Precision ve Recall değerlerinin harmonik ortalamasıdır.

Entropy,  Küme içerisindeki düzensizliğin ölçüsüdür.    

Bir önceki yazımız olan Apache Hadoop Nedir? başlıklı makalemizde apache, hadoop ve hdfs hakkında bilgiler verilmektedir.

Zeynep Küçük

Hi, I’m Zeynep I am studying in computer engineering in Samsun. I love to share and write about anything that interests me in tech, so welcome on my blog. I’d be really glad to get in touch with you! Don’t forget you can always contact me by email for any inquiries.Follow me on social media.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.

error: Content is protected !!