Kümeleme Başarı Değerlendirme Yöntemleri

0 676 1 minute read

Kümeleme analizinde genel amaç birbirine benzer olan bireylerin aynı grup larda toplanmasıdır. Kümelerin başarısını değerlendirmek için sınıflara atanan veriler arasındaki benzerliklere ve kümeler arasındaki farklılığa bakılmaktadır. Bu bakımdan kümeler arasın daki benzerliği ölçmede hangi ölçünün kullanılacağı kümeleme analizinin en önemli sorunlarından birini teşkil eder.

Kümeleme yapan bir model ortaya konduktan sonra bu modelin başarısının ölçülmesi gerekmektedir. Akan veri kümeleme modellerinin başarasını ölçme yöntemleri yine klasik kümeleme yöntemlerini ölçme yöntemlerinde kullanılan yöntemlerle aynıdır. Purity Testi, F-Score, Accuracy, Rand index(RI), Adjusted Rand index(ARI) ve Silhouette index bu alanda kullanılan başlıca yöntemlerdir. Akan veri kümeleme modelini değerlendirirken bu parametrelerden sadece birini kullanmak başarıyı tam olarak ölçmek adına yeterli değildir. Bu nedenle bu parametrelerden birkaç tanesi bir arada kullanılmaktadır.

Örneğin;

Purity-ARI, Purity-Accuracy-F-Score veya Purity-ARI- Silhouette Index parametrelerinin kullanımı oldukça yaygındır.

Akan verilerin kümelenmesinde en çok tercih edilen metrikler Purity, Rand Index ve Sum of Squarred Errors’dur.

*SSQ ile cluster purity ise yoğunluk tabanlı kümeleme algoritmalarında en çok tercih edilen yöntemlerdir. örn(DenStream)

En çok kullanılan başarı değerlendirme yöntemleri

Evaluation Yöntemleri

Purity

F-Score

Accuracy

Rand Index (RI)

Adjusted Rand Index (ARI)

Silhouette Index

Sum of Squarred Errors

Jaccard index

Entropy

Cohesion

Seperation

Purity, önerilen modelin yaptığı kümeleme yaklaşımının saflık derecesini hesaplar. Her küme için içerisinde barındırdığı verilerden sayısı en fazla olan verilerin toplam veri sayısına oranıdır.

Accuracy kümelenen verilerin gerçekte ne kadarının doğru sınıfa atandığını bulmaya yarayan bir kümeleme başarısı değerlendirme yaklaşımıdır

Rand Index (RI), bir kümedeki verinin değerini hesaplarken o veriyi aynı kümede olan diğer verilerle ikili olarak karşılaştırır.

Silhouette index, her veri için iki uzaklığı baz alır. Bu uzaklıklardan ilki verinin bulunduğu kümeye ait diğer verilere olan uzaklıkların ortalamasıdır.

SSE, kendi içerisinde verilerin hata payını hesaplar. Verilerin hata paylarının karelerinin toplamını bulur.

Adjusted Rand Index (ARI), RI üzerinden hesaplanan bir kümeleme başarısı değerlendirme yöntemidir

Precision ve Recall en temel kümeleme başarısını değerlendirme yöntemleridir.

Jaccard index, modelin etiketlediği verileri gerçek etiketler ile karşılaştırır iki kümenin kesişimlerinin birleşimlerine oranıdır.

F-Score Precision ve Recall değerlerinin harmonik ortalamasıdır.

Entropy, Küme içerisindeki düzensizliğin ölçüsüdür.

Zeynep Küçük

0 676 1 minute read