hiyerarşik kümeleme ne demek?

İşte hiyerarşik kümeleme hakkında bilgi:

Hiyerarşik kümeleme, veri noktalarını gruplandırmak için kullanılan bir kümeleme algoritmasıdır. Temel amacı, veri noktaları arasındaki benzerliklere dayanarak bir hiyerarşi oluşturmaktır. Bu hiyerarşi genellikle bir dendrogram (ağaç diyagramı) şeklinde görselleştirilir.

Hiyerarşik Kümeleme Nasıl Çalışır?

Hiyerarşik kümeleme algoritmaları iki ana yaklaşıma ayrılır:

  • Yığılmacı (Agglomerative) Kümeleme: Bu yaklaşım, her veri noktasını başlangıçta kendi kümesi olarak kabul eder ve ardından en benzer kümeleri ardışık olarak birleştirerek hiyerarşiyi yukarı doğru inşa eder. Bu işlem, tüm veri noktaları tek bir kümede birleşene kadar devam eder. Bu yaklaşıma "Yığılmacı Kümeleme" de denir.
  • Bölücü (Divisive) Kümeleme: Bu yaklaşım, tüm veri noktalarını başlangıçta tek bir küme olarak kabul eder ve ardından kümeyi ardışık olarak daha küçük kümelere böler. Bu işlem, her veri noktası kendi kümesi olana kadar devam eder. Bu yaklaşıma "Bölücü Kümeleme" de denir.

Bağlantı (Linkage) Kriterleri:

Hiyerarşik kümelemede, kümelerin birbirine ne kadar benzer olduğunu belirlemek için "bağlantı kriterleri" kullanılır. Yaygın bağlantı kriterleri şunlardır:

  • Tek Bağlantı (Single Linkage): İki küme arasındaki en küçük mesafeyi (en yakın iki nokta arasındaki mesafe) kullanır.
  • Tam Bağlantı (Complete Linkage): İki küme arasındaki en büyük mesafeyi (en uzak iki nokta arasındaki mesafe) kullanır.
  • Ortalama Bağlantı (Average Linkage): İki küme arasındaki tüm nokta çiftlerinin ortalama mesafesini kullanır.
  • Merkez Bağlantı (Centroid Linkage): İki kümenin merkez noktaları arasındaki mesafeyi kullanır.
  • Ward Bağlantısı (Ward Linkage): Kümelerin varyansını en aza indirmeye çalışan bir yöntemdir.

Bu bağlantı kriterlerinin her birinin kendine özgü avantajları ve dezavantajları vardır ve hangi kriterin kullanılacağı veri setine ve hedeflenen sonuca bağlıdır.

Hiyerarşik Kümelemenin Avantajları:

  • Küme sayısını önceden belirtme gerekliliği yoktur.
  • Verilerin hiyerarşik yapısını ortaya çıkarabilir.
  • Dendrogram sayesinde farklı kümeleme çözümlerini değerlendirme imkanı sunar.
  • Yorumlanması kolaydır.

Hiyerarşik Kümelemenin Dezavantajları:

  • Büyük veri setleri için hesaplama maliyeti yüksek olabilir.
  • Geri alınamaz kümeleme kararları verebilir (bir kez birleştirilen kümeler daha sonra ayrılamaz).
  • Gürültüye ve aykırı değerlere karşı hassas olabilir.

Hiyerarşik kümeleme, özellikle veri setindeki doğal hiyerarşik ilişkileri anlamak ve farklı kümeleme çözümlerini keşfetmek istediğimiz durumlarda kullanışlı bir yöntemdir.