Karma Tipteki Verilerin kamila, k-Ortalamalar, k-Ortaylar ve k-Prototipler Algoritmalarıyla Kümelenmesi Üzerine Bir Uygulama


Bilgiç E.

e-Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Dergisi (elektronik), cilt.20, sa.2, ss.48-70, 2019 (Hakemli Dergi)

Özet

Kümeleme Analizi Sosyal Bilimlerden Fen Bilimlerine birçok alanda yaygın olarak kullanılan önemli bir araçtır. Kümeleme Analizini gerçekleştirebilmek için hazırlanmış pek çok algoritma mevcuttur. Günümüzde bu algoritmalarla ile ilgili olarak en çok tartışılan hususlardan ilk ikisinin karma tipteki veri setleri için hangisinin kullanılabileceği ve en iyi küme sayısının nasıl belirlenebileceği olduğu söylenebilir. Bu çalışmada farklı ölçeklerle ölçülmüş değişkenlerin değerlerini içeren veriler KAMILA algoritması ve bu algoritmadan önce kullanılagelen k-ortalamalar, k-ortaylar ve k-prototipler algoritmalarıyla kümelere ayrılacaktır. Bu doğrultuda, bir süpermarketin müşterilerine ait veriler firmanın pazarlama ile alakalı karar verme süreçlerine destek olmak amacıyla analiz edilmiştir.

Cluster Analysis is one of the crucial tools which is being used in many areas of scientific researches. As known, there are many algorithms for performing Cluster Analysis. Nowadays, the main two debates relating to these algorithms are; which one to use for mixedtype data sets and how to decide selecting the best number of clusters. In this study, KAMILA algorithm which is created very ambitiously and other algorithms used before KAMILA such as k-means, k-medoids and k-prototypes algorithms will be performed for clustering the values of different scaled variables. With this aim, a data set of a grocery store in Istanbul will be analyzed. The company has stores in different districts of Istanbul and the customers have different demographic characteristics and different purchasing behaviors. The data set provided for 999 customers includes information such as; whether the customers are purchasing the product categories that are crucial for the company's profitability and how much the total price of the purchased items are. These data were subjected to clustering analysis for customer segmentation. As a result, it is observed that KAMILA algorithm can successfully identify the customers in the segment that can be named the gold segment.