Çukurova Üniversitesi Mühendislik Fakültesi dergisi, cilt.38, sa.3, ss.739-750, 2023 (Hakemli Dergi)
Müzik türü tanıma, müzik seçimi, sınıflandırma, öneri ve kişisel liste oluşturma gibi farklı görevler için
bilgi-eğlence araçlarında ve müzik akışı servis sağlayıcılarında ana sorunlardan biridir. Otomatik tür tanıma
sistemleri, farklı müzik tabanlı sistemler, özellikle farklı müzik platformları için yararlı olabilir. Bu sebeple bu çalışmada makine öğrenmesi kullanılarak müzik türlerinin sınıflandırılması amaçlanmıştır. Bu
kapsamda 10 sınıftan oluşan GTZAN veri seti kullanılmıştır. Bu veri setinde, segmentasyon ile veri
büyütme uygulanmıştır. 30 saniyelik her kayıt 10 parçaya bölünerek veri kümesindeki örnek sayısı 10 kat
artırılmıştır. Daha sonra da ses sinyallerinden öznitelikler çıkarılmıştır. Ortaya çıkan öznitelikler, renk,
uyum, mel frekansı kepstral katsayıları, algılayıcı, kök kare ortalama, yuvarlama, spektral merkez, tempo
ve sıfır geçiş oranıdır. Elde edilen özniteliklerin türleri, varyansları ve ortalamaları kullanılmıştır. Böylece
57 öznitelik elde edilmiştir. Bu öznitelik seti, ondalık bölümün sınırlandırılması, standardizasyon ve etiket
kodlaması ile önceden işlenmiştir. Son adımda ise farklı makine öğrenmesi yöntemleri ile sınıflandırma
yapılmış ve sonuçlar karşılaştırılmıştır. Extra Tree modelinde hiperparametre optimizasyonu sonucunda
%92,3 performans elde edilmiştir. Kesinlik, hatırlama ve f-skoru değerleri sırasıyla %92,4, %92,3 ve
%92,3'tür. Sonuçta, müzik türü tanımada verimli ve yüksek başarıma sahip bir model ortaya çıkarılmıştır.
Music genre recognition is one of the main problems in infotainment tools and music streaming service
providers for different tasks such as music selection, classification, recommendation, and personal list
creation. Automatic genre recognition systems can be useful for different music-based systems, especially
different music platforms. Therefore, this study aimed to classify music genres using machine learning. In
this context, GTZAN dataset consisting of 10 classes was used. In this dataset, data augmentation was
applied by segmentation. Each record of 30 seconds was divided into 10 parts, increasing the number of
samples in the dataset by a factor of 10. Then, features were extracted from the audio signals. The resulting
features are chroma, harmony, mel frequency cepstral coefficients, perceptr, root mean square, roll-off,
spectral centroid, tempo, and zero crossing rate. The types, variances, and averages of the obtained features
were used. Thus, 57 features were obtained. This feature set was pre-processed by delimiting the decimal
part, standardization, and label encoding. In the last step, classification was made with different machine
learning methods and the results were compared. As a result of hyperparameter optimization in the Extra
Tree model, 92.3% performance was achieved. Precision recall and f-score values are 92.4%, 92.3%, and
92.3%, r