Avrupa Bilim ve Teknoloji Dergisi, vol.24, pp.176-183, 2021 (Peer-Reviewed Journal)
In this study, an architecture called Convolutional Long Short-term memory deep neural network (CLDNN) based on deep learning, which has not been used before in this field, is used for music genre classification. In addition, a new Turkish Music Database consisting of 200 music belonging to various music genres has been created. The classification performance of the proposed architecture and commonly used machine learning methods has been evaluated on this database. In addition, new features are obtained by using Convolutional Neural Network (CNN), which is the first part of this architecture. Both Mel Frequency Cepstrum Coefficients (MFCC) and log mel filterbank energies were used as input to the Convolutional Neural Network to obtain these new features. In addition to these features, many standard features have been obtained by using various toolboxes. The most successful classification results for all methods are achieved when standard features are used together with new features. The best results among the compared classifiers were achieved with 99.5% by using the remaining part of the proposed architecture, Long Short Term Memory (LSTM), together with the Deep Neural Network (DNN) consisting of fully connected layers.
Bu çalışmada, müzik türü sınıflandırma yapmak için bu alanda daha önce kullanılmamış derin öğrenmeye dayalı Evrişimli Uzun Kısa süreli bellek derin sinir ağı (CLDNN) adı verilen bir mimari kullanılmıştır. Ayrıca çeşitli müzik türlerine ait 200 müzikten oluşan yeni bir Türkçe Müzik Veritabanı oluşturulmuştur. Önerilen mimarinin ve yaygın olarak kullanılan makine öğrenme metotlarının sınıflandırma performansı oluşturulan bu veri tabanı üzerinde değerlendirilmiştir. Ek olarak, kullanılan bu mimarinin ilk kısmını oluşturan Evrişimli Sinir Ağı (CNN) kullanılarak, yeni öznitelikler elde edilmiştir. Bu yeni öznitelikleri elde etmek için Evrişimli Sinir Ağı’na girdi olarak hem Mel Frekansı Kepstrum Katsayıları (MFCC) hem de log mel filtre bankası enerjileri kullanıldı. Bu özniteliklere ek olarak çeşitli araçlar kullanılarak çok sayıda standart öznitelik elde edilmiştir. Bütün metotlar için en başarılı sınıflandırma sonuçlarına standart özniteliklerle yeni öznitelikler bir arada kullanıldığında ulaşılmıştır. Karşılaştırılan sınıflandırıcılar içerisinde en iyi sonuçlara ise %99,5 ile önerilen mimarinin kalan kısmı olan Uzun Kısa Süreli Bellek (LSTM) ile tam bağlantılı katmanlardan oluşan Derin Sinir Ağı (DNN) birleşimi ile ulaşılmıştır.