AUTOMATIC MUSIC GENRE RECOGNITION MODEL BASED ON MACHINE LEARNING


Creative Commons License

Arslan R. S.

Uluslararası Sanat ve Tasarım Araştırmaları Kongresi ve Sergisi, Niğde, Turkey, 21 - 23 June 2021, pp.1591-1598

  • Publication Type: Conference Paper / Full Text
  • City: Niğde
  • Country: Turkey
  • Page Numbers: pp.1591-1598
  • Kayseri University Affiliated: Yes

Abstract

Digital music recordings have been increasing rapidly in recent years. Keep order in large databases is not easy with this speed. It is often not possible to analyze, sort and classify this much information manually. For this reason, it is very critical to develop automated systems for processing, analyzing and classifying new recordings according to sound content. Automatic music genre recognition systems developed for this purpose are used in smart infotainment systems and online music streaming services. In this way, some personalization structures such as music suggestions, searching by music genre can be created. In the design of these models, a series of processes must be carried out, such as the inclusion of the signals received from the music in the pre-processing steps, the use of various algorithms for the production of feature vectors (MFCC, LPC, PCA etc.), the optimization of the feature vectors (encoding, standardization, under-sampling or over-sampling) and classifier model design. The aim of this study is to process the audio signal and automatically classify music genres with machine learning techniques. While the feature vector used in the model created for this purpose includes Mel-Frequency Cepstral Coefficients (MFCC), Random Forest, Extra Tree and XGBoost algorithms were used as classifier. A functional system has been developed to recognize 10 different music genres in the GTZAN dataset. According to the experimental results, the most successful performance value was achieved with the XGBoost algorithm, and the ACC, Recall, Precision and F-score values were 90.5%, 90.6%, 90.4% and 90.9%, respectively. The promising results obtained in the experiments will enable an online version of the proposed model to be developed and used in music streaming platforms in the future.

Dijital müzik kaydı son yıllarda hızlı bir şekilde artmaktadır. Büyük veri tabanlarında düzeni sağlamak bu hızla birlikte kolay olmamaktadır. Bu kadar çok bilginin manuel olarak analiz edilmesi, sıralanması ve sınıflandırılması çoğu halde mümkün değildir. Bu sebeple yeni kayıtların işlenmesi, ses içeriğine göre analiz edilmesi ve sınıflandırılması için otomatik sistemlerin geliştirilmesi oldukça kritiktir. Bu amaçla geliştirilen otomatik müzik türü tanıma sistemleri akıllı bilgi eğlence sistemleri ve çevrimiçi müzik akış hizmetlerinde kullanılmaktadırlar. Bu sayede müzik önerileri, müzik türüne göre arama gibi bir takım kişileştirme yapıları oluşturulabilmektedir. Bu modellerin tasarımında müziklerden alınan sinyallerin ön işlem süreçlerine dahil edilmesi, özellik vektörlerinin üretimi için çeşitli algoritmalardan yararlanılması (MFCC, LPC, PCA vb.), ortaya çıkan özellik vektörlerinin optimizasyonu (kodlama, veri standardizasyonu, sentetik veri üretimi veya azaltımı) ve sınıflandırıcı model tasarımı gibi bir dizi süreç yürütülmesi gerekmektedir. Bu çalışmanın amacı ses sinyalinin işlenerek makine öğrenmesi teknikleri ile müzik türlerinin otomatik olarak sınıflandırılmasıdır. Bu amaçla oluşturulan modelde kullanılan özellik vektörü mel frekans kepstral katsayıları (MFKK)’nı içerirken, sınıflandırıcı olarak RandomForest, ExtraTree ve XGBoost algoritmaları kullanılmıştır. GTZAN veri setinde bulunan 10 farklı müzik türünün tanınması için işlevsel bir sistem geliştirilmiştir. Deneysel sonuçlara göre en başarılı performans değeri XGBoost algoritması ile yakalanmış olup doğruluk, duyarlılık, kesinlik ve F-skoru değerleri sırasıyla %90,5, %90,6, %90,4, %90,9 olmuştur. Deneylerde elde edilen umut verici sonuçlar önerilen modelin çevrimiçi bir sürümünün gelecekte geliştirilerek müzik akış platformlarında kullanılması mümkün kılacaktır.