Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları


Creative Commons License

ÇOLAKOĞLU E., HIZLISOY S., ARSLAN R. S.

Avrupa Bilim ve Teknoloji Dergisi, cilt.32, ss.471-483, 2021 (Hakemli Dergi)

Özet

Konuşma insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Konuşmadan duygu tanıma çalışmaları, konuşma sırasında çıkan ses sinyalinden anlam bilgisini elde etmeye çalışmaktadırlar. Son yıllarda konuşma sinyalleri üzerinden duygu analizi ile ilgili olarak birçok çalışma yapılmıştır. Bu çalışmalarda duygu analizinde 3 önemli yön dikkate alınarak detaylı bir araştırma yapılmıştır. Birinci konu konuşma sinyallerinden öznitelik çıkarma, ikinci konu bu özniteliklerden sınıflandırmaya olumlu katkısı olacakların seçimi ve üçüncü konu ise sınıflandırma şemalarının tasarımı ve performans değerlendirmesidir. Özniteliklerin doğru belirlenmesi, öznitelikler üzerinde seçme işleminin başarılı bir şekilde uygulanması performansı büyük ölçüde etkilemektedir. Ancak sesten özniteliklerin çıkarılması, ve sınıflandırılmasında farklı yöntemler tercih edilse de performans veri setlerine, duygu durumlarına, dillere, eğitim setinin kullanım yöntemine göre değişebilmektedir. İncelenen makaleler kapsamında sınıflandırıcı olarak en sık SVM ve öznitelik olarak da MFCC kullanılmıştır. En yüksek tanıma oranı ise TESS veri setinde oto-kodlayıcı ve Alex-net CNN ile sağlanmış ve %98 başarı elde edilmiştir.

Speech is one of the fastest and most natural communication methods between people. Emotion recognition studies without speech try to obtain semantic information from the sound signal during speech. In recent years, many studies have been carried out on emotion analysis over speech signals. In these studies, detailed research was conducted by considering 3 important aspects in sentiment analysis. The first topic is feature extraction from speech signals, the second topic is the selection of these features that will contribute positively to the classification, and the third topic is the design and performance evaluation of the classification schemes. The correct determination of the features and the successful implementation of the selection process on the features greatly affect the performance. However, although different methods are preferred in the extraction and classification of features from the voice, the performance may vary according to the data sets, moods, languages, and the method of use of the training set. Generally, among the articles examined, SVM was used as the classifier and MFCC was used as the feature. The highest recognition rate was achieved with the auto-encoder, TESS dataset and Alex-net CNN and 98% success was achieved.