Avrupa Bilim ve Teknoloji Dergisi, cilt.32, ss.471-483, 2021 (Hakemli Dergi)
Konuşma insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Konuşmadan duygu tanıma çalışmaları, konuşma sırasında
çıkan ses sinyalinden anlam bilgisini elde etmeye çalışmaktadırlar. Son yıllarda konuşma sinyalleri üzerinden duygu analizi ile ilgili
olarak birçok çalışma yapılmıştır. Bu çalışmalarda duygu analizinde 3 önemli yön dikkate alınarak detaylı bir araştırma yapılmıştır.
Birinci konu konuşma sinyallerinden öznitelik çıkarma, ikinci konu bu özniteliklerden sınıflandırmaya olumlu katkısı olacakların
seçimi ve üçüncü konu ise sınıflandırma şemalarının tasarımı ve performans değerlendirmesidir. Özniteliklerin doğru belirlenmesi,
öznitelikler üzerinde seçme işleminin başarılı bir şekilde uygulanması performansı büyük ölçüde etkilemektedir. Ancak sesten
özniteliklerin çıkarılması, ve sınıflandırılmasında farklı yöntemler tercih edilse de performans veri setlerine, duygu durumlarına,
dillere, eğitim setinin kullanım yöntemine göre değişebilmektedir. İncelenen makaleler kapsamında sınıflandırıcı olarak en sık SVM
ve öznitelik olarak da MFCC kullanılmıştır. En yüksek tanıma oranı ise TESS veri setinde oto-kodlayıcı ve Alex-net CNN ile
sağlanmış ve %98 başarı elde edilmiştir.
Speech is one of the fastest and most natural communication methods between people. Emotion recognition studies without speech try
to obtain semantic information from the sound signal during speech. In recent years, many studies have been carried out on emotion
analysis over speech signals. In these studies, detailed research was conducted by considering 3 important aspects in sentiment
analysis. The first topic is feature extraction from speech signals, the second topic is the selection of these features that will contribute
positively to the classification, and the third topic is the design and performance evaluation of the classification schemes. The correct
determination of the features and the successful implementation of the selection process on the features greatly affect the
performance. However, although different methods are preferred in the extraction and classification of features from the voice, the
performance may vary according to the data sets, moods, languages, and the method of use of the training set. Generally, among the
articles examined, SVM was used as the classifier and MFCC was used as the feature. The highest recognition rate was achieved with
the auto-encoder, TESS dataset and Alex-net CNN and 98% success was achieved.