본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델

이용수 24

영문명
RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC
발행기관
한국스마트미디어학회
저자명
임현택 김수형 이귀상 양형정
간행물 정보
『스마트미디어저널』Vol12, No.5, 28~35쪽, 전체 8쪽
주제분류
공학 > 컴퓨터학
파일형태
PDF
발행일자
2023.06.30
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량 심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도 간 trade-off를 계산하는 지표를 제안하였다.

영문 초록

In this study, we propose a new light-weight model RoutingConvNet with fewer parameters to improve the applicability and practicality of speech emotion recognition. To reduce the number of learnable parameters, the proposed model connects bidirectional MFCCs on a channel-by-channel basis to learn long-term emotion dependence and extract contextual features. A light-weight deep CNN is constructed for low-level feature extraction, and self-attention is used to obtain information about channel and spatial signals in speech signals. In addition, we apply dynamic routing to improve the accuracy and construct a model that is robust to feature variations. The proposed model shows parameter reduction and accuracy improvement in the overall experiments of speech emotion datasets (EMO-DB, RAVDESS, and IEMOCAP), achieving 87.86%, 83.44%, and 66.06% accuracy respectively with about 156,000 parameters. In this study, we proposed a metric to calculate the trade-off between the number of parameters and accuracy for performance evaluation against light-weight.

목차

Ⅰ. 서론
Ⅱ. 관련연구
Ⅲ. 양방향 MFCC를 이용한 경량 RoutingConvNet
Ⅳ. 실험 및 결과
Ⅴ. 결론
REFERENCES

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

임현택,김수형,이귀상,양형정. (2023).RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델. 스마트미디어저널, 12 (5), 28-35

MLA

임현택,김수형,이귀상,양형정. "RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델." 스마트미디어저널, 12.5(2023): 28-35

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제