학술논문
언어장애인의 스마트스피커 접근성 향상을 위한 개인화된 음성 분류 기법
이용수 52
- 영문명
- Personalized Speech Classification Scheme for the Smart Speaker Accessibility Improvement of the Speech-Impaired people
- 발행기관
- 한국스마트미디어학회
- 저자명
- 이승권 전광일 최우진
- 간행물 정보
- 『스마트미디어저널』Vol11, No.11, 17~24쪽, 전체 8쪽
- 주제분류
- 공학 > 컴퓨터학
- 파일형태
- 발행일자
- 2022.12.31
4,000원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
음성인식 기술과 인공지능 기술을 기반으로 한 스마트스피커의 보급으로 비장애인뿐만 아니라 시각장애인이나 지체장애인들도 홈 네트워크 서비스를 연동하여 주택의 전등이나 TV와 같은 가전제품을 음성을 통해 쉽게 제어할 수 있게 되어 삶의 질이 대폭 향상되었다. 하지만 언어장애인의 경우 조음장애나 구음장애 등으로 부정확한 발음을 하게 됨으로서 스마트스피커의 유용한 서비스를 사용하는 것이 불가능하다. 본 논문에서는 스마트스피커에서 제공되는 기능 중 일부 서비스를 대상으로 언어장애인이 이용할 수 있도록 개인화된 음성분류 기법을 제안한다. 본 논문에서는 소량의 데이터와 짧은 학습시간으로도 언어장애인이 구사하는 문장의 인식률과 정확도를 높여 스마트스피커가 제공하는 서비스를 실제로 이용할 수 있도록 하는 것이 목표이다. 본 논문에서는 ResNet18 모델을 fine tuning하고 데이터 증강과 one cycle learning rate 최적화 기법을 추가하여 적용하였으며, 실험을 통하여 30개의 스마트스피커 명령어 별로 10회 녹음한 후 3분 이내로 학습할 경우 음성분류 정확도가 95.2% 정도가 됨을 보였다.
영문 초록
With the spread of smart speakers based on voice recognition technology and deep learning technology, not only non-disabled people, but also the blind or physically handicapped can easily control home appliances such as lights and TVs through voice by linking home network services. This has greatly improved the quality of life. However, in the case of speech-impaired people, it is impossible to use the useful services of the smart speaker because they have inaccurate pronunciation due to articulation or speech disorders. In this paper, we propose a personalized voice classification technique for the speech-impaired to use for some of the functions provided by the smart speaker. The goal of this paper is to increase the recognition rate and accuracy of sentences spoken by speech-impaired people even with a small amount of data and a short learning time so that the service provided by the smart speaker can be actually used. In this paper, data augmentation and one cycle learning rate optimization technique were applied while fine-tuning ResNet18 model. Through an experiment, after recording 10 times for each 30 smart speaker commands, and learning within 3 minutes, the speech classification recognition rate was about 95.2%.
목차
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 언어장애인을 위한 개인화된 음성모델 학습
Ⅳ. 실험 및 결과
Ⅴ. 결론
REFERENCES
키워드
해당간행물 수록 논문
- 보안 점검 목록을 효율적으로 관리하기 위한 머신러닝 기반의 보안 점검 항목 분류
- Jetson Nano와 3D프린터를 이용한 인공지능 교육용 키트 제작
- Data-Driven Approach for Lithium-Ion Battery Remaining Useful Life Prediction: A Literature Review
- 빅데이터 기반의 도시정보·대중교통 접근성 분석 플랫폼 구축 방안에 관한 연구
- SoC 환경에서 TIDL NPU를 활용한 딥러닝 기반 도로 영상 인식 기술
- 3D프린터와 아두이노를 활용한 교육용 휴머노이드 로봇
- 언어장애인의 스마트스피커 접근성 향상을 위한 개인화된 음성 분류 기법
- 베이스보드 매니지먼트 컨트롤러를 위한 부팅 과정 프로파일링 도구
- 딥러닝을 이용한 직물의 결함 검출에 관한 연구
- 스마트미디어저널 Vol11, No.11 목차
- 오픈 플랫폼 호환 지능형 IoT 컴포넌트 자동 생성 도구
참고문헌
관련논문
공학 > 컴퓨터학분야 BEST
- 청소년들의 스마트폰 중독예방을 위한 이야기치료 집단상담 프로그램 개발
- 지도서비스를 이용한 위치 기반 관광 빅데이터의 시각화
- 광역 대중교통 접근성 향상이 관광 및 지역경제 활성화에 미치는 효과 분석
공학 > 컴퓨터학분야 NEW
- bOTP: 이더리움 블록체인의 최신 블록 해시를 활용한 이중-요소 기반의 예측 불가능한 OTP
- AES 암호화를 이용한 파일 보호 기법
- 실무 기반 3D 치아 스캔 데이터 세분화를 위한 딥러닝 모델 성능 평가: MeshSegNet과 DilatedToothSegNet 모델 활용
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!