학술논문
음성 비식별화 모델과 방송 음성 변조의 한국어 음성 비식별화 성능 비교
이용수 61
- 영문명
- Comparison of Korean Speech De-identification Performance of Speech De-identification Model and Broadcast Voice Modulation
- 발행기관
- 한국스마트미디어학회
- 저자명
- 김승민 박대얼 최대선
- 간행물 정보
- 『스마트미디어저널』Vol12, No.2, 56~65쪽, 전체 10쪽
- 주제분류
- 공학 > 컴퓨터학
- 파일형태
- 발행일자
- 2023.03.30
4,000원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
뉴스와 취재 프로그램 같은 방송에서는 제보자의 신원 보호를 위해 음성을 변조한다. 음성 변조 방법으로 피치(pitch)를 조절하는 방법이 가장 많이 사용되는데, 이 방법은 피치를 재조절하는 방식으로 쉽게 원본 음성과 유사하게 음성 복원이 가능하다. 따라서 방송 음성 변조 방법은 화자의 신원 보호를 제대로 해줄 수 없고 보안상 취약하기 때문에 이를 대체하기 위한 새로운 음성 변조 방법이 필요하다. 본 논문에서는 Voice Privacy Challenge에서 비식별화 성능이 검증된 Lightweight 음성 비식별화 모델을 성능 비교 모델로 사용하여 피치 조절을 사용한 방송 음성 변조 방법과 음성 비식별화 성능 비교 실험 및 평가를 진행한다. Lightweight 음성 비식별화 모델의 6가지 변조 방법 중 비식별화 성능이 좋은 3가지 변조 방법 McAdams, Resampling, Vocal Tract Length Normalization(VTLN)을 사용하였으며 한국어 음성에 대한 비식별화 성능을 비교하기 위해 휴먼 테스트와 EER(Equal Error Rate) 테스트를 진행하였다. 실험 결과로 휴먼 테스트와 EER 테스트 모두 VTLN 변조 방법이 방송 변조보다 더 높은 비식별화 성능을 보였다. 결과적으로 한국어 음성에 대해 Lightweight 모델의 변조 방법은 충분한 비식별화 성능을 가지고 있으며 보안상 취약한 방송 음성 변조를 대체할 수 있을 것이다.
영문 초록
In broadcasts such as news and coverage programs, voice is modulated to protect the identity of the informant. Adjusting the pitch is commonly used voice modulation method, which allows easy voice restoration to the original voice by adjusting the pitch. Therefore, since broadcast voice modulation methods cannot properly protect the identity of the speaker and are vulnerable to security, a new voice modulation method is needed to replace them. In this paper, using the Lightweight speech de-identification model as the evaluation target model, we compare speech de-identification performance with broadcast voice modulation method using pitch modulation. Among the six modulation methods in the Lightweight speech de-identification model, we experimented on the de-identification performance of Korean speech as a human test and EER(Equal Error Rate) test compared with broadcast voice modulation using three modulation methods: McAdams, Resampling, and Vocal Tract Length Normalization(VTLN). Experimental results show VTLN modulation methods performed higher de-identification performance in both human tests and EER tests. As a result, the modulation methods of the Lightweight model for Korean speech has sufficient de-identification performance and will be able to replace the security-weak broadcast voice modulation.
목차
Ⅰ. 서론
Ⅱ. 본론
Ⅲ. 고찰 및 결론
키워드
해당간행물 수록 논문
- 머신러닝 기반 클라우드 웹 애플리케이션HTTP DoS 공격 탐지
- gradCam을 사용한 얼굴인식 신경망
- 블록체인을 위한 양자 내성의 격자 기반 블라인드 서명 기법
- 스마트미디어저널 Vol12, No.2 목차
- 머신 러닝 접근 방식을 통한 가짜 채용 탐지
- 전력계통 네트워크 통신방식 변화에 따른 사이버위협 분석 및 대응방안 제시
- Trend of Paradigm for integrating Blockchain, Artificial Intelligence, Quantum Computing, and Internet of Things
- 음성 비식별화 모델과 방송 음성 변조의 한국어 음성 비식별화 성능 비교
- 국내·국제 해시함수에 대한 양자회로 구현 비교 분석
- 메타버스 환경에서의 효율적인 사용자 인증을 위한 다중 서명 기법 연구
- 제로 트러스트 기술 동향에 관한 연구
참고문헌
관련논문
공학 > 컴퓨터학분야 BEST
- 청소년들의 스마트폰 중독예방을 위한 이야기치료 집단상담 프로그램 개발
- 지도서비스를 이용한 위치 기반 관광 빅데이터의 시각화
- 틱톡의 숏폼 콘텐츠 특성이 관광지 이미지 및 방문의도에 미치는 영향
공학 > 컴퓨터학분야 NEW
더보기최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!