오디오북을 이용해 본 적 있는가? 바쁜 일상 속에서, 이동시간에도 편하게 책의 내용을 들으며 정보를 습득할 수 있기에 많은 사람이 오디오북을 찾는다. 그런데 오디오북을 듣다 보면 문득 ‘몇백 페이지에 달하는 그 긴 분량의 책을 사람들이 직접 다 녹음하는 것일까?’라는 의문이 들기도 한다. 물론 그런 오디오북도 있지만, 음성합성 기술을 활용함으로써 적은 녹음으로도 오디오북을 만들 수도 있다. 이러한 음성합성 기술은 단순히 오디오북을 만드는 것을 넘어, 다양한 교육 현장에서도 활용되고 있다. 이번 ‘미래교육을 잇다’에서는 음성합성 기술이 무엇이고, 어떻게 활용되는지 알아보고자 한다.
◇ 이미 우리의 생활에 녹아든 음성합성 기술
음성합성 기술은 TTS(Text-To-Speech)라고도 불리며, 녹음된 음성을 일정한 단위로 분할한 후 입력된 텍스트에 맞게 음성단위를 합쳐 읽어주는 기술이다. 음성합성 기술의 종류는 크게 4가지로, 조음 합성, 포먼트(formant) 합성, 연결합성, 통계기반 파라미터 합성이 있는데, 그중 가장 많이 쓰이는 기술은 통계기반 파라미터 합성 방법이다. 이 기술은 음성데이터로부터 조음, 발성 방식과 같은 언어적 특징을 추출한 파라미터를 모델링하여 음성을 생성하는 방식이다. 최근에는 딥러닝 기반의 음성합성 기술이 등장하여 주목받고 있다. 이 기술은 감정, 스타일 등의 표현이 가능하고 적은 녹음 분량만으로 그 사람의 목소리를 가진 음성합성기를 만들어 낼 수 있다.
이러한 음성합성 기술은 오디오북, 가수 목소리 복원, 온라인수업 영상 더빙, 시리(Siri), 빅스비(Bixby), 구글 어시스턴트(Google Assistant)와 같이 많은 분야에서 이미 사용되고 있다. 미래에는 가족의 목소리로 책을 읽어주는 등 개인화 서비스가 보급될 예정이다.
◇ 음성합성 기술, 장애인들을 위한 보조공학 기기로 활용되다
음성합성 기술은 지하철의 안내음, 스마트폰의 AI 비서 등 우리 일상 곳곳에도 쉽게 찾아볼 수 있을 정도로 대중화되었다. 이러한 음성합성 기술은 적은 녹음만으로도, 다양한 곳에서 활용할 수 있기에 구어를 사용하기에 어려움이 있거나, 시각장애와 같이 청각적 자극이 필요한 많은 분야의 장애 영역에서 어려움을 보완하는 보조공학 기기로 활용되고 있다.
대표적인 예로는 세계적인 물리학자, 영국의 스티븐 호킹의 보조기기가 있다. 그는 루게릭병으로 온몸이 마비되었고 기관지 절개수술로 목소리를 낼 수 없게 되었다. 그래서 그는 음성합성 기술로 세상과 소통하였다. ‘ACAT(Assistive Context-Aware Toolkit)’라는 소프트웨어를 통해 얼굴 근육의 미세한 움직임을 읽는 센서 기술과 스위치, 카메라, 버튼 등을 입력값으로 받고 이를 컴퓨터로 정리해서 문자를 음성으로 변환시켰다. 이처럼 음성합성 기술은 구어 사용에 어려움이 있는 장애인이 사람들과 의사소통하는 데 도움을 준다.
또 다른 예로는 시각장애인을 위한 음성합성 기술을 활용한 오디오북이 있다. 문화재청 국립문화재연구소는 2020년 10월 15일, 점자와 음성해설이 수록된 우리나라 최초의 멀티미디어형 점자감각책 <손끝으로 읽고 소리로 전하는, 천연기념물 동물 이야기>를 발간했다. 이 책에는 천연기념물로 지정된 검독수리, 두루미, 크낙새, 하늘다람쥐 등 동물 70종의 세밀화, 음성해설, 동물 소리, 동물과 관련된 민요·동요 등 여러 입체적인 소리가 삽입돼 있다. 이에 배우 이병헌과 한지민이 목소리 기부 의사를 밝혀, 인공지능 음성합성 기술을 사용하여 목소리를 재현해 냈다. 배우 이병헌의 음성은 참매와 올빼미 해설에서, 배우 한지민의 음성은 매와 사향노루 해설에서 들을 수 있다. 음성합성 기술을 활용한 오디오북은 청각 자극 및 점자 등을 통해, 시각적 학습이 어려운 사람들이 쉽고, 편하게 학습할 수 있도록 도와준다.
이처럼 음성합성 기술은 우리의 일상 영역뿐만 아니라 온라인 학습자료 제작 등 다양한 교육적 활용까지 무궁무진하다. 앞으로 음성합성기술은 더욱 발전하여 더 사람 같은 자연스러운 목소리를 구현해낼 뿐만 아니라 활용 분야를 넓혀 갈 것으로 예상된다.

