우리말, 그리고 사람
우리말, 그리고 사람

우리말, 그리고 사람 4차 산업혁명 시대의 말뭉치 그 쓰임에 관하여
국립국어원 언어정보과 이승재 과장, 네이버 자연어 처리 강인호 책임리더 대담

 “지금 몇 시야?”, “오늘 날씨 좀 알려 줘.” 사람의 말을 알아듣는 인공지능은 어떻게 언어를 배우는 것일까? 인공지능이 언어를 학습하는 과정에서 개발자는 어떻게 음성언어의 기술 수준을 끌어올리는 것일까? 4차 산업혁명 시대에는 우리말과 글이 인공지능과 만나 높은 부가 가치를 창출할 수 있다고 한다. 현장에서 구슬땀을 흘리고 있는 두 전문가를 만나 언어 인공지능 기술의 오늘과 내일에 관해 이야기를 나누었다.

▲ 이승재 과장

▲ 강인호 책임리더

언어 인공지능 발전을 위한 마중물, 말뭉치

<<쉼표, 마침표.>>

«쉼표, 마침표.» 만나 뵙게 되어 반갑습니다. 먼저 각자의 소개와 하고 계신 일에 관해 말씀해 주세요.

이승재

 국립국어원 언어정보과에서 말뭉치라고도 하는 국어 빅데이터 사업을 총괄하고 있습니다. ‘말뭉치’는 우리말과 글을 모아 놓은 덩이라는 뜻으로 언어 자료를 디지털 형태로 모아 놓은 것을 말합니다. 인공지능이 우리말을 읽을 수 있도록 가공한 것이지요.

강인호

 네이버에서 자연어 처리 부서를 이끌고 있습니다. 네이버 검색, 네이버 클로바(인공지능 스피커) 등 자연어 처리와 인공지능 상품을 연구하고 개발하는 일을 맡고 있습니다. 자연어 처리는 인간의 언어활동을 컴퓨터나 로봇이 묘사할 수 있도록 연구하고 구현하는 것을 말합니다. 이를 위해 컴퓨터에게 책, 대화 자료를 모은 말뭉치로 언어를 학습시키고 있습니다.

<<쉼표, 마침표.>>

인공지능이 언어를 익히는 도구가 바로 말뭉치였군요. 그렇다면 국립국어원은 언제부터 말뭉치 사업을 시작했는지, 또 현재 말뭉치 구축은 어떻게 진행되고 있는지요?

▲ 21세기 세종계획 누리집

이승재

 국립국어원은 1998년부터 10년간 ‘21세기 세종계획’이라는 국어 정보화 중장기 사업을 진행했습니다. ‘말하는 컴퓨터’를 목표로 언어 자료를 수집하기 위한 사업이었죠. 먼저 컴퓨터가 이해하는 기계 처리용 전자사전을 만드는 작업을 시작했었습니다. 이 작업과 함께 다양한 언어 자료를 모으는 말뭉치 사업도 진행했고 고유명사·전문용어 등을 모으는 사업, 방언·남북한 언어·어문 규정 등에 있는 단어를 입력하면 원하는 정보가 나오는 ‘한민족 언어 정보화’, 옛한글·한자 등을 유니코드에 넣어 활용하는 ‘문자코드표준화’ 등도 진행했었습니다. 다양한 말뭉치를 구축하고 전자사전을 개발하는 정보화 사업을 진행했고, 구축한 자료의 활용도를 높이기 위해 매해 ‘국어 정보 처리 시스템 경진 대회’도 개최했습니다.

▲ 21세기 세종계획 성과 발표회(2007. 12. 11.)

 21세기 세종계획은 2007년 종료되었고 이후 2차 사업이 필요하다는 이야기가 있었지만 이어지지 못하다 2018년 ‘국어 빅데이터 구축’ 사업을 시작하게 되었습니다. 1990년대 말에 시작한 21세기 세종계획에서 우리말을 컴퓨터가 알아듣기 위한 기초 자료를 구축하는 작업을 했다면, 알파고 등에서 사용한 심층학습 기술이 등장한 이후에 시작한 국어 빅데이터 구축 사업에서는 컴퓨터가 학습할 수 있는 매우 많은 양의 말뭉치를 확보하는 데 중점을 두게 되었습니다. 차이점이라면 21세기 세종계획 시절 한영병렬 말뭉치 작업에서는 단어 대 단어, 문장 규칙 등 정교한 분석이 필요했다면 지금은 대량의 원문과 번역문을 확보하여 원시자료로 제공하면 인공지능이 스스로 번역 방법을 습득하는 방식으로 바뀌었다는 것이지요. 외국어를 배울 때 문법을 배워 말을 익히던 방식에서 책 한 권을 통째로 외워서 말을 익히는 방식으로 바뀐 셈입니다. 2020년 8월 <모두의 말뭉치>에서 10년 치 신문 기사와 서적 등 글뿐만 아니라 인공지능 스피커, 챗봇 등 대화형 서비스를 개발하기 위한 대본, 쪽지창 대화, 일상 대화 등을 모아 18억 어절 규모의 말뭉치를 공개했습니다. 이후에는 변화하는 언어를 추척하기 위해 상시적으로 기본적인 말뭉치를 일정량을 수집하고 있고, 컴퓨터가 추론해야 하는 난도 높은 분석 말뭉치 등도 만들고 있습니다.

많은 양만큼 질 좋은 정보를 확보하는 것이 관건

<<쉼표, 마침표.>>

인공지능 개발 현장에는 말뭉치 수급이 원활하게 이뤄지고 있나요?

강인호

 인터넷상에서 접할 수 있는 문서 중 한국어로 작성된 문서의 비율은 1% 이하라고 합니다. 한국어로 된 자료가 적기 때문에 양질의 한국어 말뭉치를 구축하려면 수준이 비슷한 영어 말뭉치를 구축하는 것에 비해 시간과 노력이 10배, 100배 이상 드는 상황입니다. 일례로 영어권에서는 정부나 연구소 문서만 모아도 영어 말뭉치를 구축하는 데 필요한 자료의 양이 충족된다고 합니다. 반면 이와 비슷한 수준의 한국어 말뭉치를 구축하려면 온라인상에 있는 한국어 문서를 싹싹 모아야 합니다. 우수한 인공지능을 개발하려면 대량의 말뭉치가 필요한데 개발자들은 이와 관련해 많은 고민을 해야 합니다. 아직은 한국어 말뭉치로 인공지능을 개발하는 것이 경쟁력이 있습니다만, 영어 기반의 인공지능이나 영어로 소통하는 인공지능을 만드는 것이 더 유리해질 수도 있기 때문입니다.

 말뭉치를 구축하는 데에 방대한 자료의 양만큼 중요한 것이 질이 좋은 자료를 확보하는 것입니다. 예를 들어 권장 도서들처럼 내용이 질적으로 보장된 말뭉치로 인공지능을 학습시킨다면 규모만 큰 말뭉치로 학습하는 것보다 더 좋은 결과가 나올 겁니다.
 그런 의미에서 <모두의 말뭉치>는 교과서 내용 같은 고급 지식이 많아 현장에 꼭 필요한 자료로 쓰이고 있습니다. 이러한 어려운 상황에서도 네이버는 올해 <모두의 말뭉치>를 기초 자료로 해서 세계 최대 한국어 인공지능 언어 모델인 ‘하이퍼클로바’를 구축해서 공개했습니다.

<<쉼표, 마침표.>>

현재 국립국어원은 <모두의 말뭉치> 외에 한국어 교육을 위한 <한국어 학습자 말뭉치 나눔터>, 농인들을 위한 수어 말뭉치 등도 구축하고 있습니다. 두 말뭉치는 어떤 방식으로 활용할 수 있나요?

이승재

 한국어 학습자 말뭉치는 한국어 교육 현장에서 자료를 모은 것이기 때문에 이를 활용하면 언어 교육 분야에 자가 학습 도구를 마련할 수 있습니다. 인공지능이 한국어 도우미와 가정교사 역할을 하는 것이지요. 한국어 기초 자료를 모으는 단계에서 저작권 문제 해결과 한국어 교육 단체에서 학습자가 공부한 자료를 충분히 모은다면 가능성이 있습니다. 수어말뭉치 역시 기대됩니다. 심층학습 기술이 영상 인식기술에서 시작된 만큼 다량의 수어 영상을 확보하면 자동 수어 통역이 충분히 나올 수 있습니다. 수어 번역 역시 저작권 문제 해결과 자료 확보가 관건인데 잘 활용한다면 농인들이 개인 자동통역기를 갖게 되는 세상이 옵니다.

<<쉼표, 마침표.>>

산업 현장에서 말뭉치는 어떤 파급 효과를 낳고 있나요?

강인호

 <모두의 말뭉치>가 공개되면서 네이버뿐만 아니라 에스케이텔레콤(SKT), 카카오, 엘지, 케이티 등 인공지능을 개발하는 많은 회사에서 대용량 언어 모델 구축을 시도할 수 있게 되었습니다. 회사 규모가 크든 작든 인공지능을 만드는 업체라면 대용량 언어 모델 개발에 뛰어들고 있지요.

 최근에 네이버는 대용량 인공지능을 만들어 사내 구성원들과 공유했습니다. 이 대용량 인공지능이 지닌 가장 큰 차이점은 사람이 인공지능에게 많은 설명을 하지 않아도 인공지능이 필요한 작업을 알아서 처리한다는 것입니다. 예를 들어 프로그램 언어나 인공지능을 모르는 일반인도 몇 가지 사용례만 입력해서 이 인공지능에게 자연어 처리를 시킬 수도 있습니다. 빅데이터 덕분에 수고가 줄어든 것이죠. 실제로 다양한 산업에서 인공지능이 인간의 일을 돕고 있으며 아이티(IT) 분야의 오픈에이아이(OpenAI)가 개발한 코파일럿(copilot)이라는 인공지능 도구가 그 예입니다. 개발자가 직접 코딩을 하지 않고 작성하고 싶은 내용을 말이나 글로 입력하면 인공지능이 해당 내용을 수행할 수 있는 프로그램을 만들어 냅니다. 앞으로 말뭉치를 이용한 인공지능 기술이 실무 현장에서 더 널리 활용될 것으로 기대하고 있습니다.

공공 기관과 민간 기업이 손잡고 만드는 미래

<<쉼표, 마침표.>>

두 분의 이야기를 듣다 보니 언어 정보 자원을 수집하고 발전시키는 일은 공공 기관과 민간 기업의 협력이 중요한 것 같습니다.

이승재

 국립국어원이 올해 본격적으로 준비하고 있는 사업 중 하나가 '인공지능의 한국어 능력 평가'입니다. 사람이 시험을 보는 것처럼 인공지능도 한국어 능력을 평가할 수 있게 하려는 것이지요. 이 사업은 인공지능을 개발하고 있는 업체에서 자사 제품의 한국어 능력 검증이 필요하다는 의견을 반영해 기획하게 됐습니다. 8월 말부터 본격적인 사업을 시작해 올해 안으로 대회를 개최해 우수한 한국어 능력을 갖춘 작품에 시상도 할 계획입니다. 또 내년 이후에는 기업이나 개인 누구나 자신이 만든 언어 지능을 평가해 볼 수 있도록 시스템 지원 환경을 보완할 생각입니다. 인공지능 관련 기술은 발전 속도가 굉장히 빠릅니다. 국립국어원이 진행하는 말뭉치 수요 파악 등에 민간 기업이 적극적으로 의견을 주고받을 수 있는 관계가 된다면 사업 계획을 세우는 데 큰 도움이 될 것 같습니다.

강인호

 기반 기술이 풍부하면 인공지능 수준 역시 높아집니다. 무엇보다도 기업에게는 양질의 말뭉치를 확보하는 것이 중요합니다. 그동안 국립국어원, 언론사 등으로부터 인공지능 개발에 필요한 말뭉치와 자료를 받았는데 더 많은 곳에서 말뭉치 개발의 취지에 공감해 자료를 제공해 주면 좋겠습니다. 또 이러한 말뭉치를 활용할 수 있는 전문 인력의 수준이 올라갈 수 있게 환경이 갖춰진다면, 인공지능 산업 전반이 발전하는 계기가 될 것입니다.

<<쉼표, 마침표.>>

공상 과학 영화에는 인간과 교류하는 인공지능들이 등장하는데, 이런 일이 실제로 가능할까요?

이승재

 작년 여름 국립국어원이 <말뭉치 지식 강연회>를 열었습니다. 민규동 영화감독, 주성철 평론가 두 분이 <말대꾸를 시작한 인공지능>이라는 제목으로 영화 몇 편을 소개해 주셨습니다. <에이아이>에는 인간처럼 감정을 느끼는 인공지능 데이비드가 나오고, <로봇 앤 프랭크>에는 농담과 유머를 주고받는 건강 관리 로봇 VGC-60L이 나오죠. 둘 다 감정 분석 말뭉치(인간의 감정을 정보로 반영)와 같은 고난도 분석 자료를 학습해야 가능한 인공지능입니다. 특히 VGC-60L은 현재 인공지능 기술이 최종적으로 구현할 수 있을 것으로 여기는 개인 비서 로봇으로 등장하지요. 인공지능을 소재로 한 공상 과학 영화를 보면 허구라고 느껴질 정도로 현재 기술과는 격차가 상당히 있지만 결국 미래 언젠가는 영화 속 이야기가 현실이 되리라 생각합니다.

▲ 말뭉치 지식 강연회 요약 영상

강인호

 개발자라면 아마 영화 <허(Her)>에 나오는 서맨사 같은 인공지능을 만들고 싶을 겁니다. 사람이 좋아하는 인공지능, 참 매력적이죠. 저는 영화 <슈퍼맨>에서 슈퍼맨과 슈퍼맨의 친아버지를 연결하는 수정 장치와 같은 인공지능 모델을 만들고 싶습니다. 슈퍼맨이 고민이 있을 때마다 수정 장치를 연결해 돌아가신 친아버지를 소환해 대화하잖아요. 인류에 지대한 영향을 미친 철학자 또는 과학자의 대화, 목소리, 일대기 등 몇십 년의 자료를 저장해 둔다면 나중에 그분이 돌아가시더라도 목소리와 지식을 재현한 인공지능으로 현재의 문제에 대해서 의견을 구하는 것이 가능하지 않을까. 지금 당장은 힘들겠지만 몇십 년이 지나면 가능하지 않을까요?