• 홈
  • 화살표
  • 국어 배우기
  • 화살표
  • 뭉치가 알려주는 국어 말뭉치
책 그림
  •  
    뭉치가 알려주는 국어 말뭉치
  • 인공지능은 나쁜 말을
    구분할 수 있을까?

  • 국립국어원 언어정보과 학예연구사 유희정

 국립국어원은 선진국과의 언어 처리 기술 격차를 줄이고, 새싹 기업들의 기술 개발을 지원하기 위하여 2018년부터 인공지능 기술 개발용 학습 자료로서의 대규모 말뭉치를 구축하고 있으며, 2022년 현재 약 22억 어절 규모의 말뭉치를 ‘모두의 말뭉치(http://corpus.korean.go.kr)’ 누리집을 통해 일반에 공개하고 있다.

img1

 인공지능의 한국어 처리 기술을 혁신하기 위해서는 한국어로 된 대량의 기초 학습 자료를 확보해야 한다. 국립국어원에서는 신문, 도서, 방송, 강연 자료 등 공적인 언어생활을 반영하는 자료 외에도, 일반 참여자를 모집하여 사적인 언어생활에서의 자료도 함께 수집한다. 사적인 상황에서 수집된 언어 자료의 예로는 일상 대화 음성·전사 자료, 메신저 대화 자료, 글쓰기 자료, 블로그, 게시판, 트위터, 인스타그램 등의 게시글을 모은 웹 자료 등이 있다. 이러한 자료들은 국립국어원에서 제공하는 다른 언어 자료와 마찬가지로 인공지능 기술 개발 및 연구에 활용하는 데 제한이 없도록 저작권자와 저작권 이용 허락 동의 계약을 체결하였으며, 자료를 제공한 개인을 특정할 수 없도록 개인 정보 비식별화 작업을 수행하였다. 개인의 사적인 대화가 담긴 자료들에서의 개인 정보 비식별화는 윤리적인 문제와도 관련되는 것이기 때문에 특히 주의해야 한다.

img1

 2021년 초에 한 인공지능 대화 모델에서 불거진 논란은 인공지능의 기술 개발에서 주의해야 할 ‘인공지능 윤리’의 문제를 대두시키는 계기가 되었다. 이 모델이 학습한 자료는 개인의 사적인 메신저 대화 자료로, 수집 및 이용 과정에서 제공자의 동의를 받지 않았으며 이름, 휴대전화 번호, 주소 등의 개인 정보를 삭제하거나 암호화하는 처리를 거치지 않았다. 또한 이 인공지능 대화 모델은 이용자들과 대화하는 과정에서 혐오, 차별적인 발언을 생성하여 대화 내용의 유해성 등이 논란이 되었다. 이는 ‘인공지능 윤리’에 대한 사회적인 차원의 논의로 확대되었다.

 인공지능용 학습 자료로서의 적정성, 인공지능 모델이 생성한 대화 내용의 적절성에 대하여 사회적인 담론이 형성되면서, 국립국어원 ‘모두의 말뭉치’에서 제공하는 메신저 대화에 포함된 일부 대화의 부적절성에 대하여 문제가 제기되었다. 모두의 말뭉치에서 제공하는 메신저 말뭉치는 인공지능 기술 개발 및 언어 연구를 위한 목적으로 사용될 수 있도록 대화 제공자뿐 아니라 대화 참여자 모두에게 저작권 이용 허락 동의를 받았으며, 개인을 특정할 수 있는 개인 정보는 비식별화하였다. 인공지능을 학습시키고, 온라인에서 나타나는 언어 양상을 연구하기 위해서는 실제 언어생활을 반영하는 생생한 대화 자료를 구축하는 것이 필요하다. 내용상 지나치게 선정적이거나 범죄 모의 등 반사회적인 내용이 포함된 대화는 구축 대상에서 제외하였으나, 언어 연구와 인공지능 학습에서의 효용성을 고려하여 일부 비속어의 사용은 자연스러운 언어 습관의 한 부분으로 간주하고 정제하지 않았다. 그러나 이러한 표현들이 포함된 일부 대화가 인공지능 학습용으로 적절한가에 대하여 논란이 일었다.

 논란이 된 것이 개인의 사적인 언어생활 자료가 포함된 말뭉치였기 때문에, 문제가 제기된 메신저 말뭉치 이외에도 구어 말뭉치, 웹 말뭉치의 배포를 중단하였다. 지속적으로 말뭉치를 구축하고 연구하기 위해서는 말뭉치 수집 및 구축에서의 윤리 기준을 수립할 필요가 있다. 국립국어원은 말뭉치에 포함된 욕설 및 혐오, 차별성 발언 등 일부 부적절한 내용의 정제 방향을 논의하기 위해 학계, 산업계 등의 전문가와 자문 회의를 개최하였다. 자문 회의에서는 인공지능용 학습 자료로서의 데이터 활용성을 높이기 위해서는 데이터 구축 차원과 데이터 활용 차원에서의 윤리적 기준을 다르게 적용해야 하며, 부적절한 내용이 담긴 말뭉치를 별도 구축하여 인공지능 모델이 부적절한 표현을 걸러낼 수 있는 자료로 활용해야 한다는 의견 등이 제시되었다.

img1

 인공지능 학습 자료로서의 말뭉치는 인공지능 모델 학습에 어떻게 이용되느냐에 따라서 문제가 될 수도, 되지 않을 수도 있다. 표현의 부적절성에 대한 판정은 나이, 성별, 지역 등의 변인에 따라 달라지기 때문에 말뭉치에 부적절한 표현이 포함되지 않도록 완벽하게 정제하는 일은 사실상 불가능하다. 인공지능이 사람의 말을 잘 이해하고 처리할 수 있도록 학습시키기 위해서는 인공지능용 학습 자료는 일상생활의 언어를 그대로 반영하고 있으며 인위적인 정제를 최소화한 것이 가치가 높다. 한편, 인공지능이 논란이 되지 않는 표현을 생성할 수 있도록 학습시키기 위해서는 인공지능이 나쁜 말을 구분하여 처리할 수 있는 별도의 학습 자료가 필요하다.

 2021년 배포가 중단되었던 말뭉치 3종을 대상으로 사적 언어 자료에서 사용된 표현에 대하여 일반 사용자의 인식을 살펴보는 조사 사업이 진행되었다. 말뭉치 조사 결과 부적절한 표현이 포함된 것으로 판정된 문서는 정비 대상으로 분류되어 모두의 말뭉치 공개 문서에서 제외되었으며, 제외된 문서는 인공지능의 부적절한 발언 검출을 위한 평가용 말뭉치 구축 자료로 활용되었다. 구축 결과물의 일부는 2022년 국립국어원 인공지능 언어 능력 평가 경진대회의 ‘비윤리적 문장 분류’ 과제로 공개되어 어느 인공지능 모델이 ‘비윤리적 문장’을 가장 잘 분류하는지 평가하는 자료로 사용될 예정이다.

 앞으로 국립국어원에서는 인공지능이 나쁜 말이나 해서는 안 되는 말을 얼마나 잘 구분할 수 있는지를 평가할 수 있는 평가용 말뭉치를 지속적으로 구축하고자 한다. 머지않은 미래에는 인공지능 모델이 금칙어와 같은 단어 위주로 부적절한 표현을 선별할 뿐만 아니라 맥락까지 고려하여 비윤리성을 판정할 것이라 기대해 본다.