• 홈
  • 화살표
  • 국어 배우기
  • 화살표
  • 뭉치가 알려주는 국어 말뭉치
책 그림
  •  
    뭉치가 알려주는 국어 말뭉치
  • 인공 지능의 언어 실력을 가늠하는 방법

  • 국립국어원 언어정보과 학예연구사 김소희

 ‘언어’는 사람이 소통을 위해 사용하는 매개이다. 언어로 부호화하고 언어를 해석하여 소통에 이르는 과정은 언어와 세계에 관한 각자의 지식과 가치관, 감정 등 다양한 요소들이 종합적으로 관여하는 활동이다. 따라서 우리가 한국어를 이용하여 말하고, 듣고, 읽고, 쓰는 것은 생각보다 복잡하다. 그리고 인공 지능이 사람처럼 언어를 이해(자연어 이해, Natural Language Understanding)하고 언어로 표현(자연어 생성, Natural Language Generation)할 수 있는 기술을 개발하는 것은 인공 지능 언어 처리 분야 연구자들의 궁극적 목표일 것이다.

 그렇다면 사람처럼 ‘이해’하고 ‘표현’하는 것은 무엇인가? 그리고 인공 지능이 사람처럼 언어를 구사하는 수준을 측정할 때 어떤 기준이 필요한가? 이 글에서는 자연어 이해와 생성 분야의 대표적 과제와 평가 지표를 간략히 소개하면서 국립국어원에서 준비 중인 인공 지능의 언어 능력 평가 체계에 대해 이야기한다.

img1

○ 자연어 이해 과제의 예: 자연어 추론

 나에게 닥친 상황이 사실인지 판단하는 것은 의미 이해의 첫 단추이다. ‘자연어 추론(Natural Language Inference)’ 과제는 자연어 이해 분야의 대표적 과제로 배경 텍스트(전제)가 참일 때 주어진 텍스트(가설)의 참/거짓 관계를 추론하는 과제이다. 이 과제는 “소희와 소희 동생은 매일 아침 커피를 마신다.”를 통해 “소희는 매일 커피를 마신다.”가 참임을 추론해 내는 논리적 함의에 대한 판단부터 “소희는 매일 아침 커피를 마신다”를 통해 상식을 활용하여 “소희는 어제 커피 잔을 사용한 적이 없다.”가 거짓임을 추론하는 상식적 함의 판단까지 포함한다.

[함의 관계 추론 데이터 세트의 예]

[
{아이디 : 1,
문장1 : “소희와 소희 동생은 매일 아침 커피를 마신다.”,
문장2 : “소희는 매일 커피를 마신다.”,
질문 : “문장 1이 사실이라면 문장2는 사실인가?”
정답 : “참”},
{아이디 : 2,
문장1 : “소희는 매일 아침 커피를 마신다.”,
문장2 : “소희는 어제 커피 잔을 사용하지 않았다.”,
질문 : “문장1이 사실이라면 문장2는 사실인가?”,
정답 : “거짓”},
...
]

 자연어 이해 과제는 문제와 정답으로 구성된 데이터 세트로 구현된다. 즉, 인공 지능이 문제의 정답을 맞혔는지를 분류하는 문제로 치환되며 일반적으로 정밀도(Precision)와 재현율(Recall)의 조화 평균을 활용한 F 점수(보통 F1 점수)로 성능을 평가한다. 정밀도란 k로 예측한 모든 사례 중 실제로 k인 것의 비율이다. 재현율이란 정답이 k인 모든 사례 중 실제로 k로 예측한 것의 비율이다. 계산 방법은 아래를 참고할 수 있다. F1 점수가 0에 가까울수록 성능이 낮고, 1에 가까울수록 성능이 높다고 해석한다.

[정밀도, 재현율, F1 점수 계산 예]

  예측 결과
거짓 모르겠음 재현율
정답 15 10 100 15/(15+10+100) = 0.12
거짓 10 15 10 0.43
모르겠음 10 100 1000 0.90
정밀도 15/(15+10+10) = 0.43 0.12 0.90  
※ ‘참’ 범주의 F1 점수 계산
img2
img3

○ 자연어 생성 과제의 예: 문서 요약 과제

 많은 분량의 언어 자료를 잘 이해한 후 짧게 재구성하여 표현하는 활동은 이해와 표현 능력을 동시에 요구한다. ‘요약’은 자연어 생성 분야의 대표적 과제로, 긴 글에서 신속하게 핵심 정보를 얻어 내기를 원하는 실용적 요구에 힘입어 더욱 관심을 얻고 있다. 요약 과제 역시 기계가 처리할 수 있도록 본문(Source Document), 정답 요약(Ground truth Summary)이 포함된 데이터 세트로 구성된다. 아래는 가장 널리 알려진 요약 데이터 세트인 시엔엔/데일리 메일(CNN/Daily mail)의 예이다. 여기서 개체명과 숫자는 모두 익명화되고(@entity, 000), 문장은 주석을 통해 구분된다.

[시엔엔/데일리 메일 데이터 세트의 예]

img4

 일반적으로 사람의 글쓰기 활동을 평가할 때에는 ‘내용, 조직, 표현’과 같은 세부 기준과 각 기준별 평가 준거를 두고 정성적으로 평가하는 방법을 사용한다. 그러므로 인공 지능을 평가할 때에도 같은 방법을 사용할 것이라 자연스럽게 기대할 것이다. 그러나. 인공 지능을 평가할 때에는 인공 지능 언어 모델이 생성한 문장이 모범 답안과 표면적으로 일치하는 정도를 평가하여 생성한 문장이 실용적으로 활용 가능한지에 중점을 두는 경향이 있다.
 루즈 성능 평가 지표(ROUGE, Recall-Oriented Understudy for Gisting Evaluation)는 요약 과제에서 주로 활용되는 평가 공식으로 모범 답안과 모델 생성 답안 간 겹치는 표현을 엔그램(N-gram)을 기준으로 계산하여 요약 성능을 평가한다. 다만, 생성 모델을 평가할 때 표면적 유사성만 판단하는 것은 아래 예시에서 보여 주는 바와 같이 한계가 있음이 분명하다. 아래의 예에서 모델 생성 답안은 작품의 유형, 작품의 제작 여부 등 중요한 정보가 모범 답안과 다르지만, 평가 지표는 이를 반영하지 못한다. 생성 과제의 경우 여러 지표를 동시에 참고하거나 사람의 정성적 평가를 병행하기도 한다.

[루즈 - 1 계산 예]

모범 답안 □ 영화는 △년 개봉 예정이다.
[ □, 영화, 는, △, 년, 개봉, 예정, 이, 다]
모델 생성 답안 □ 드라마는 ★년 촬영 예정으로 확인되었다.
[□, 드라마, 는, ★, 년, 촬영, 예정, 으로, 확인, 되, 었, 다]
ROUGE-1 정밀도: 0.41 = 5(겹치는 1-gram 수)/12(모델 생성 답안의 1-gram 수)
재현율: 0.56 = 5(겹치는 1-gram 수)/9(모범 답안의 1-gram 수)
img5

○ 인공 지능의 언어 실력을 평가하는 다양한 조각들

 지금까지 자연어 이해와 생성 분야의 과제 예를 하나씩 살펴보았다. 인공 지능 언어 모델의 현실적 목표는 ‘모델이 실제로 사람과 같이 언어를 이해하고 생성하는가?’라기보다는 ‘모델이 사람이 작성한 모범 답안과 유사한 결과물을 낼 수 있는가?’에 가깝다. 또한, 인공 지능의 언어 능력에 대한 종합적 기준과 체계를 수립하고 각 기준에 맞는 평가 과제를 연구하기보다는 자연어 이해와 생성에 관한 부분적 관점을 반영한 데이터 세트를 계속해서 발표하는 방식으로 연구가 발전하고 있다. 한국어 인공 지능의 기술적 구현 및 상용화 가능성에 기초하여 과제를 개발하는 것도 인공 지능 언어 처리 기술의 실질적 발전을 이끄는 한 방향일 것이다.

img6

○ 국립국어원 인공 지능 언어 능력 평가

 국립국어원은 2009년부터 연간 개최한 ‘국어정보처리 시스템 경진대회’를 2021년부터 ‘인공 지능의 언어 능력 평가’ 경진 대회로 개편하였고 자연어 처리 기술의 성능을 평가하기 위한 평가 체계를 운영하고 있다.
 대부분의 자연어 처리 기술 개발이나 평가 환경에서 데이터 세트는 훈련용, 개발·검증용, 시험용 데이터 세트로 분할된다. 훈련용 데이터 세트는 인공 지능 언어 모델이 학습하기 위한 입력으로 사용되며, 사람의 정답 주석이 포함되어 있다. 개발 또는 검증용 데이터 세트는 개발 중인 시스템의 적합한 파라미터 값을 찾는 등 성능을 향상시키기 위해 따로 떼어 둔 데이터 세트로서, 비유하자면 모의고사를 치르기 위한 목적으로 마련된 데이터 세트이다. 마지막으로 시험용 데이터 세트는 개발이 완료된 시스템을 종합 평가하기 위한 세트로서, 이 데이터 세트의 정답은 공개하지 않으며, 비공개 정답과 비교하여 산출한 점수만 순위표(리더보드)에 게시한다.
 아래는 ‘2022 국립국어원 인공 지능 언어 능력 평가’ 경진 대회의 ‘속성 기반 감성 분석’ 과제의 훈련용, 시험용 데이터 세트의 예이다. 훈련용 데이터 세트는 데이터 아이디(id), 분석 대상 문장(sentence form), 정답 주석(annotation)으로 구성되어 있으며, 시험용 데이터 세트에는 정답 주석이 빠져 있다. 참고로 속성 기반 감성 분석이란 자연어 이해 과제 중 하나로 분석 대상 문장에서 나타나는 개체와 속성 범주를 식별하고 이 범주에 대한 후기 작성자의 감성을 추론하는 과제이다. 훈련용 예시에 따르면 후기 작성자는 본품(전자 기기의 본체 등)의 품질에 대한 부정적인 감성 극성을 표현하고 있다. 경진 대회 참가자들은 시험용 데이터의 정답 부분을 [“제품 전체#일반”, “positive”]와 같이 채워 넣어 국립국어원 모두의 말뭉치(https://corpus.korean.go.kr)에 제출하며, 국립국어원에서는 비공개 정답과 비교한 점수를 산출하여 순위표에 게시한다. 참가자들은 답안을 시스템에 제출하여 나의 순위를 확인함으로써 내가 만든 모델의 성능을 가늠할 수 있다.

[국립국어원 경진 대회용 속성 기반 감성 분석 데이터 세트의 예]

항목 내용
훈련용 {"id": "nikluge-sa-2022-train-00001", "sentence_form": "둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.", "annotation": [["본품#품질", ["기어", 16, 18], "negative"]]}
시험용 {"id": "nikluge-sa-2022-train-00003", "sentence_form": "간사하게도 그 이후에는 라이딩이 아주 즐거워져서 만족스럽게 탔다.", "annotation": []}
img7

 인공 지능 언어 능력 평가 체계를 구성할 때에는 대상 과제를 해결하기 위해 일반적으로 활용되고 있는 모델과 성능을 함께 제공한다. 이를 베이스라인 모델(baseline model)이라고 하며, 참가자들은 이 모델을 활용하여 성능을 개선할 수도 있다. 어떤 과제에서는 사람이 수행한 점수(Human Performance Score)를 함께 제시하기도 하는데, 이 점수는 인공 지능 언어 처리 기술이 도달해야 할 목표 점수로서 의미가 있다.
 국립국어원은 앞으로 연 1회 개최되는 경진 대회 중심의 현행 체계를 상시 평가 체계로 전환하고 이에 맞게 “모두의 말뭉치” 플랫폼을 개편할 계획이다. 이 플랫폼에 매년 국립국어원이 공개하는 인공 지능 언어 처리 성능 평가용 과제가 쌓이고, 연구 개발자들은 상시로 답안을 제출하며, 자동으로 점수가 채점되어 순위표에 실시간으로 게시될 것이다. 국립국어원은 국외 유명 데이터 세트를 참고하여 한국어의 특성에 맞게 구축하는 동시에 한국어의 특성과 사용 현실을 반영하는 말뭉치를 계속해서 연구하고 구축하여 장기적으로는 인공 지능 언어 능력의 여러 측면을 다양한 과제로 평가할 수 있는 장을 마련할 계획이다. 또한 민간에서도 국립국어원의 말뭉치를 이용하여 개발한 과제들을 제안하고 직접 운영할 수 있도록 평가 체계와 플랫폼을 점진적으로 발전시켜 나갈 계획이다. 많은 관심을 바란다.