[라포르시안] 인공지능(AI) 기술 전문기업 에이아이트릭스(대표이사 김광준 유진규)가 국제 자연어 처리(NLP) 학회 ‘NAACL 2022’(북미 전산 언어학 학회)에 참가해 새롭게 개발된 언어 모델 논문을 발표한다고 23일 밝혔다.

NAACL은 ACL(Association for Computational Linguistics)·EMNLP(Empirical Methods in Natural Language Processing)와 함께 자연어 처리 분야에서 최고 수준의 국제학술대회로 꼽힌다.

에이아이트릭스는 미국 워싱턴주 시애틀에서 오는 7월 10일부터 15일까지 진행되는 NAACL 2022에 참가해 '지식 증강 언어 모델 적응'이란 논문을 발표할 예정이다.

해당 논문에서 선보인 ‘KALA 프레임워크’는 의료분야에서 요구되는 전자의무기록에서의 질의응답과 의료 논문에서의 질병 개체명 인식을 포함한 다양한 분야의 자연어 처리 태스크들에서 기존 언어 모델 대비 더 높은 성능을 보인다.

기존 BERT와 같은 사전 학습된 언어 모델들은 기계 독해나 개체명 인식과 같은 다양한 태스크에서 훌륭한 성능을 보이고 있으나 의료와 같은 특수한 분야에서는 자연어 처리 성능이 더욱 개선될 필요가 있었다. 이를 해결하기 위해 여러 방법론들이 제시됐지만 여전히 많은 계산 비용을 필요로 한다는 단점이 있었다.

이번 연구에서 에이아이트릭스가 제안한 KALA 프레임워크는 이 한계를 극복했다. KALA 프레임워크는 지식 그래프를 활용해 적은 계산 비용으로도 특수한 분야에서의 언어 모델 성능을 높일 수 있다는 장점이 있다.

이 같은 장점을 바탕으로 에이아이트릭스 논문은 채택된 논문 중에서도 탁월한 소수의 연구에만 기회가 주어지는 구두 발표세션에도 초청됐다. 해당 연구는 강민기 에이아이트릭스 연구원과 백진헌 카이스트 박사 과정, 황성주 에이아이트릭스 AI Division 총괄 및 카이스트 AI 대학원 교수가 공동 연구했다.

논문 제1저자인 강민기 연구원은 “에이아이트릭스가 개발한 KALA 프레임워크는 지식 그래프를 활용함으로써 학습되지 않은 전문 분야에서의 개체명(Entity)을 언어 모델이 학습한 임베딩 공간에 매핑하는 방식으로 특수 분야에 대한 언어 모델 적응에서의 계산 효율성을 높일 수 있다”고 밝혔다.

그러면서 “NAACL 2022에서 채택된 이번 논문을 세계적인 자연어 처리 학계가 인정했다는 점은 대단히 의미 있는 성과라고 생각한다”며 “앞으로도 에이아이트릭스는 자연어 처리를 포함한 넓은 분야에서의 다양한 연구개발을 통해 의료분야에서 미충족 의료 수요를 해결할 수 있기를 기대한다”고 덧붙였다.

저작권자 © 라포르시안 무단전재 및 재배포 금지