[라포르시안] 고려대산학협력단(이하 고려대 산단)이 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 추진하는 ‘2022년 인공지능 학습용 데이터 구축사업’에 선정됐다고 14일 밝혔다.

고려대산학협력단은 이번 구축사업에서 ‘의료, 법률 전문 서적 말뭉치 데이터 구축’ 분야를 맡아 전문지식이 필요한 의료 및 법률 분야 말뭉치를 체계적으로 분류해 고부가가치 말뭉치 데이터를 구축한다.

앞서 고려대산학협력단은 군자출판사, 박영사, 범문에듀케이션, 법문사 등 의료 및 법률분야 전문 출판업체 4곳과 데이터 품질 관리 업체인 나라지식정보, 학습모델 개발 및 평가를 수행할 한양대산학협력단 등 6개 기관과 컨소시엄을 구성했다.

사업은 올해 12월까지 7개월간 수행하며 사업비는 정부출연금 20억 원·민간부담금 2억4250만 원으로 총 22억4250만 원이다. 고려대산학협력단은 의료와 법률 전문 도서 각 200종을 선정해 1억 어절 이상 정제된 말뭉치를 구축하는 것을 목표로 하고 있다.

이를 위해 최신 전문 도서의 디지털 파일을 수집하고 의료·법률·언어분야 전문가와 함께 크라우드 워커로 참여 인력을 구성해 보다 정밀하게 라벨링 된 AI 학습용 데이터세트를 제공할 예정이다.

이번 사업은 6개 기관 외 타 기관 및 기업과의 협업도 계획하고 있다. 구축 과정에서는 연구소, 출판사 및 AI 스타트업이 참여하는 연합포럼을 구성해 의료 및 법률 분야 자연어처리 기술을 개발하고 비즈니스를 활성화할 예정이다. 또한 AI 전문기업 심심이·엘박스·바이칼에이아이와도 연계해 AI 개발에 필요한 기반 데이터로 지원할 계획이다.

특히 전문 서적을 기반으로 확보된 데이터세트인 만큼 향후 다양한 분야의 한국어 말뭉치 구축 표본으로 활용 가능하고, 두 전문 분야의 융합으로 새로운 자연어처리 시장을 확보할 수 있어 국내 AI 개발 환경을 조성하는데 일조할 것으로 기대된다.

이번 구축사업의 총괄 책임자는 그동안 의료분야 말뭉치 데이터세트 표준 및 자연어처리기술 개발을 선도해 온 주형준 고대안암병원 순환기내과 교수가 맡았다.

주 교수는 이번 사업에 대해 “고품질의 말뭉치는 AI 활용을 극대화할 수 있는 가장 중요한 기반 중 하나”라며 “높은 정확도와 전문성이 요구되는 의학과 법률 분야에서 고도로 정제된 말뭉치를 구축해 다양한 AI 솔루션이 개발될 수 있는 계기가 될 것으로 기대한다”고 전했다.

저작권자 © 라포르시안 무단전재 및 재배포 금지