권태완(서울아산병원 IT전략팀장)

[라포르시안] 가히 데이터의 시대다. 최근 4차산업 기술 발전으로 이전에는 쉽지 않았던 다양한 형태의 데이터가 수집·가공돼 산업 전반에서 활용되고 있고 데이터 기반 인공지능(AI)·빅데이터 등 기술도 각광받고 있다. IT 컨설팅 기업 IDC에 따르면 2016년 하루에 생산되는 데이터는 약 440억 기가바이트(Gb) 규모였고, 2025년에는 약 4630억 기가바이트에 도달할 것으로 추산된다. 이를 1년 단위로 계산하면 약 170억 제타바이트(10의21제곱)가 된다.

기하급수적인 데이터 증가는 의료 분야도 예외일 수 없다. 전산화 태동기인 1990년대의 경우 병원 업무 및 청구 자동화가 중요한 목표였다면 2005년 이후에는 전자의무기록(EMR) 시스템 구축과 의료영상저장전송시스템(PACS)이 운영되면서 비정형 데이터를 포함해 데이터의 양이 급증했다. 특히 최근에는 디지털 병리·유전체 정보 시스템 도입·구축과 센서를 통한 각종 생체 정보 수집을 통해 수 페타바이트(Pb) 이상의 데이터를 보유하고 있는 병원이 늘어나고 있다.

약 30년 전에 100 기가바이트도 되지 않는 저장 장치로 1000병상의 병원 전산을 운영했던 때를 생각하면 격세지감이 아닐 수 없다. 이러한 의료 데이터는 AI 기술과 접목돼 진단 정확도를 높이고, 질병의 예측·예방을 위한 분석은 물론 신약 개발과 같이 치료법을 찾는 데 활용된다. 나아가 정밀 의료를 실현하는 데도 크게 기여할 것으로 기대된다. 

하지만 데이터를 활용하는 데 있어 큰 고민 중 하나는 양질의 데이터를 확보하는 것이다. 미국의 한 연구기관에 따르면 저품질 의료 빅데이터는 ▲환자 안전 ▲진료 연속성 ▲임상 연구 등에서 다양한 문제를 유발하고, 이로 인한 미국 전체의 경제적 손실 규모가 연간 660조 원 달한다. 특히 데이터를 목적에 맞게 활용하기 위해서는 데이터의 수집·정제·가공하는 전 처리 과정을 거쳐야 하는데, 이 과정에서의 소요 비용이 데이터 구축 때 드는 전체 비용의 75%에 달한다. 그만큼 양질의 데이터를 확보하는 건 어렵고 부담스러운 과정을 거쳐야 한다.

다행히 국내 여러 의료기관이 한국데이터산업진흥원의 데이터 품질 인증을 받을 정도로 데이터 품질에 대한 인식은 높아지고 있다. 다만 인증 대상 데이터베이스가 1차 정제와 가공을 거친 임상데이터 웨어하우스(Clinical Data WareHouse·CDW)가 주를 이루고 있고, 원천 데이터베이스인 병원정보시스템에 대한 인증은 전무한 것으로 알고 있다.

사실 병원정보시스템의 데이터 품질은 데이터 활용을 위한 원천 데이터로서 그 관리 중요성이 있기도 하지만 환자의 안전과 병원 의료진을 포함한 직원 간 명확한 의사소통과 업무 수행을 위해서도 중요하다. 즉 원천 데이터의 품질 관리가 잘 되면 환자 안전 등 병원 고유 업무에 도움이 될 뿐만 아니라 이를 활용하고자 하는 영역에서도 그만큼 비용을 절감하고 신뢰성 있는 데이터를 확보할 수 있다.

특히 병원정보시스템의 데이터 처리에 핵심이 되는 ▲행위(처방) 코드 ▲약제 코드 ▲물품 코드 ▲회계 계정코드 ▲진단명·수술명 등과 같은 임상 용어 등 ‘기준 정보’의 관리는 데이터 전체 품질을 좌우한다고 해도 과언이 아니다. 여기서 기준 정보(마스터데이터)란 자주 변하지 않고 자료 처리 운용에 기본 자료로 제공되는 자료의 집합을 말한다. 대부분 병원은 이러한 기준 정보를 관리하는 병원정보시스템을 구축해 해당 기준 정보의 품질과 시스템 성능 및 안정성을 확보해 운영하고자 노력을 기울이고 있다.

특히 기준 정보에서 관리되고 있는 데이터 하나하나가 병원의 모든 시스템에서 영향을 끼치게 된다. 예를 들어 의사가 지시한 처방에 따라 투약·검사·처치·식사 등 행위가 간호사를 비롯한 여러 의료진에 의해 행해지고 또한 약 제조, 물품 및 식사 배송, 환자 이송, 수납, 보험 청구 등 업무들도 연속적으로 일어나게 된다. 만약 어느 한 곳이라도 의사의 지시를 잘못 이해하게 되면 환자 안전 측면에서나 병원 내 업무 연계 수행에 있어 차질을 빚을 수밖에 없다.

이처럼 기준 정보는 분류 및 속성·식별 체계를 정의하고 표준을 수립하는 표준 체계와 데이터 관리를 위한 절차와 운영 조직 그리고 관리 프로그램을 포함하는 관리 체계를 통해 정의되고 관리된다. 더불어 명확한 분류 구조를 정의함으로써 해당 개체의 중복 생성을 배제하고, 검색을 용이하게 하며 개체가 갖는 특성과 업무 처리 과정에서 사용되는 속성 등을 정의하는 속성 체계와 유일성을 유지해주는 식별 체계를 통해 데이터 품질을 확보하게 된다.

특히 기준 정보를 표준화하는 것은 일하는 모든 과정을 하나하나 분해해 규칙을 확인하고 정의해 나가는 것이다. 이를 통해 어떻게 일하고 어떠한 결과(Output)를 만들며 또 그다음 일은 그것을 어떻게 참고(Input)해 다음 업무를 수행하는지 확인하고 정해 나가는 과정이다. 그래서 기준 정보를 표준화하다 보면 일하는 방식도 함께 정비가 된다. 만약 이러한 과정을 거치지 않고 코드 값만 표준화한다면 각자 일하는 방식에 따라 그 값의 해석이 달라지고 일하는 방법이 불편해져 자기에게 맞는 새로운 코드를 만들어 쓰게 되는 일이 빈번하게 발생할 수밖에 없다. 대표적인 사례가 진료과별 동일한 의미의 코드를 각자 업무 편의에 따라 만들거나 수가 차이로 인해 수가별로 중복으로 만드는 일이다.

그동안의 관행이나 자체적인 기준에 의해 일하던 방식을 벗어나 전사적 관점에서 기준 정보를 표준화하면 당장은 불편할 수 있으나 시간이 지나고 정보의 명확한 전달 등으로 업무 생산성이 높아지고 환자 안전 측면에서 그 효과를 점차 확인할 수 있을 것이다. 새로운 병원정보시스템 구축을 고려한다면 쉽지 않지만 우선적으로 기준 정보 체계 도입 검토를 권하고 싶다. 비록 시작은 힘들어도 도입 이후 효과는 상상을 초월할 정도다.

이미 구축해 운영 중인 모 병원은 정확한 통계를 확인할 수 없지만 보다 명확한 의사소통이 가능해졌고, DW(Data WareHouse)를 이용한 통계·분석 등 활동이 많아졌으며 결과에 대한 신뢰도 또한 크게 높아졌다. 현재 시스템을 운영하면서 기준 정보 체계 도입이 쉽지 않겠지만 서비스 내에서 정의되는 작은 코드 마스터부터 시작해 해당 코드들이 언제 탄생해서 누가 어디서 언제 어떻게 어떤 목적으로 사용하는지 파악해 그에 맞는 속성을 정의하고 적절한 식별 체계를 부여해 사용하는 업무를 보다 철저히 설계할 필요가 있다.

필자는 약 20년 전 인사 시스템을 재구축하면서 뒤죽박죽이던 기준 정보와 코드 체계를 재정비했던 적이 있었다. 지금 생각해보면 당시 나름대로 표준 체계 방식을 따라 했던 것 같은데 최근에 그 체계와 데이터가 아직도 쓰이고 있음을 발견하고 기준 정보의 생명력을 느낄 수 있었다. 아마 당시에는 몰랐지만 그러한 경험을 했던 것이 이후 차세대 프로젝트에서 기준 정보 구축 업무를 담당하게 된 계기가 되지 않았을까 싶다. 양질의 데이터 획득은 사용자의 관행과 개발자 편의를 넘어 기준 정보 체계를 도입해 표준화함으로써 개체가 가진 고유 특성과 일하는 방식을 잘 정의하고 정제할 때 가능한 일이다.

※ 외부 필진의 글은 본지의 편집방향과 다를 수 있습니다.

관련기사
저작권자 © 라포르시안 무단전재 및 재배포 금지