박래웅(아주대 의대 의료정보학과 교수, 대한의료정보학회 기획이사)

한국인 37만 명의 심전도 데이터와 관련 약처방이나 질환 정보 등이 담긴 임상의학 데이터베이스가 공개됐다. 누구나 맘만 먹으면 이 정보를 내려받아 연구 자료로 활용할 수 있다. 이 정도 규모의 특정 생체신호 데이터를 공개한 경우는 국내는 물론 전 세계적으로도 그 전례를 찾아보기 힘들다. 일명  ‘ECG-VIEW’라고 불리는 이 데이터는 1994년부터 2011년까지 17년 간 아주대병원에서 진료 받은 환자 및 정상인 37만명의 심전도 데이터 71만개, 성별, 나이, 심전도 측정 전후 발생한 질환, 약 처방 정보 3700만개 등을 담고 있다. 이처럼 방대한 분량의 심전도 결과와 관련 임상자료가 포함된 DB 구축 사업을 주도한 이는 아주대학교 의대 박래웅 교수다. 박 교수는 이번 연구결과를 통해 다른 기관에서도 병원내 임상 데이터를 공익적으로 사용할 수 있는 관행을 만드는 것이 목표라고 한다.  박 교수로부터 이번 연구의진행 과정과 대규모 심전도 데이터 공개의 의미를 들어봤다.


- 37만명에 이르는 한국인의 심전도 데이터가 대규모로 공개는 경우는 처음이다. 심전도 데이터를 포함한 관련 임상의학 자료 공개가 의료계에 주는 의미는 무엇인가.

“심전도 데이터를 연구한 이유는 새로운 약물의 알려지지 않은 부작용을 찾기 위함이었다. 약 때문에 심장의 QT(심근의 수축과 관련한 심전도율을 나타내는 개념) 간격이 늘어나면 부정맥이 생겨 심하면 사망에 이를 수 있다. QT 간격의 정상치에 대해서는 전세계 표준이 있지만 한국인 표준은 없다. 우리 데이터는 37만 명의 자료로 데이터를 확보했는데 이 중 17만 명은 정상인이다. 이 자료를 이용해 QT 간격의 한국인 정상치를 추출하는데도 사용할 수 있다. 각 기관마다 응용하는데 따라 여러 연구 결과를 얻을 수 있을 것이다.  병원 데이터를 공개하는 것은 매우 민감한 문제다. 이번 결과를 공개하기 위해 병원관계자와 심장내과 의료진을 설득하기 위해 일일이 찾아다녔다. 궁극적 목표는 이번 병원데이터 공개로 다른 기관에서도 자극을 받아 공익적으로 사용될 수 있는 데이터를 내놓을 수 있게 하는 것이다. 어떻게 이 자료를 수집했는지에 대한 기술적인 부분도 다 공개했다. 홈페이지에 가보면 ECG-VIEW 뿐 아니라 데이터를 확보했던 프로그램 소스까지 신청한다면 무료로 볼 수 있기 때문에 다른 병원들도 목적에 따라 프로그램을 응용할 수 있게 했다.”  - 보건의료계 외에  다른 분야에서는 어떤 식으로 이 데이터가 활용될 수 있나.

“병원데이터를 이용한 결과를 원하는 분야는 많다. 그런데 환자데이터를 구할 수 없는 실정이었다. 유비쿼터스 헬스케어같은 모바일 헬스케어를 연구하는 기관에서 환자데이터를 필요로 하고 있었다. 이번 연구는 심전도 자료에 특화돼 있어서 한계가 있긴 하지만 진단명, 약 처방 내용, 피검사 결과 등이 있기 때문에 IT업계가 각자 필요한 부분을 이용해서 연관성을 찾는 알고리즘을 만들어 낼 수 있을 것이라 본다. 또 의학데이터 익명화를 연구하는 팀이 우리 연구결과에 관심을 보이고 있다. 환자의 개인정보 보안에 관련한 연구를 위해 우리가 사용한 프로그램으로 환자 익명화를 어느 수준 까지 할 수 있는지, 얼마나 안전한지, 얼마나 보장할 수 있는지 연구하고 싶어 한다. 우리 자료가 다양한 분야의 연구에 응용될 듯 싶다. 연구 자료 공개 후 현재 다양한 분야의 기관에서 연락이 오고 있다.”

- 환자 정보 익명화가 민감한 문제 중 하나였을 것 같다. 어떤 식으로 민감한 환자 개인정보를 익명화 시켰나.

“미국에 ‘HIPPA’(Health Insurance Portability and Accountability Act)라는 정보공개에 관한 규정이 있다. 그 규정을 참고해 우리는 그것보다 방식과 절차를 더 강화했다. 환자 고유번호를 우선 다 없앤 후 진단 명 중 에이즈나 장애, 기형 등의 정보도 없앴다. 에이즈와 같은 민감한 진단명을 가진 환자의 경우 약 처방내용도 없앴다. 검사 결과가 극단 값을 보이는 환자의 경우 ‘탑 코딩’이라는 방식으로 오차범위 95%로 조정했다. 생년월일도 환자를 식별할 수 있는 정보가 될 수 있기 때문에 각각 무작위 숫자를 부여하고 85를 더했다. 그러면 생년월일을 알 수 없고 임상적으로 의미가 있는 나이를 식별할 수 없다. 그러면 환자 데이터의 일정간격은 유지가 되고 약 처방 날짜도 바뀐다. 이 부분은 우리가 개발한 프로그램이다.”

연구자료 열람을 신청할 수 있는 ecgview.org 홈페이지 화면

- 연구팀이 해결한 핵심문제 중 하나가 필요한 데이터를 추출해내는 문제라고 했다. 기존에는 이런 작업이 어려운 실정이었나.

“아주대병원에 전자의무기록인 EMR이 2010년부터 본격 가동에 들어갔다. 그 이후 시점의 병원 내 환자의 심전도 데이터는 EMR에 자동 연동돼 확보할 수 있었다. 2년 여 동안의 자료는 쉽게 확보할 수 있었지만 문제는 20~30년 전 데이터다. 그 당시 데이터는 스캔된 이미지로 '뮤즈'라는 상용 프로그램에 저장돼 있다. 그런데 뮤즈를 관리하는 본사가 과거의 이미지 자료를 전산화할 수 없다고 했다. 본사에 몇 번 요청했는데 이뤄지지 않았다. 기술적 문제라기보다 개인정보가 포함된 과거자료이기 때문에 회사 규정상 공개하지 않은 듯했다. 어쩔 수 없이 우선 웹 파싱(Web parsing) 기술을 이용해 상용시스템 내에 저장된 이미지 데이터를 순차적으로 추출했다. 이는 환자 ID를 일일이 입력해야 얻을 수 있다. 그래서 환자 전체 ID를 한꺼번에 입력해서 한 번에 추출할 수 있는 프로그램을 개발했다. 그나마 종이로 수집된 자료는 웹 파싱 기술조차 쓸 수 없었다. 그래서 인쇄자료의 이미지를 문자로 추출해 내는 기술인 광학문자인식기술로 자료를 확보했다. 이 기술은 고속도로에서 차 번호판 이미지로 차량번호를 문자로 식별해내는 데도 쓰이는 보편적 기술이다. 이를 이용해 인쇄자료의 정보를 모두 문자로 확보해냈다.”

- 이번 연구 결과가 네이처 '임상약학 및 치료학지' 7월 온라인 판에 게재됐다. 어떤 내용을 담고 있나. “그동안 EMR을 통해 확보한 자료를 공개한 경우는 있었지만 37만 명을 대상으로 약 처방 정보 3,700만 건, 검사결과 300만 건처럼 대규모 데이터를 공개한 것은 전례가 없다. 논문의 내용은 약물에서 발생할 수 있는 부작용을 찾기 위함인 연구 목적과 웹 파싱을 응용한 기술을 써서 어떠한 절차로 익명화 작업을 강화해 이번 연구 결과를 낸 과정까지 포함 돼 있다. 중요한 것은 우리 연구 결과 프로그램을 조금만 변형하면 다른 병원에서도 임상자료를 손쉽게 확보할 수 있다는 점이다. 심전도 뿐 아니라 청력검사, 호흡기능 등 다양한 신체 신호를 확보할 수 있다는 데 큰 의의가 있다는 내용을 실었다.” 

- 비밀유지 서약을 거쳐 학술연구 목적에 한해 이 자료를 공개하고 있다. 만일 다른 용도로 사용됐을 시 대응방안은 마련돼 있나.

“비밀 유지 서약은 일종의 계약서와 같은 역할을 한다. 그 동의서에는 열 개 정도의 항목이 있는데 그 중 특정 환자를 식별할 목적으로 사용하지 않는다는 등의 조약이 있다. 그럼에도 자료를 특정 목적을 가지고 악용했을 시 발생하는 민사상 문제는 전적으로 사용자 책임이 된다. 일단 유출이 된다 해도 환자 익명성은 철저히 확보한 데이터이기 때문에 개인정보보호법이나 의료법에 저촉되지 않는다고 보면 된다.”

- 단일 병원의 임상자료라는 점 때문에 갖는 데이터베이스의 한계도 있을 것 같다.

“아주대병원이 3차 병원이기 때문에 환자들이 다른 병원에서 약을 처방받거나 진료를 받은 경우도 있었을 것이다. 이 부분은 어쩔 수 없는 한계이다. 지금 진행하고 있는 연구는 최종 승인은 없지만 일단 3개 병원까지 확보한 상태다. 앞으로 50개, 100개 병원 데이터를 확보하는 게 목표다. 그렇게 되면 이번 연구결과의 한계를 벗어날 수 있을 듯하다.”

- 심전도 외에 다른 생체정보 자료를 활용해 연구할 계획도 갖고 있나.

“현재 복건복지부 발주로 3년 동안 8억 원 규모의 예산을 투입하는 연구용역을 진행하고 있다. 이번엔 아주대병원 뿐 아니라 서울성모병원, 길병원의 자료를 함께 수집할 예정이다. 연구에 필요하다고 판단되는 테이블 16개, 필드 200개의 자료를 확보할 것이다. 3개 병원의 공동데이터를 만들면 공동으로 자료를 사용하고 또 익명화 작업을 엄격히 해서 공개용 데이터를 따로 만들 예정이다. 아주대는 동의했지만 다른 두 개병원은 아직 확실치 않다. 이 연구에는 심전도 뿐 아니라 다른 생체정보도 포함된다.”

저작권자 © 라포르시안 무단전재 및 재배포 금지