박래웅(아주대 의대 의료정보학과 교수, 대한의료정보학회 기획이사)
한국인 37만 명의 심전도 데이터와 관련 약처방이나 질환 정보 등이 담긴 임상의학 데이터베이스가 공개됐다. 누구나 맘만 먹으면 이 정보를 내려받아 연구 자료로 활용할 수 있다. 이 정도 규모의 특정 생체신호 데이터를 공개한 경우는 국내는 물론 전 세계적으로도 그 전례를 찾아보기 힘들다. 일명 ‘ECG-VIEW’라고 불리는 이 데이터는 1994년부터 2011년까지 17년 간 아주대병원에서 진료 받은 환자 및 정상인 37만명의 심전도 데이터 71만개, 성별, 나이, 심전도 측정 전후 발생한 질환, 약 처방 정보 3700만개 등을 담고 있다. 이처럼 방대한 분량의 심전도 결과와 관련 임상자료가 포함된 DB 구축 사업을 주도한 이는 아주대학교 의대 박래웅 교수다. 박 교수는 이번 연구결과를 통해 다른 기관에서도 병원내 임상 데이터를 공익적으로 사용할 수 있는 관행을 만드는 것이 목표라고 한다. 박 교수로부터 이번 연구의진행 과정과 대규모 심전도 데이터 공개의 의미를 들어봤다.
“심전도 데이터를 연구한 이유는 새로운 약물의 알려지지 않은 부작용을 찾기 위함이었다. 약 때문에 심장의 QT(심근의 수축과 관련한 심전도율을 나타내는 개념) 간격이 늘어나면 부정맥이 생겨 심하면 사망에 이를 수 있다. QT 간격의 정상치에 대해서는 전세계 표준이 있지만 한국인 표준은 없다. 우리 데이터는 37만 명의 자료로 데이터를 확보했는데 이 중 17만 명은 정상인이다. 이 자료를 이용해 QT 간격의 한국인 정상치를 추출하는데도 사용할 수 있다. 각 기관마다 응용하는데 따라 여러 연구 결과를 얻을 수 있을 것이다. 병원 데이터를 공개하는 것은 매우 민감한 문제다. 이번 결과를 공개하기 위해 병원관계자와 심장내과 의료진을 설득하기 위해 일일이 찾아다녔다. 궁극적 목표는 이번 병원데이터 공개로 다른 기관에서도 자극을 받아 공익적으로 사용될 수 있는 데이터를 내놓을 수 있게 하는 것이다. 어떻게 이 자료를 수집했는지에 대한 기술적인 부분도 다 공개했다. 홈페이지에 가보면 ECG-VIEW 뿐 아니라 데이터를 확보했던 프로그램 소스까지 신청한다면 무료로 볼 수 있기 때문에 다른 병원들도 목적에 따라 프로그램을 응용할 수 있게 했다.” - 보건의료계 외에 다른 분야에서는 어떤 식으로 이 데이터가 활용될 수 있나.
“병원데이터를 이용한 결과를 원하는 분야는 많다. 그런데 환자데이터를 구할 수 없는 실정이었다. 유비쿼터스 헬스케어같은 모바일 헬스케어를 연구하는 기관에서 환자데이터를 필요로 하고 있었다. 이번 연구는 심전도 자료에 특화돼 있어서 한계가 있긴 하지만 진단명, 약 처방 내용, 피검사 결과 등이 있기 때문에 IT업계가 각자 필요한 부분을 이용해서 연관성을 찾는 알고리즘을 만들어 낼 수 있을 것이라 본다. 또 의학데이터 익명화를 연구하는 팀이 우리 연구결과에 관심을 보이고 있다. 환자의 개인정보 보안에 관련한 연구를 위해 우리가 사용한 프로그램으로 환자 익명화를 어느 수준 까지 할 수 있는지, 얼마나 안전한지, 얼마나 보장할 수 있는지 연구하고 싶어 한다. 우리 자료가 다양한 분야의 연구에 응용될 듯 싶다. 연구 자료 공개 후 현재 다양한 분야의 기관에서 연락이 오고 있다.”
- 환자 정보 익명화가 민감한 문제 중 하나였을 것 같다. 어떤 식으로 민감한 환자 개인정보를 익명화 시켰나.
“미국에 ‘HIPPA’(Health Insurance Portability and Accountability Act)라는 정보공개에 관한 규정이 있다. 그 규정을 참고해 우리는 그것보다 방식과 절차를 더 강화했다. 환자 고유번호를 우선 다 없앤 후 진단 명 중 에이즈나 장애, 기형 등의 정보도 없앴다. 에이즈와 같은 민감한 진단명을 가진 환자의 경우 약 처방내용도 없앴다. 검사 결과가 극단 값을 보이는 환자의 경우 ‘탑 코딩’이라는 방식으로 오차범위 95%로 조정했다. 생년월일도 환자를 식별할 수 있는 정보가 될 수 있기 때문에 각각 무작위 숫자를 부여하고 85를 더했다. 그러면 생년월일을 알 수 없고 임상적으로 의미가 있는 나이를 식별할 수 없다. 그러면 환자 데이터의 일정간격은 유지가 되고 약 처방 날짜도 바뀐다. 이 부분은 우리가 개발한 프로그램이다.”
- 연구팀이 해결한 핵심문제 중 하나가 필요한 데이터를 추출해내는 문제라고 했다. 기존에는 이런 작업이 어려운 실정이었나.
“아주대병원에 전자의무기록인 EMR이 2010년부터 본격 가동에 들어갔다. 그 이후 시점의 병원 내 환자의 심전도 데이터는 EMR에 자동 연동돼 확보할 수 있었다. 2년 여 동안의 자료는 쉽게 확보할 수 있었지만 문제는 20~30년 전 데이터다. 그 당시 데이터는 스캔된 이미지로 '뮤즈'라는 상용 프로그램에 저장돼 있다. 그런데 뮤즈를 관리하는 본사가 과거의 이미지 자료를 전산화할 수 없다고 했다. 본사에 몇 번 요청했는데 이뤄지지 않았다. 기술적 문제라기보다 개인정보가 포함된 과거자료이기 때문에 회사 규정상 공개하지 않은 듯했다. 어쩔 수 없이 우선 웹 파싱(Web parsing) 기술을 이용해 상용시스템 내에 저장된 이미지 데이터를 순차적으로 추출했다. 이는 환자 ID를 일일이 입력해야 얻을 수 있다. 그래서 환자 전체 ID를 한꺼번에 입력해서 한 번에 추출할 수 있는 프로그램을 개발했다. 그나마 종이로 수집된 자료는 웹 파싱 기술조차 쓸 수 없었다. 그래서 인쇄자료의 이미지를 문자로 추출해 내는 기술인 광학문자인식기술로 자료를 확보했다. 이 기술은 고속도로에서 차 번호판 이미지로 차량번호를 문자로 식별해내는 데도 쓰이는 보편적 기술이다. 이를 이용해 인쇄자료의 정보를 모두 문자로 확보해냈다.”
- 이번 연구 결과가 네이처 '임상약학 및 치료학지' 7월 온라인 판에 게재됐다. 어떤 내용을 담고 있나. “그동안 EMR을 통해 확보한 자료를 공개한 경우는 있었지만 37만 명을 대상으로 약 처방 정보 3,700만 건, 검사결과 300만 건처럼 대규모 데이터를 공개한 것은 전례가 없다. 논문의 내용은 약물에서 발생할 수 있는 부작용을 찾기 위함인 연구 목적과 웹 파싱을 응용한 기술을 써서 어떠한 절차로 익명화 작업을 강화해 이번 연구 결과를 낸 과정까지 포함 돼 있다. 중요한 것은 우리 연구 결과 프로그램을 조금만 변형하면 다른 병원에서도 임상자료를 손쉽게 확보할 수 있다는 점이다. 심전도 뿐 아니라 청력검사, 호흡기능 등 다양한 신체 신호를 확보할 수 있다는 데 큰 의의가 있다는 내용을 실었다.”
- 비밀유지 서약을 거쳐 학술연구 목적에 한해 이 자료를 공개하고 있다. 만일 다른 용도로 사용됐을 시 대응방안은 마련돼 있나.
“비밀 유지 서약은 일종의 계약서와 같은 역할을 한다. 그 동의서에는 열 개 정도의 항목이 있는데 그 중 특정 환자를 식별할 목적으로 사용하지 않는다는 등의 조약이 있다. 그럼에도 자료를 특정 목적을 가지고 악용했을 시 발생하는 민사상 문제는 전적으로 사용자 책임이 된다. 일단 유출이 된다 해도 환자 익명성은 철저히 확보한 데이터이기 때문에 개인정보보호법이나 의료법에 저촉되지 않는다고 보면 된다.”
- 단일 병원의 임상자료라는 점 때문에 갖는 데이터베이스의 한계도 있을 것 같다.
“아주대병원이 3차 병원이기 때문에 환자들이 다른 병원에서 약을 처방받거나 진료를 받은 경우도 있었을 것이다. 이 부분은 어쩔 수 없는 한계이다. 지금 진행하고 있는 연구는 최종 승인은 없지만 일단 3개 병원까지 확보한 상태다. 앞으로 50개, 100개 병원 데이터를 확보하는 게 목표다. 그렇게 되면 이번 연구결과의 한계를 벗어날 수 있을 듯하다.”
- 심전도 외에 다른 생체정보 자료를 활용해 연구할 계획도 갖고 있나.
“현재 복건복지부 발주로 3년 동안 8억 원 규모의 예산을 투입하는 연구용역을 진행하고 있다. 이번엔 아주대병원 뿐 아니라 서울성모병원, 길병원의 자료를 함께 수집할 예정이다. 연구에 필요하다고 판단되는 테이블 16개, 필드 200개의 자료를 확보할 것이다. 3개 병원의 공동데이터를 만들면 공동으로 자료를 사용하고 또 익명화 작업을 엄격히 해서 공개용 데이터를 따로 만들 예정이다. 아주대는 동의했지만 다른 두 개병원은 아직 확실치 않다. 이 연구에는 심전도 뿐 아니라 다른 생체정보도 포함된다.”