“한의사와 AI의 상생, 미래의 의료환경은?”

기사입력 2023.04.13 14:47

SNS 공유하기

fa tw
  • ba
  • ka ks url
    “AI 활용하는 한의사, 생산성 달라질 것…환자에게 큰 편익 제공”
    임상술기 등 AI가 대체하기 어려운 영역들에선 중요도 더욱 향상

    장동엽.png

    장동엽 연구원

    (가천대학교 한의과대학 생리학교실)


    <편집자주> 

    최근 GPT-4가 ‘2022년 한의사 국가시험’에서 57.29%의 정답률로 합격선에 근접한 성적을 거둔 것으로 나타났다. GPT-4는 340개 문항에 걸쳐 각 5번의 실험을 반복했으며, 질문에 대한 답변이 일관성이 높을수록 정확도가 높아졌다. 

     

    본란에서는이번 연구를 진행한 장동엽 연구원(가천대학교 한의과대학 생리학교실)을 만나 연구 진행방식부터 연구결과, 향후 한의계의 미래에 대해 들어봤다.장 연구원은 현재 박사 4년차로 기초한의학의 다양한 아이디어들을 데이터 과학적 연구방법론을 활용해 확인하는 연구들을 진행하고 있다.


    Q. GPT를 한의사 국가시험에 적용한 계기는?

     

    한의사의 의사결정과정을 모사하는 AI를 개발하는 것은 오래 전부터 많은 한의학 연구자들의 목표였다. 이를 위해 최근까지도 많은 연구자들이 매진하고 있다. 그러던 와중, ChatGPT가 단순히 일반적인 대화뿐 아니라 다양한 전문 영역에서 높은 성능을 발휘한다는 소식을 듣게 됐다. 

     

    특히 ChatGPT가 미국 의사 면허 시험을 합격한 소식을 듣고 ‘한의사 국가시험도 풀 수 있을까?’라는 의문에서 연구는 출발됐다. 한의사 국가시험과 유사한 유형의 문제로 ChatGPT에게 풀게 해봤는데, 생각보다 정답률이 높았다. 공식적으로 한 번 연구해봐도 괜찮겠다는 생각이 들어 연구를 시작하게 됐다.


    장동엽3.PNG

    Q. GPT-4 정답률이 국시 합격선에 근접했다.

     

    대형언어모델(Large language model, LLM)에 대해 우리 연구실에서도 예전부터 관심이 많았으나, 이를 한의학 연구에 사용할 수 있을지에 대해서는 이견이 분분했다. 

     

    사실 ChatGPT의 기반 모델이 된 GPT-3가 처음 공개됐을 때, GPT-3를 만든 OpenAI에서 홍보한 것에 비해서는 퍼포먼스가 아쉽다는 평가가 지배적이었다. 무엇보다 GPT-3 등 대형언어모델들은 주로 영미권에서 수집된 데이터를 학습하기 때문에, 한국어에 취약하다는 문제가 있다. 

     

    또한 일반적으로 학습되는 데이터가 특정 분야(의학 등)에 한정되어 학습되는 것이 아니기 때문에, 이러한 모델들을 특정 분야에 활용하기 위해서는 해당 분야에 대한 데이터로 모델을 추가로 학습시키는 미세 조정(fine-tuning)을 해야 한다는 것이 상식이었다. 한의학적 내용 역시도 당연히 파악하지 못할 것이라고 생각했다. 한의학에 대형언어모델을 사용하려면 이러한 장벽을 해결해야 하고, 이를 위해선 꽤 긴 시간에 걸친 특별한 노력들이 필요하다고 생각할 수밖에 없었다. 

     

    그러나 GPT-3을 개량한 GPT-3.5, 그리고 이를 기반으로 만들어진 ChatGPT는 기대 이상의 성능을 발휘했다. 특히 GPT-4는 정답률이 약 57.29%로 합격기준에 근접하는 성적을 냈다. 평균 정답률이 합격 기준인 60%에 약간 부족한 것은 사실이지만, 한의학에 대한 내용에 이 정도의 성능을 나타낸다는 것 자체가 매우 큰 충격으로 다가왔다.


    Q. 과목별로 정답률 편차가 심하다.

     

    가장 큰 원인은 GPT 모델들이 학습된 데이터의 문화적 편중이라고 본다. GPT-3는 여러 텍스트 데이터를 학습했는데, 대부분이 영어로 되어 있거나 영미권에서 생산된 데이터이다. 

     

    예를 들어, Reddit이라는 커뮤니티의 게시물을 학습에 활용했는데, 이 커뮤니티의 이용자의 절반 이상이 영미권 국가에 거주하는 사람이다. 또한 다른 텍스트 데이터의 경우에서도 영어 데이터는 50% 이상을 차지하는 반면 한국어 데이터는 0.65%에 불과하다. 한국어 및 한국 문화에 대한 학습이 충분히 이뤄지지 않았다고 볼 수 있다.

     

    실제로 이번 연구에서도 양방 지식으로 충분히 풀 수 있는 문제들의 경우 높은 정답률이 나타난 반면, 한의학 문제의 경우 상대적으로 낮은 정답률이 나타났다. 그에 따라 양방 지식을 평가하는 문제의 비중이 높은 과목은 상대적으로 높은 정답률, 그렇지 않은 과목은 낮은 정답률을 나타내는 것으로 보인다. 그 중에서도 가장 낮은 정답률이 나온 ‘내과학2’는 중의학보다 한의학에서 더욱 중요하게 다뤄지는 상한론이나 사상의학에 대한 과목으로, 이에 대해 학습할 수 있는 데이터가 중의학과 공유하는 내용들에 비해 더욱 부족했던 것으로 보인다.


    Q. 이번 연구에서 강조하고 싶은 부분은?

     

    ‘보건의약관계법규’ 과목에서 낮은 점수를 나타낸 것이 이번 연구에서의 가장 중요한 발견이라고 생각한다. 보건의약관계법규는 한의학과 무관하기 때문에 상대적으로 정답률이 높을 것으로 기대했지만, 평균에 비해 정답률이 낮았다. 영미권에서 생산된 데이터가 한의학에 대한 지식이 부족할 뿐 아니라, 사실은 한국 의료의 특징을 결정하는 한국의 의료체계, 의료법, 진료지침 등에 대해 충분히 학습하지 못했을 가능성을 나타내기 때문이다. 

     

    이러한 점은 단순히 한의AI 개발에서만의 이슈가 아닌, 한국에서의 일반적인 의료AI의 개발, 더 나아가 서로 다른 의료체계를 가진 다양한 국가에서 모델을 개발 및 활용할 때 참고할 수 있는 발견이라고 생각한다. 실제로 일본 의사 국가시험에 대한 GPT 모델들의 정답률을 평가한 연구에서도, 일본에서 안락사가 금지돼 있음에도 불구하고 안락사를 권유하는 뉘앙스의 응답을 하는 등 일본 의료의 특징을 제대로 반영하지 못하는 현상이 나타나기도 했다. 한의학을 소재로 연구를 수행하는 과정에서, 보다 보편적인 의료AI 연구에 참고할 수 있는 점을 발견했다고 생각한다.


    장동엽2.png
    한의사 국가시험 예시 문항와 그에 대한 GPT-4의 응답

     

    Q. 한의학과 GPT의 미래 모습은?

     

    아직은 초기 개발 단계에 있지만, 만약에 이런 AI들이 상용화돼 임상에 적용된다면 지금과는 임상 현장이 크게 달라지지 않을까 생각한다. 한의사와 환자 간의 대화를 바탕으로 진료 차트를 작성할 뿐 아니라 치료계획을 수립해줄 수도 있을 것이다. 한의사 한 명의 생산성이 크게 올라가면서 진료를 보다 심층적으로 수행할 수 있게 되고, 궁극적으로는 환자에게 큰 편익으로 돌아올 것이라고 생각한다. 이러한 AI를 제대로 사용할 수 있고, 더 나아가 그 기술을 이해해 비판적으로 사용하거나 새로운 시스템을 개발할 수 있는지에 따라 한의사의 실력이 달라지지 않을까 생각한다. 

     

    이러한 의료환경에서 AI를 활용하지 못하는 한의사는 마치 엑셀을 활용하지 못하는 사무직 직원과 같은 처지에 놓이지 않을까 싶다. 한의학의 의사결정과정도 충분히 AI로 재현할 수 있음을 이번 연구를 통해 보인 것처럼, 한의학도 이러한 흐름에서 벗어나 있다고 보기는 어렵다. 임상술기 등 아직까지는 AI가 대체하기 어려운 영역들에 대한 중요도가 더 높아질 가능성도 있다.

     

    이러한 AI가 한의사를 직접적으로 대체하지는 않을 것이고, 보조하는 역할을 수행할 것으로 생각한다. 그러나 동시에 한의사의 역할이 지금과는 많이 달라질 것이라고 본다.


    Q. 앞으로 계획된 후속 연구는?

     

    GPT-4 등 모델이 한의학적 내용을 지금보다 더 학습할 수 있는 방법을 개발하고 이를 통해 정답률을 더 높여보려고 한다. 이를 직접적으로 임상에 활용할 뿐 아니라 한의학 기초이론 연구에 활용할 수 있는 방법 역시 추후 연구할 예정이다.


    Q. 이외에 하고 싶은 말은?

     

    생각했던 것보다 이번 연구가 많은 사람들에게 언급이 되는 것 같아 감사하다. 저와 김창업 교수님을 포함한 저희 NNSM Lab이 수행하는 연구들에 대해 앞으로도 많은 관심을 가져주시길 바란다.


    backward top home