You are on page 1of 6

챗 GPT 와 의료의 미래

최 윤섭 1*
1
디지털헬스케어파트너스 대표
*Corresponding Author

MAIN
전세계적으로 인공지능 챗 GPT 의 열풍이 뜨겁다. 미국의 오픈 AI 가 내어놓은
챗 GPT 는 거대언어모델(LLM), GPT 에 기반한 인공지능으로, 사람과
대화하듯이 인공지능과 채팅 형식으로 말을 주고 받으며, 다양한 과업을
수행할 수 있다. 과거 인공지능은 딱 한가지의 과업을 수행하는 목적으로
개발되었으나, 챗 GPT 는 일반적인 인지 능력을 가지고 있기 때문에 ‘언어’로
주문할 수 있는 다양한 질문, 명령 등에 대해서 답을 내어놓는다.

지난 3 월 GPT-4 의 출시 이후 챗 GPT 의 성능은 비약적으로 발전했다.


마이크로소프트의 연구자들은 최근 한 논문을 통해 이제 챗 GPT 가 수학,
프로그래밍, 시각, 의학, 법률, 심리학 등을 아우르는 새롭고 어려운 과제를
해결할 수 있음을 입증하며, 인간 수준의 성능에 놀라울 정도로 근접했다는
것을 보였다 [1]. 이를 통해 GPT-4 가 사람처럼 사고할 수 있는 일반 인공 지능
(AGI)의 초기 버전으로 볼 수도 있다고까지 주장했다. 챗 GPT 뿐만 아니라,
구글이 개발한 팜(PaLM) 등의 LLM 역시 챗 GPT 못지 않은 좋은 성과를 보이고
있다.
이러한 LLM 의 활용 분야로 가장 중요하게 꼽히는 분야가 의료이다. 오픈 AI
에서 GPT-4 를 외부에 공개하기 전부터 의료는 중요 활용 분야로 지정하여
내부적으로 연구를 진행해왔다. 오픈 AI 의 지분 49%를 소유한
마이크로소프트의 연구자들이 지난 3 월 NEJM 에 출판한 아티클에 따르면,
GPT-4 의 의료 활용 가능성을 외부 공개 전 6 개월 동안 면밀하게
연구해왔다고 한다 [2].
이에 따라 최근 의료계에는 챗 GPT 를 비롯한 LLM 을 어떻게 의료를 혁신할
수 있을 것인지에 대한 논의가 활발하게 진행되고 있다. LLM 은 텍스트로
이루어진 의학 지식을 대규모로 학습할 수 있을 뿐만 아니라, 사용자와 서로
상호작용할 수 있다. 따라서 이를 의료의 다양한 문제 해결에 활용할 수 있는
가능성이 있다.

LLM 의 의료 적용에서 가장 활발하게 연구되고 있는 주제는 바로 의학 질문에


답을 얼마나 잘 하는지를 검증해보는 것이다. LLM 이 임상 지식을 얼마나 잘
인코딩하고 있으며, 임상적으로 잠재력이 있는지를 평가하기 위해서 가장
직접적인 방법이기 때문이다.

대표적인 연구로 ChatGPT 에 미국 의사 면허 시험(USMLE) 문제를 입력하고,


정답을 얼마나 맞추는지를 테스트한 사례가 있다 [3]. 이 연구에서는 USMLE
의 웹사이트에 2022 년 6 월 공개된 샘플 문제 376 개 중에서, 이미지와 그래프
등이 포함된 문제를 제외한 총 305 문제를 ChatGPT 에 입력하였다.
프롬프트는 크게 세 가지 형식으로 입력하였다: 선택지를 제외하고
의문문으로 변환해서 입력하거나, 선택지까지 문제 그대로 입력하거나, 또는
추가적으로 정답에 대한 설명까지 요구하는 방식이었다.
ChatGPT 의 답변을 두 명의 의사가 검토한 결과, 정확도는 대부분의 평가
방식에서 50%이상, 일부 60% 이상을 보여주면서 USMLE 를 통과할 수 있거나
통과에 근접한 퍼포먼스를 보여주었다. 또한 답변은 94.6%의 높은 일관성
(concordance)를 보여주었으며, 답변의 88.9%에서 적어도 유의미한
인사이트가 포함되어 있었다.

또한 구글이 개발한 의료에 특화된 LLM 인 Med-PaLM 이 다양한 의학적


질문에 답하는데 좋은 성능을 보여준다는 것을 보여주었다 [4]. 구글의
연구자들은 LLM 의 임상적 잠재력을 테스트하기 위해서 MultiMedQA 라는
의학적 질문-답변의 새로운 벤치마크 데이터셋을 만들었다. 여기에는 기존의
의학 질문-답변 데이터셋 6 가지(MedQA, MedMCQA, PubMedQA 등)과
구글에 검색된 의학 질문을 활용한 HealthSearchQA 가 포함된다.
의학에 특화된 LLM 을 만들기 위해, 540B 개의 파라미터로 구성된 구글의
범용 LLM 인 PaLM 을 기반으로 instructuion-tuned variant 인 Flan-PaLM 을
만들었다. 이 Flan-PaLM 에 few-shot, chain-of-thought, self-consistency
prompting strategy 를 활용해서 여러 의학 질문-답변 데이터셋에
테스트해보면, state-of-the-art 성능을 보여준다. 하지만 Flan-PaLM 은
구글에서 사람들이 검색한 질문에 답하는 능력은 다소 떨어졌다. 그래서
instruction prompt tuning 을 활용해서 Flan-PaLM 을 메디컬 도메인에 더
적응시키는 과정을 거쳤다. 그렇게 탄생한 것이 Med-PaLM 이다.

Med-PaLM 은 다양한 의학적 질문에 답하는 문제에 높은 정확성을 보여준다.


논문에서는 100 개의 의학적 질문에 대한 Med-PaLM 의 답변과 인간 의사의
답변을 맹검 처리하여, 9 명의 의사 패널이 평가해보았다. 그 결과 과학적
타당성(scientific consensus), 부적절/부정확한 내용(inappropriate/incorrect
content), 정보 누락(missing content), 잠재적 위해도(possible harm), 편향
(bias) 등 다양한 측면에서 인간 의사의 답변과 비슷한 수준을 보여준다.
후속 연구에서 개발된 Med-PaLM2 는 의학적 질문에 답변하는 문제에서
Med-PaLM 보다 더욱 개선된 성능을 보여준다 [5]. 장문(long-form) 질문-
답변의 문제에서 Med-PaLM2 는 의사에 버금가는 퍼포먼스를 12 가지의
다양한 기준에 대해서 보여준다. 또한 이 연구에서는 의도적으로 적대적 질문
(adversarial questions)' 데이터셋을 만들어서 모델을 테스트했다. 적대적
질문에는 약물, 정신 건강, 자살, 인종 등의 일반적 적대적 질문과 의료 접근성,
의료의 질, 사회적 요인 등 의료 형평성(health equity)에 특화된 데이터셋을
포함되었다. Med-PaLM2 는 Med-PaLM 에 비해서 적대적 질문에 대해
통계적으로 유의미하게 더 나은 답변을 보여준다.
이 연구에서는 Med-PaLM2 와 의사의 답변을 1:1 로 비교하였는데,
흥미롭게도 평가자를 의사 뿐만 아니라 일반인(layperson)으로도
테스트해보았다. 그 결과 대부분의 기준에 대해 Med-PaLM2 의 답변이 의사의
답변에 비해서 더 우수하다고 평가되었다. 특히, 일반인 평가자들은 Med-
PaLM2 의 답변이 의사의 답변에 비해서 질문의 의도에 대한 답을 비슷한
수준으로 잘 내어놓으며, 오히려 더 큰 도움이 된다고 평가하였다.

또 다른 연구에서는 ChatGPT 가 USMLE 문제 수준을 넘어서는 어려운 진단


케이스에 대한 감별 진단에도 우수한 성능을 보인다는 것을 보여주었다 [6].
이 논문에서는 NEJM 의 clinicopathologic conferences 에 나오는 케이스들을
활용했다. 여기에는 교육을 목적으로 병리학적으로 최종 진단이 내려진
어려운 케이스들이 소개된다. 2021 년 1 월부터 2022 년 12 월까지 NEJM 에
소개된 70 개의 케이스를 입력하여 ChatGPT 로 감별진단을 진행해보았다.
분석 결과, ChatGPT 가 1 등으로 내어놓은 진단명이 정답일 확률은 39%
(27/70)이었다. 또한 ChatGPT 의 진단 목록 중에 정답이 포함되어 있을 확률은
64% (45/70)이었다. 또한 답변을 5 점 척도로 평가하였을 때(감별진단 목록에
실제 진단이 포함되면 5 점, 정확하지는 않지만 근접한 답이 포함되어 있으면
4 점 등이고, 관계된 답이 전혀 없는 경우는 0 점으로 정의) ChatGPT 답변의
중간값은 5 점이었고, 평균값은 4.2 점이었다. ChatGPT 의 이러한 성능은
기존의 감별진단을 목적으로 개발된 인공지능과 유사하거나 더 좋은 성과를
보인 것이다.

그런가 하면, 온라인 포럼에 올라온 환자의 임상적인 질문에 대해서 ChatGPT
가 의사에 비해서 더 양질의 공감력 높은 답변을 해준다는 보고를 한 연구도
있다 [7]. 이 연구에서는 미국의 레딧이라는 온라인 포럼에 올라온 환자의
질문과 의사의 답변 195 개를 무작위로 추출하여 ChatGPT 의 답변과
비교하였다. 답변은 맹검 처리하여 세 명의 의사가 평가하였다.
그 결과 평가자들은 ChatGPT 의 답변을 의사의 답변보다 유의미하게 더
좋다고 평가했다. 총 585 번의 평가 중에 78.6%는 ChatGPT 의 답변이 더
낫다고 평가했다. 또한 ChatGPT 의 답변의 질이 의사의 답변보다 유의미하게
더 높다고 평가했다. ChatGPT 의 답변의 평점은 4.13 점이었고, 의사의 답변은
평균 3.26 점이었다. 또한 좋음/아주 좋음의 평가을 받은 비율은 ChatGPT 는
78.5%, 의사는 22.1%로 3.6 배 정도의 차이가 났다. 뿐만 아니라, ChatGPT 의
답변은 의사의 답변에 비해 유의미하게 환자의 질문에 더 공감을 잘 하는
것으로 나타났다. ChatGPT 답변의 공감은 평점 3.65 점, 의사의 답변은 2.15
점으로 의사의 답변이 41% 낮았다. 공감력이 좋음/아주 좋음의 평가를 받은
비율은 ChatGPT 가 45.1%인데 비해서, 의사는 4.6%로 9.8 배 차이가 났다.

이와 같이 의학적인 질문에 답변을 하는 것 이외에도, 의사와 환자 간의 대화


기록을 바탕으로 EMR 에 입력할 수 있는 메디컬 노트를 작성하기 위해서 LLM
을 활용할 수 있다 [2]. OAP (Subjective, Objective, Assessment and Plan)와
같은 특정한 형식으로 노트를 정리할 수도 있고, 수가 청구 코드를 자동으로
넣거나, 처방 오더를 자동으로 낼 수도 있다.
관련하여 마이크로소프트가 인수한 뉘앙스에서는 진료실이나 원격진료에서
의사와 환자 간의 대화가 저장된 영상과 음성에서 메디컬 노트를 자동으로
정리해주는 인공지능을 서비스하고 있기도 하다. 기존에는 이러한 결과물을
인간 리뷰어가 검수하는 과정이 있었으나, 2023 년 3 월 뉘앙스는 GPT-4 를
도입하여 전체 과정을 인공지능으로 자동화할 계획을 발표하기도 했다.

유사한 연구로, 영상의학 판독문을 ChatGPT 를 통해 구조화된 양식으로


변환할 수 있음을 보여준 논문도 소개되었다 [8]. 영상의학과에서 판독문을
구조화된 포멧으로 레포팅하는 것은 의사들 사이에서 커뮤니케이션을 위해서
뿐만 아니라, 연구할 때 데이터 추출, 질 개선 등을 위해서 중요하다.
연구에서는 GPT-4 를 활용해서 170 개의 영어로된 CT 와 MRI 판독문을
구조화된 양식으로 자동 변환했다. 자동 변환의 첫번째 단계로 GPT-4 에게
자연어 판독문에 기반해서 여러 양식(template) 중에서 가장 적합한 것을
고르라고 주문했다. 두번째 단계로 그 양식에 기반하여 판독문을 구조화해서
JSON 포멧으로 결과물을 내어놓으라고 명령했다.
그 결과 판독문을 일관성(consistency)과 정확성(accuracy) 측면에서
평가했더니, 변환은 완벽했다. 170 개의 판독문 모두 오류 없이 JSON 파일로
변환에 성공하였다. 영상의학 판독문에 있던 모든 핵심적인 판독(key finding)
을 정확하게 변환했고, 추가적인 정보가 더해지지도 않았다. 또한 모든
케이스에 모델은 적합한 양식을 선택하였다.

반면, LLM 이 넘어야 할 기술적 한계도 있다. 소위 ‘할루시네이션’ 혹은 ‘환각’


이라고 불리는 현상이 대표적이다. 챗 GPT 가 정확하지 않거나 전혀 엉뚱한
답변을 매우 그럴듯하게 생성하는 경우다. 특히, 사람의 생명을 책임지는 의료
분야에서 이러한 할루시네이션은 큰 문제가 될 수 있다.
또한 이런 인공지능을 어떻게 합리적으로 규제할 것인지도 골치아픈 문제다.
최근 연구에 따르면 챗 GPT 를 의료에 활용하는 경우 많은 국가에서
의료기기로 분류된다 [9]. FDA 도 챗 GPT 를 의료기기로 규제하겠다는 방침을
밝힌 바 있다. 하지만 무한대에 가까운 입력과 출력이 가능한 인공지능의
정확성과 안전성을 어떻게 검증할 것인지는 식약처와 FDA 를 포함한 전 세계
규제 기관들이 이제부터 고민해야 할 숙제다.
챗 GPT 를 비롯한 거대언어모델 인공지능은 ‘불의 발견’에 비견될 정도로
인류에게 큰 가능성을 열어주고 있다. 특히 이러한 인공지능은 의사와 환자를
도움으로써 의료를 혁신할 잠재력을 지니고 있다. 하지만 또 한편으로는 여러
기술적, 규제적 난제들이 남아 있기도 하다. 인공지능이 가진 잠재력은
극대화하고, 문제점들은 현명하게 해결해서, 의료의 미래를 열어갈 수 있기를
기대해본다.

Editorial Comment
디지털헬스케어 전문가인 저자가 집필한 본 원고는 인공지능, 특히
거대언어모델과 같은 첨단 기술이 의료 분야에서 어떻게 활용될 수 있는지에
관한 중요한 통찰을 제공한다. ChatGPT 와 같은 시스템이 의료기기로
분류되어 FDA 를 포함한 전 세계 규제 기관들의 규제를 받게 되는 것은 이
기술이 의료 분야에서 중요한 역할을 할 수 있음을 인정하는 것이라고 생각해
볼 수 있다.
저자는 인공지능이 향후 의사와 환자 모두에게 줄 수 있는 이익의 잠재력을
강조하고 있다. 이러한 기술의 발전은 진단과 치료 계획 수립, 환자 교육 및
관리 등 여러 방면에서 의료 서비스의 질을 향상시킬 수 있다. 그러나
인공지능의 정확성과 안전성을 어떻게 검증할 것인지는 아직 해결해야 할
중요한 문제이다. 거대언어모델 인공지능의 복잡성과 다양성 때문에 이러한
시스템의 결과를 완벽하게 예측하고 통제하는 것은 매우 어렵다. 그러므로
이러한 인공지능 시스템을 안전하고 효과적으로 관리하기 위한 새로운 규제
프레임웍의 개발이 중요하고 이는 기술적인 측면과 윤리적, 법적 측면을 모두
포괄해야 하며, 이를 통해 인공지능기술이 의료 영역에서 환자의 안전을
해치지 않고 그 잠재력을 최대한 발휘할 수 있도록 해야 한다. 이 점이 우리가
인공지능에 지속적인 관심을 가져야하는 결정적인 이유라고 할 수 있다.
결론적으로, 인공지능 등 기술의 발전은 미래 의료에 혁신적인 변화를 가져올
수 있는 막대한 잠재력을 갖고 있지만, 이러한 변화를 안전하고 책임있게
관리하는 것이 가장 중요하다고 할 수있다. 정부기관, 개발자, 의료진이
협력하여 인공지능의 이점을 최대화하고 잠재적인 문제점들을 현명하게
해결함으로써, 의료의 미래를 밝게 열어갈 수 있기를 기대하며, 이에 대한
우리의 지속적인 관심이 필요하다.
References
1
Lee P et al., Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine, NEJM,
2023 10.1056/NEJMsr221418436988602

2
Bubeck S et al., Sparks of Artificial General Intelligence: Early experiments with GPT-
4, arxiv, 2023

3
Kung TH et al., Performance of ChatGPT on USMLE: Potential for AI-assisted medical
education using large language models, PLOS Digit Health, 2023 10.1101/2022.12.19.22283643

4
Singhal K et al., Large language models encode clinical knowledge, Nature, 2023

5
Singhal K et al., Towards Expert-Level Medical Question Answering with Large
Language Models, 2023

6
Kanjee Z et al., Accuracy of a Generative Artificial Intelligence Model in a Complex
Diagnostic Challenge, JAMA, 2023 10.1001/jama.2023.828837318797PMC10273128

7
Ayers JW et al., Comparing Physician and Artificial Intelligence Chatbot Responses to
Patient Questions Posted to a Public Social Media Forum, JAMA Intern Med.,
2023 10.1001/jamainternmed.2023.183837115527

8
Adams LC et al., Leveraging GPT-4 for Post Hoc Transformation of Free-text
Radiology Reports into Structured Reporting: A Multilingual Feasibility Study,
Radiology, 2023 10.1148/radiol.23072537014240

9
Gilbert S et al., Large language model AI chatbots require approval as medical
devices, Nat Med, 2023 10.1038/s41591-023-02412-6

You might also like