AI 주치의 경쟁 가열되지만…“자가 진단, 기존 검색보다 낫지 않다”
주요 인공지능(AI) 챗봇 기업들이 ‘AI 주치의’를 내세운 건강관리 기능을 앞다퉈 선보이고 있지만, 실제 이용자에게는 기존 인터넷 검색과 비교해 뚜렷한 이점을 주지 못한다는 연구 결과가 나왔습니다.
영국 옥스퍼드대 연구진은 성인 1천300명을 대상으로 주요 AI 챗봇과 기존 검색엔진을 활용한 자가 진단 실험을 진행한 결과를 국제학술지 네이처 메디신에 게재했다고 AFP와 로이터 통신이 현지시간 9일 보도했습니다.
연구진은 실험 참가자들에게 숙취로 인한 두통, 담석증 등 10가지 가상 건강 시나리오를 제시하고 오픈AI의 ‘GPT-4o’, 메타의 ‘라마3’, 코히어의 ‘커맨드R+’ 가운데 하나를 사용해 자가 진단을 하도록 했습니다. 대조군은 구글 등 기존 인터넷 검색엔진을 이용해 같은 과제를 수행했습니다.
그 결과, 질환을 정확히 식별한 비율은 34.5%에 그쳤고, 병원 방문이나 응급차 호출 등 적절한 대응 방법을 알아낸 비율도 44.2%에 불과했습니다. 이는 기존 검색엔진을 사용한 대조군과 비교해 통계적으로 유의미한 차이가 없는 수준이었습니다.
연구진은 이런 결과의 주요 원인으로 ‘소통의 단절’을 지목했습니다. AI 챗봇은 방대한 의학 지식을 갖추고 있지만, 이용자들이 자신의 증상을 충분하고 정확하게 설명하기 어렵고, AI의 답변을 오해하는 경우도 적지 않았다는 설명입니다.
실제로 뇌출혈을 유발할 수 있는 지주막하출혈 사례에서 “지금까지 경험한 최악의 두통”이라고 표현한 참가자는 ‘즉시 병원에 가라’는 조언을 받았지만, 같은 증상을 “끔찍한 두통”이라고만 설명한 다른 참가자는 ‘어두운 방에서 쉬라’는 부적절한 답변을 받는 차이가 나타났습니다.
논문 공동 저자인 레베카 페인 박사는 “AI는 아직 의사의 역할을 대신할 준비가 돼 있지 않다”며 “환자들은 AI 챗봇에 증상을 묻는 것이 위험할 수 있다는 점을 인식해야 한다”고 강조했습니다.
실제 의료 현장에서도 AI 기기의 안전성을 둘러싼 우려가 커지고 있습니다. 존슨앤드존슨 자회사 애클래런트가 개발한 부비동 수술용 내비게이션 장비 ‘트루디’는 2021년 AI 기능을 추가한 이후 오작동 신고가 100건 이상 접수됐습니다. AI 기능 도입 이전 3년간 신고가 7건에 불과했던 것과 비교하면 급증한 수치입니다.
미 식품의약국(FDA)에 제출된 보고서에는 수술 도구의 위치를 잘못 안내했다는 사례가 포함됐으며, 이로 인해 두개골 기저부 손상, 뇌척수액 유출, 동맥 손상에 따른 뇌졸중 등 심각한 사고가 발생한 경우도 보고됐다고 로이터는 전했습니다.
이에 대해 2024년 애클래런트를 인수한 인테그라 라이프사이언스 측은 “사고가 발생한 수술 현장에 해당 장비가 사용됐다는 사실만으로 인과관계를 단정할 수는 없다”고 해명했습니다.
소비자용 AI 의료 앱을 둘러싼 허위·과장 광고 문제도 도마에 올랐습니다. 일부 앱이 암을 양성으로 오진하거나, 반대로 이상이 없는데도 암이라고 진단하는 등 혼란을 초래했다는 지적입니다. 애플과 구글은 취재가 시작되자 문제로 지적된 일부 앱을 앱 장터에서 삭제 조치했습니다.
이런 가운데 오픈AI와 앤트로픽, 아마존 등 주요 빅테크 기업들은 최근 AI를 활용한 건강관리 도구를 잇따라 출시하며 시장 선점을 위한 경쟁을 이어가고 있어, 기술 발전과 안전성 확보 사이의 균형이 중요한 과제로 떠오르고 있습니다.
[YTN]









































































