Штучний інтелект впорався з медичним діагностуванням краще за лікарів. Але лише за текстовими описами.

Марія Довга 1 годину тому Джерело: Science

Модель штучного інтелекту OpenAI o1 перевершила лікарів у низці завдань на розрізнення подібних за симптомами діагнозів, вибір наступних обстежень, пояснення логіки діагнозу та надання «другої думки» у реальних випадках із відділення невідкладної допомоги. Утім, такі результати були отримані, коли й лікарі, і моделі працювали виключно з текстовими описами випадків. Поки що невідомо, як поводитимуться моделі у більш реалістичних сценаріях із більшою кількістю контексту, тож дослідники рекомендують провести клінічні випробування таких систем у реальних умовах медичних закладів. Дослідження опублікували у журналі Science.

Тут твій підпис

Чому науковці шукають способи алгоритмізації медичної діагностики?

Ідея використати комп’ютери для медичної діагностики не нова, адже лікарі не просто вгадують діагнози — зазвичай їм необхідно співставити низку симптомів, створити кілька гіпотез щодо діагнозу, перевірити їх у порядку спадання імовірності тої чи іншої хвороби та призначити у разі потреби додаткові обстеження. Тому спроби алгоритмізувати діагностику складних медичних випадків почалися ще у 1950-х роках.

Утім, раніше точність комп’ютерних систем у розв'язуванні таких задач була настільки низькою, що їх навіть не намагалися порівнювати з лікарями. Нині великі мовні моделі суттєво прогресували, тож виникла потреба зіставити їхню успішність у діагностуванні різноманітних захворювань та станів з ефективністю роботи людей. Перевірити це взялася група американських науковців із кількох дослідницьких установ, зокрема, Стенфордського та Гарвардського університетів.

Як порівнювали ефективність моделі та лікарів?

Щоб порівняти ефективність лікарів та великих мовних моделей у постановці діагнозу, вчені оцінили модель OpenAI o1-preview у кількох типах завдань, серед яких були стандартні діагностичні задачі для медичних комп’ютерних алгоритмів, складні випадки, що публікувалися на медичних конференціях, навчальні кейси, а також реальні випадки з відділення невідкладної допомоги одного з медичних центрів Бостона. У кожному експерименті відповіді моделі порівнювали з результатами лікарів або попередніх моделей, зокрема GPT-4 і GPT-4o. У частині випадків якість відповідей оцінювали незалежні лікарі, які не знали, чи діагностику проводила людина, чи штучний інтелект.

В одному із головних тестів модель мала скласти диференційний діагноз — перелік можливих хвороб або станів, які могли пояснити симптоми пацієнта. Правильний діагноз входив до списку OpenAI o1-preview у 78,3 відсотка випадків. У 52 відсотках випадків модель вказувала правильний діагноз першим у списку. Якщо ж враховували не лише абсолютно точні, а й дуже близькі або клінічно корисні діагнози, точність OpenAI o1-preview сягала 97,9 відсотка.

Окремо дослідники перевірили, чи здатна модель не тільки назвати можливу хворобу, а й призначити подальші обстеження. У 98,5 відсотка випадків лікарі-оцінювачі визнали запропонований моделлю план правильним, або принаймні корисним.

OpenAI o1-preview також краще за GPT-4 та лікарів пояснила логіку постановки діагнозу. Водночас у завданні на виявлення критично важливих діагнозів, помилка у визначенні яких може стати для пацієнта фатальною, ця модель справлялася добре, але не демонструвала очевидного відриву від результатів людей-лікарів та GPT-4.

У п’яти задачах, де треба було не лише визначити діагноз, але і скласти план подальшого лікування й менеджменту OpenAI o1-preview значно перевершила лікарів із медіанним результатом у 89 відсотків. GPT-4 набрав 42 відсотки, лікарі з доступом до GPT-4 — 41 відсоток, а лікарі зі звичайними ресурсами — 34 відсотки. У шести класичних діагностичних випадках OpenAI o1-preview показала середню точність у 97 відсотків, однак статистично переконливої переваги над GPT-4 і лікарями автори не виявили

У задачі, що стосувалася первинної оцінки стану пацієнта у відділенні невідкладної допомоги OpenAI o1-preview дала точний або дуже близький діагноз у 67,1 відсотка випадків, тоді як для двох лікарів цей показник становив 55,3 і 50 відсотків. Водночас на етапі рішення щодо госпіталізації пацієнта частка точних або майже точних відповідей моделі сягнула 81,6 відсотка.

Чи зможе штучний інтелект замінити лікарів?

Дослідження показало, що великі мовні моделі можуть бути корисними як інструмент «другої думки», особливо в ситуаціях, коли лікар працює з неповною інформацією або має швидко розглянути кілька можливих діагнозів.

Однак, автори закликають не поспішати із заявами про те, що штучний інтелект замінить лікарів. У цьому дослідженні як вхідні дані використовували лише текстову інформацію, тоді як у реальних умовах лікар помічає поведінку та зовнішній вигляд пацієнта, працює із результатами візуальних обстежень та ураховує багато інших сигналів, які не завжди можна описати текстом. Також частина використаних випадків була спеціально підготовлена для оцінювання, тож мала чистіші й структурованіші формулювання, ніж реальні медичні ситуації, у яких дані часто неповні, суперечливі або подані хаотично.

Ба більше, від лікаря часто вимагають не просто поставити діагноз. У відділенні невідкладної допомоги лікарі ухвалюють рішення про безпеку, сортування пацієнтів, терміновість втручання, госпіталізацію, комунікацію з родиною та командну роботу. Тому необхідні додаткові випробування, щоб перевірити, як використання моделей штучного інтелекту впливатиме на реальну безпеку пацієнтів, кількість діагностичних помилок, швидкість ухвалення рішень, витрати та навантаження на медиків.

Як штучний інтелект можна використати у медицині

📸 Штучний інтелект зміг за фотографіями передбачити ризик смерті пацієнток із раком грудей.

🗣 Нашийник зі штучним інтелектом повернув людям після інсульту здатність говорити, а також допоміг озвучити думки людям із мозковими імплантами, коли ті лише уявляли мовлення.

🤖 Водночас загальнодоступні моделі штучного інтелекту потребують додаткового навчання, аби не лестити користувачам щодо медичних питань.