ChatGPTが示す医療AIの未来：米国医師国家試験を突破【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

ChatGPTが示す医療AIの未来：米国医師国家試験を突破【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
ChatGPTは、アメリカ医師国家試験（USMLE）の3段階すべてで、特別なトレーニングや強化学習なしに合格基準に達するか、それに近い成績を収めました。この成果は、大規模言語モデルが医学教育や臨床意思決定を支援する可能性を示唆しています。特にChatGPTは、試験の説明において高い一致性と洞察力を示し、AIシステムが医療分野で信頼されるための重要な要素である説明可能性を備えていることを証明しました。一方で、医療分野におけるAIの適用には信頼性と安全性の確保が求められるため、これらの技術の導入は慎重に進める必要があります。ChatGPTのパフォーマンスは、AIが医療知識を持つ専門家と比較される初期段階の成果であり、今後の研究や実践においてさらに評価されるべき重要な一歩となります。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次 ChatGPTが示す医療AIの未来：米国医師国家試験を突破【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

Introduction

Methods

Results

Discussion

ChatGPTがアメリカの医師国家試験（USMLE）に挑戦し、AIが医学教育にどのように貢献できるかを探る研究論文です。

Kung TH et al., Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health https://doi.org/10.1371/journal.pdig.0000198 February 9, 2023.

この研究では、ChatGPTがUSMLEの3段階の試験全てで合格基準に近い、またはそれを超えるパフォーマンスを示したことが報告されています。

研究者たちは、ChatGPTが特別なトレーニングや強化学習を受けることなく、高い一致性と洞察を示した回答を生成したことを発見しました。

これらの結果は、大規模言語モデルが医学教育や臨床意思決定の支援に役立つ可能性があることを示唆しています。

研究はChatGPTが、提供された医学知識を人間の専門家と比較して評価する上で重要な一歩であり、AIシステムが医療ケアと健康結果を改善する大きな可能性を秘めていると述べています。

信頼と説明可能性の原則に基づいて臨床AIの開発を確実にすることが重要だと強調しています。

論文では、ChatGPTがUSMLEの各ステップにおける問題にどのように対応し、どのような精度で答えたかについての詳細な分析が提供されています。

また、ChatGPTの説明の一致性と洞察力に関する評価も行われています。

論文は、AIが医学教育の領域で人間の学習者を支援する潜在能力を持つことを示唆しており、将来的に臨床意思決定に統合される前段階として、医学教育設定での使用が考えられます。

さらに、この研究はChatGPTが医療教育における新しい教材の生成や、医療教育のための質問説明の作成プロセスを支援する可能性を探り、AIが臨床実践に広く使用される時代の到来を予告しています。

Introduction

過去十年間にわたり、ニューラルネットワーク、ディープラーニング、そして人工知能（AI）の進歩は、製造業から金融、消費者向け製品に至るまで、幅広いタスクや産業のアプローチを変革しました。

これらの技術は、画像、テキスト、オーディオなどの入力データタイプに関わらず、高精度の分類モデルを迅速に構築できる能力を提供し、自動タグ付け、ほぼ人間レベルのテキスト翻訳、ATMでの自動スキャニング、画像キャプション生成など、広範なアプリケーションの普及を促進しました。

しかし、これらの技術が多くの産業に大きな影響を与えているにもかかわらず、臨床ケアにおける応用は限定的です。

臨床の自由テキストフィールドの普及と、健康ITシステム間の一般的な相互運用性の欠如は、ディープラーニングアルゴリズムの開発に必要な構造化された機械可読データの不足に寄与しています。

臨床ケアに適用可能なアルゴリズムが開発された場合でも、その品質は非常に変動し、限定的な技術的、統計的、概念的再現性のために設定間で一般化することができないことが多いです。

その結果、現在成功している医療アプリケーションの大多数は、ペイヤーのオペレーション、自動的な事前承認処理、供給チェーンとサイバーセキュリティ脅威の管理など、バックオフィス機能をサポートしています。

医用画像分野でさえ、現在広く臨床ケアで直接使用されているAIのアプリケーションは比較的少ないです。

臨床AIモデルの適切な開発には、膨大な時間、リソース、そして何よりも高度にドメイン固有で問題特有のトレーニングデータが必要ですが、これらはすべて医療分野では不足しています。

医用画像における画像ベースのAIの能力が向上した一因は、大規模な一般ドメインモデルがドメイン固有モデルと同等かそれ以上に性能を発揮できる能力にあります。

これは医用画像における顕著なAI活動を促進しました。

Methods

このセクションでは、ChatGPTが自己注意メカニズムと大量のトレーニングデータを使用して、会話文脈でのテキスト入力に対して自然言語のレスポンスを生成する大規模言語モデルであることが説明されています。

ChatGPTは長距離の依存関係を扱い、文脈に適した一貫性のある応答を生成するのに特に効果的です。

また、ChatGPTはサーバー内の言語モデルであり、インターネット検索を行うことができないため、すべての応答は現場で生成され、神経ネットワーク内の単語トークン間の抽象的な関係に基づいています。

これは、外部情報源にアクセスすることが許可されている他のチャットボットや会話システムとは対照的です。

入力ソース

2022年6月にサンプル試験リリースとして公開された376の公開テスト質問（USMLE-2022）を公式のUSMLEウェブサイトから入手しました。

したがって、すべての入力はGPT3モデルのトレーニングサンプル外の真のサンプルを表しています。

これは、いずれの回答、説明、関連コンテンツも2022年1月1日以前にGoogleにインデックスされていないことを確認するためにランダムにスポットチェックすることでさらに確認されました。

すべてのサンプルテスト質問はスクリーニングされ、臨床画像、医療写真、グラフなどの視覚資産を含む質問は除外されました。フィルタリング後、350のUSMLE項目がエンコードに進みました。

エンコーディング

質問は3つのバリアントにフォーマットされ、以下の順序でChatGPTに入力されました：

自由回答（OE）プロンプト：全ての回答選択肢を削除し、可変の導入問いかけフレーズを追加することで作成されました。この形式は、自由な入力と自然なユーザークエリパターンをシミュレートします。

強制的な正当化なしの単一選択肢多肢選択（MC-NJ）プロンプト：元のUSMLE質問をそのまま再現することで作成されました。

強制的な正当化付きの単一選択肢多肢選択（MC-J）プロンプト：ChatGPTに各回答選択の根拠を提供するよう命じる可変の導入命令または問いかけフレーズを追加することで作成されました。

審査

AI出力は、2人の医師によって正確性、一致性、洞察（ACI）について独立してスコアされました。

一部のUSMLE質問は審査員トレーニングのために共同で使用されました。

審査員間の合意がすべての領域で達成されなかった場合、項目は最終的な医師によって審査されました。

Results

研究では、試験問題を異なる形式でChatGPTに提示し、その正確性を評価しています。

自由形式の質問に対するChatGPTの正確性は、USMLEステップ1で75.0%／45.4%、ステップ2CKで61.5%／54.1%、ステップ3で68.8%／61.5%でした。

これは、自由な自然言語でのユーザーのクエリパターンをシミュレートしたものです。

選択肢のない多肢選択式問題(MC-NJ) では、ステップ1で55.8%／36.1%、ステップ2CKで59.1%／56.9%、ステップ3で61.3%／55.7%の正確性がありました。

これは試験受験者に提示される文字通りの質問形式です。

選択理由を強制される多肢選択式問題(MC-J) では、ステップ1で64.5%／41.2%、ステップ2CKで52.4%／49.5%、ステップ3で65.2%／59.8%の正確性を示しました。

この形式は、洞察を求めるユーザーの行動をシミュレートしています。

コーディング段階では、コーダーと質問プロンプトタイプ間の統計的に有意な相互作用は観察されませんでした。

審査段階では、医師の合意は自由形式のプロンプトでかなり高く（κは0.74から0.81）、多肢選択式プロンプトではほぼ完璧でした（κ >0.9）。

ChatGPTは、すべての質問に対して94.6%の高い一致率を示し、すべての試験レベルおよび質問入力形式で高い一致率を維持しました。

特に、MC-J形式の正確な回答では、一致率が非常に高く（99.1%）、不正確な回答よりも顕著に高かった（85.1%）ことが示されました。

ChatGPTによって生成された説明は、新規性、非自明性、妥当性の基準を満たす重要な洞察を含むことが分かりました。

全体的に、ChatGPTは全ての回答の88.9%で少なくとも1つの重要な洞察を提供しました。

洞察の頻度は試験タイプと質問入力形式によって一貫していましたが、ステップ2CKのMC-NJとMC-Jの間で洞察が10.3%減少しました。

この研究は、ChatGPTが医学教育の分野で人間の学習を補助する可能性があることを示唆しています。

特に、間違った回答をする場合でも、ChatGPTのAI出力から新しい知識や補足的な知識を得ることが可能かもしれません。

Discussion

この研究では、ChatGPTが複雑な医学および臨床情報を扱うのに関連するいくつかの複雑なタスクを実行できることを示す、新しくて驚くべき証拠を提供しています。

アメリカ医師国家試験(USMLE)でのChatGPTの性能特性を試験し、標準化された複雑さと難易度を持つ生物医学および臨床の質問に対するChatGPTの能力を評価しました。

研究結果は2つの主要なテーマに整理できます。

1つ目はChatGPTの正確性の向上であり、USMLEの合格基準に近づくかそれを超えるレベルに達しています。

2つ目は、このAIが医学教育の環境で人間の学習者を支援するための新しい洞察を生成できる可能性です。

ChatGPTの正確性の向上

GPT3として最新のGPT LLMは、プロンプトなしで46％の正確性を達成し、さらなるモデルトレーニングとプロンプトチューニングによって正確性が50％にわずかに改善されました。

本研究では、ChatGPTはすべての試験で50％以上の正確性を達成し、一部の分析では60％を超えました。USMLEの合格閾値は年によって異なりますが、約60％です。

したがって、ChatGPTは合格範囲に近づいています。これは、このベンチマークに達した最初の実験であり、驚くべきかつ印象的な結果と考えられます。

医学教育におけるAI支援人間学習の可能性

ChatGPTがそのターゲットオーディエンス（例えば、USMLEステップ1の準備をしている2年生の医学生）の人間の学習プロセスを支援する能力も検討しました。

ChatGPTの説明出力が提供する一致と洞察を評価することで、AIの役立ち度を測定する代理指標としました。

ChatGPTのレスポンスは非常に一致しており、人間の学習者は説明テキスト内の内部言語、論理、および関係の方向性を容易に追うことができます。

また、AI生成のレスポンスは重要な洞察を提供し、人間の学習者に貴重な推論プロセスを模範示します。約90％の出力に少なくとも1つの重要な洞察が存在しました。

医学教育、ライセンス試験、および試験準備サービスは年間9桁の市場規模を形成する大規模な産業複合体です。

標準化されたテストの関連性は議論の余地がありますが、医学学習の重要な最終目標として浮上しています。

また、AIが医学教育における人間の努力を補助する能力に関する今後の研究が期待されます。

ChatGPTは、大規模言語モデルの可能性を示す象徴的な例として、アメリカ医師国家試験（USMLE）の3段階すべてにおいて特別なトレーニングや強化学習なしで合格基準を満たす、あるいはそれに近い成績を収めました。この成果は、AIが医学教育や臨床意思決定を支援する可能性を具体的に示唆しており、特に高い一致性と洞察力を持つ説明を提供する能力が評価されています。USMLEは医師としての基礎的な知識、診断能力、臨床スキルを測る試験として世界的に評価されており、その難易度は非常に高いものです。ChatGPTがこの試験で一定のパフォーマンスを示したことは、医療分野におけるAIの応用可能性を大いに拡大するものであり、教育現場や実臨床におけるAIツールの潜在的な役割について考えるきっかけを提供しています。この結果を受け、AIは単なる補助的なツールにとどまらず、医学生や若手医師の教育におけるシミュレーションやリファレンスツール、また臨床現場での意思決定支援システムとしての活用が期待されています。特に、ChatGPTの説明可能性の高さは重要な要素として注目されており、医療分野でAIが信頼されるためには、結果だけでなくそのプロセスを透明に示すことが求められます。この点で、ChatGPTは医療従事者が意思決定を行う際に補助的な視点を提供し、複雑な医療問題の解決に寄与する可能性があります。一方で、AIを医療分野に導入するには多くの課題が存在し、信頼性、安全性、倫理性などの観点から慎重な検証と導入プロセスが求められます。まず信頼性については、AIが提供する回答の正確性と一貫性を保証するためのメカニズムが必要です。現在のAIモデルは膨大なデータセットでトレーニングされているものの、時には不正確な情報を生成する可能性があり、このリスクを最小限に抑えるための監視と修正のプロセスが重要です。また、安全性の観点では、AIが提供する助言や提案が患者の健康や命に直接影響を与える可能性があるため、医療従事者による慎重な判断と監督が必要不可欠です。さらに、AIの利用に伴う倫理的課題も見逃せません。AIが診療に関与する場合、責任の所在や患者データのプライバシー保護といった問題が発生する可能性があります。これらの課題を克服するためには、AIシステムの透明性を確保するとともに、開発者と医療従事者、さらには患者との間でのコミュニケーションが重要になります。このような課題に取り組む一方で、ChatGPTが示したパフォーマンスは、AIが医療分野においても人間の専門家と比較されうる存在であることを示す重要な指標といえます。具体的な応用例として、ChatGPTは医学生の学習を支援する仮想患者シミュレーションを通じて、実践的なトレーニング環境を提供する可能性があります。また、診断プロセスにおける参考ツールとして、医師が見落としがちな点を指摘する補助的な役割を果たすことができるでしょう。さらに、患者への説明を分かりやすく行うための支援ツールとしても期待されています。例えば、専門用語を分かりやすい形で説明し、患者の理解を深める役割を担うことができます。これにより、患者と医師の間のコミュニケーションが円滑になり、治療計画への理解と納得が向上することが期待されます。ただし、これらの応用が実現するためには、AIがどのように学習し、回答を生成しているのかを明確にする説明可能性が欠かせません。この点で、ChatGPTが試験において示した洞察力は非常に重要であり、AIが複雑な医学的課題にどのように対処しているかを人間に理解可能な形で示す能力が高く評価されています。特に、試験の回答において理由や背景を明確に説明する能力は、単なる正解率以上の価値を持っています。例えば、診断過程における思考プロセスを言語化することで、医学生や医師がその過程をより深く理解し、学習に役立てることができるでしょう。このように、ChatGPTが医学分野で示した可能性は、単に技術的な進歩にとどまらず、医療の質を向上させるための新たなツールとしての可能性を秘めています。将来的には、AIが医療従事者と連携し、より高度な医療を提供するための一助となることが期待されています。そのためには、AIのパフォーマンスをさらに検証し、実際の医療現場での適用に向けた具体的な取り組みを進めていく必要があります。これらの過程を通じて、AIが人間の専門家と補完的に機能し、患者ケアの向上に寄与する未来が現実のものとなるでしょう。

関連記事

公正の原則

科学と医学において話題になりやすい要素とは

統計学における回帰分析

測定尺度

質的交互作用が稀な場合

量的研究における標本抽出計画の実施

統計学における中心傾向の測度の決め方

共同研究

統計的決定木とランダムフォレスト

データ安全性モニタリング計画

1

2

ChatGPTが示す医療AIの未来：米国医師国家試験を突破【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
ChatGPTが示す医療AIの未来：米国医師国家試験を突破【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【多変量解析】
【医療統計解析】