ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】

ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】

ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】
この研究では、ChatGPTという大規模言語モデルのアメリカ医師国家試験(USMLE)におけるパフォーマンスを評価しました。USMLEは3段階の試験で構成され、ChatGPTはこれら全ての試験で合格基準に達するか、それに近い成績を収めました。特別なトレーニングや強化学習を施さずにこれを達成し、その説明においても高い一致性と洞察力を示しました。これらの結果は、大規模言語モデルが医学教育の支援や臨床意思決定に貢献できる可能性を示唆しています。AIシステムの医療分野への適用は、信頼と説明可能性を基本原則として進めることが重要であり、ChatGPTのこのようなパフォーマンスは、AIの医学知識を人間の専門家と比較する上での重要な第一歩となります。


目次  ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】

 

ChatGPTがアメリカの医師国家試験(USMLE)に挑戦し、AIが医学教育にどのように貢献できるかを探る研究論文です。

 

Kung TH et al., Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health https://doi.org/10.1371/journal.pdig.0000198 February 9, 2023.

 

この研究では、ChatGPTがUSMLEの3段階の試験全てで合格基準に近い、またはそれを超えるパフォーマンスを示したことが報告されています。

 

研究者たちは、ChatGPTが特別なトレーニングや強化学習を受けることなく、高い一致性と洞察を示した回答を生成したことを発見しました。

 

これらの結果は、大規模言語モデルが医学教育や臨床意思決定の支援に役立つ可能性があることを示唆しています。

 

研究はChatGPTが、提供された医学知識を人間の専門家と比較して評価する上で重要な一歩であり、AIシステムが医療ケアと健康結果を改善する大きな可能性を秘めていると述べています。

 

信頼と説明可能性の原則に基づいて臨床AIの開発を確実にすることが重要だと強調しています。

 

論文では、ChatGPTがUSMLEの各ステップにおける問題にどのように対応し、どのような精度で答えたかについての詳細な分析が提供されています。

 

また、ChatGPTの説明の一致性と洞察力に関する評価も行われています。

 

論文は、AIが医学教育の領域で人間の学習者を支援する潜在能力を持つことを示唆しており、将来的に臨床意思決定に統合される前段階として、医学教育設定での使用が考えられます。

 

さらに、この研究はChatGPTが医療教育における新しい教材の生成や、医療教育のための質問説明の作成プロセスを支援する可能性を探り、AIが臨床実践に広く使用される時代の到来を予告しています。

 

Introduction

 

過去十年間にわたり、ニューラルネットワーク、ディープラーニング、そして人工知能(AI)の進歩は、製造業から金融、消費者向け製品に至るまで、幅広いタスクや産業のアプローチを変革しました。

 

これらの技術は、画像、テキスト、オーディオなどの入力データタイプに関わらず、高精度の分類モデルを迅速に構築できる能力を提供し、自動タグ付け、ほぼ人間レベルのテキスト翻訳、ATMでの自動スキャニング、画像キャプション生成など、広範なアプリケーションの普及を促進しました。

 

しかし、これらの技術が多くの産業に大きな影響を与えているにもかかわらず、臨床ケアにおける応用は限定的です。

 

臨床の自由テキストフィールドの普及と、健康ITシステム間の一般的な相互運用性の欠如は、ディープラーニングアルゴリズムの開発に必要な構造化された機械可読データの不足に寄与しています。

 

臨床ケアに適用可能なアルゴリズムが開発された場合でも、その品質は非常に変動し、限定的な技術的、統計的、概念的再現性のために設定間で一般化することができないことが多いです。

 

その結果、現在成功している医療アプリケーションの大多数は、ペイヤーのオペレーション、自動的な事前承認処理、供給チェーンとサイバーセキュリティ脅威の管理など、バックオフィス機能をサポートしています。

 

医用画像分野でさえ、現在広く臨床ケアで直接使用されているAIのアプリケーションは比較的少ないです。

 

臨床AIモデルの適切な開発には、膨大な時間、リソース、そして何よりも高度にドメイン固有で問題特有のトレーニングデータが必要ですが、これらはすべて医療分野では不足しています。

 

医用画像における画像ベースのAIの能力が向上した一因は、大規模な一般ドメインモデルがドメイン固有モデルと同等かそれ以上に性能を発揮できる能力にあります。

 

これは医用画像における顕著なAI活動を促進しました。

 

Methods

 

このセクションでは、ChatGPTが自己注意メカニズムと大量のトレーニングデータを使用して、会話文脈でのテキスト入力に対して自然言語のレスポンスを生成する大規模言語モデルであることが説明されています。

 

ChatGPTは長距離の依存関係を扱い、文脈に適した一貫性のある応答を生成するのに特に効果的です。

 

また、ChatGPTはサーバー内の言語モデルであり、インターネット検索を行うことができないため、すべての応答は現場で生成され、神経ネットワーク内の単語トークン間の抽象的な関係に基づいています。

 

これは、外部情報源にアクセスすることが許可されている他のチャットボットや会話システムとは対照的です。

 

入力ソース

 

2022年6月にサンプル試験リリースとして公開された376の公開テスト質問(USMLE-2022)を公式のUSMLEウェブサイトから入手しました。

 

したがって、すべての入力はGPT3モデルのトレーニングサンプル外の真のサンプルを表しています。

 

これは、いずれの回答、説明、関連コンテンツも2022年1月1日以前にGoogleにインデックスされていないことを確認するためにランダムにスポットチェックすることでさらに確認されました。

 

すべてのサンプルテスト質問はスクリーニングされ、臨床画像、医療写真、グラフなどの視覚資産を含む質問は除外されました。フィルタリング後、350のUSMLE項目がエンコードに進みました。

 

エンコーディング

 

質問は3つのバリアントにフォーマットされ、以下の順序でChatGPTに入力されました:

 

自由回答(OE)プロンプト:全ての回答選択肢を削除し、可変の導入問いかけフレーズを追加することで作成されました。この形式は、自由な入力と自然なユーザークエリパターンをシミュレートします。

 

強制的な正当化なしの単一選択肢多肢選択(MC-NJ)プロンプト:元のUSMLE質問をそのまま再現することで作成されました。

 

強制的な正当化付きの単一選択肢多肢選択(MC-J)プロンプト:ChatGPTに各回答選択の根拠を提供するよう命じる可変の導入命令または問いかけフレーズを追加することで作成されました。

 

審査

 

AI出力は、2人の医師によって正確性、一致性、洞察(ACI)について独立してスコアされました。

 

一部のUSMLE質問は審査員トレーニングのために共同で使用されました。

 

審査員間の合意がすべての領域で達成されなかった場合、項目は最終的な医師によって審査されました。

 

Results

 

研究では、試験問題を異なる形式でChatGPTに提示し、その正確性を評価しています。

 

自由形式の質問に対するChatGPTの正確性は、USMLEステップ1で75.0%/45.4%、ステップ2CKで61.5%/54.1%、ステップ3で68.8%/61.5%でした。

 

これは、自由な自然言語でのユーザーのクエリパターンをシミュレートしたものです。

 

選択肢のない多肢選択式問題(MC-NJ) では、ステップ1で55.8%/36.1%、ステップ2CKで59.1%/56.9%、ステップ3で61.3%/55.7%の正確性がありました。

 

これは試験受験者に提示される文字通りの質問形式です。

 

選択理由を強制される多肢選択式問題(MC-J) では、ステップ1で64.5%/41.2%、ステップ2CKで52.4%/49.5%、ステップ3で65.2%/59.8%の正確性を示しました。

 

この形式は、洞察を求めるユーザーの行動をシミュレートしています。

 

コーディング段階では、コーダーと質問プロンプトタイプ間の統計的に有意な相互作用は観察されませんでした。

 

審査段階では、医師の合意は自由形式のプロンプトでかなり高く(κは0.74から0.81)、多肢選択式プロンプトではほぼ完璧でした(κ >0.9)。

 

ChatGPTは、すべての質問に対して94.6%の高い一致率を示し、すべての試験レベルおよび質問入力形式で高い一致率を維持しました。

 

特に、MC-J形式の正確な回答では、一致率が非常に高く(99.1%)、不正確な回答よりも顕著に高かった(85.1%)ことが示されました。

 

ChatGPTによって生成された説明は、新規性、非自明性、妥当性の基準を満たす重要な洞察を含むことが分かりました。

 

全体的に、ChatGPTは全ての回答の88.9%で少なくとも1つの重要な洞察を提供しました。

 

洞察の頻度は試験タイプと質問入力形式によって一貫していましたが、ステップ2CKのMC-NJとMC-Jの間で洞察が10.3%減少しました。

 

この研究は、ChatGPTが医学教育の分野で人間の学習を補助する可能性があることを示唆しています。

 

特に、間違った回答をする場合でも、ChatGPTのAI出力から新しい知識や補足的な知識を得ることが可能かもしれません。

 

Discussion

 

この研究では、ChatGPTが複雑な医学および臨床情報を扱うのに関連するいくつかの複雑なタスクを実行できることを示す、新しくて驚くべき証拠を提供しています。

 

アメリカ医師国家試験(USMLE)でのChatGPTの性能特性を試験し、標準化された複雑さと難易度を持つ生物医学および臨床の質問に対するChatGPTの能力を評価しました。

 

研究結果は2つの主要なテーマに整理できます。

 

1つ目はChatGPTの正確性の向上であり、USMLEの合格基準に近づくかそれを超えるレベルに達しています。

 

2つ目は、このAIが医学教育の環境で人間の学習者を支援するための新しい洞察を生成できる可能性です。

 

ChatGPTの正確性の向上

 

GPT3として最新のGPT LLMは、プロンプトなしで46%の正確性を達成し、さらなるモデルトレーニングとプロンプトチューニングによって正確性が50%にわずかに改善されました。

 

本研究では、ChatGPTはすべての試験で50%以上の正確性を達成し、一部の分析では60%を超えました。USMLEの合格閾値は年によって異なりますが、約60%です。

 

したがって、ChatGPTは合格範囲に近づいています。これは、このベンチマークに達した最初の実験であり、驚くべきかつ印象的な結果と考えられます。

 

医学教育におけるAI支援人間学習の可能性

 

ChatGPTがそのターゲットオーディエンス(例えば、USMLEステップ1の準備をしている2年生の医学生)の人間の学習プロセスを支援する能力も検討しました。

 

ChatGPTの説明出力が提供する一致と洞察を評価することで、AIの役立ち度を測定する代理指標としました。

 

ChatGPTのレスポンスは非常に一致しており、人間の学習者は説明テキスト内の内部言語、論理、および関係の方向性を容易に追うことができます。

 

また、AI生成のレスポンスは重要な洞察を提供し、人間の学習者に貴重な推論プロセスを模範示します。約90%の出力に少なくとも1つの重要な洞察が存在しました。

 

医学教育、ライセンス試験、および試験準備サービスは年間9桁の市場規模を形成する大規模な産業複合体です。

 

標準化されたテストの関連性は議論の余地がありますが、医学学習の重要な最終目標として浮上しています。

 

また、AIが医学教育における人間の努力を補助する能力に関する今後の研究が期待されます。

 

 

ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】

ChatGPT:米国医師国家試験に挑戦|【ChatGPT・Python・エクセル統計解析】