Dr.AIの最新情報

ブログ

ホームページホームページ / ブログ / Dr.AIの最新情報

Jun 27, 2023

Dr.AIの最新情報

新しいトランスフォーマー AI テクノロジーが専門医療システムとして機能する可能性について書いてから 6 か月が経過しました。 それ以来、その能力をテストする多くの研究が行われてきました。

新しいトランスフォーマー AI テクノロジーが専門医療システムとして機能する可能性について書いてから 6 か月が経過しました。 それ以来、ChatGPT や同様のシステムが診断や臨床上の決定を下したり、標準化された医療検査に合格したりする能力をテストする研究が数多く行われてきました。 結果はおおむね良好でした。 たとえば、今年初めに Kung らは、ChatGPT が米国医師免許試験 (USMLE) の 3 つのパートすべてに、合格ラインラインの 60% で合格できることを発見した研究を発表しました。 専門委員会試験の研究も多数あり、結果はまちまちですが、ChatGPT はそのほとんどに合格しています。

最近の研究では、医学知識だけでなく医療上の意思決定にも注目することで、この研究を拡張しています。 この研究では、Merck Sharpe & Dohme (MSD) Clinical Manual に掲載されている 36 件の公開された臨床描写を使用し、ChatGPT が最初の鑑別診断を生成し、臨床管理上の決定 (どの研究をオーダーするかなど) を推奨し、その後、この情報から最終診断を行います。 彼らは見つけた:

「ChatGPT は、36 の臨床ビネットすべてで 71.7% (95% CI 69.3% ~ 74.1%) の全体的な精度を達成しました。 LLM は、最終診断を行う際に 76.9% (95% CI 67.8%-86.1%) の精度で最高のパフォーマンスを示し、最初の鑑別診断を生成する際には 60.3% (95% CI 54.2%-) の精度で最低のパフォーマンスを示しました。 66.6%)。 ChatGPT は、一般的な医学知識に関する質問に答える場合と比較して、鑑別診断 (β=-15.8%; P<.001) および臨床管理 (β=-7.4%; P=.02) の質問タイプでパフォーマンスが劣ることを示しました。」

これは印象的であり、ChatGPT タイプのシステムの長所と短所に関する先行研究と一致しています。 レビューのために説明すると、ChatGPT は、いわゆる大規模言語モデル (LLM) のオープン ソース バージョンです。 コアとなる人工知能 (AI) テクノロジーはトランスフォーマーと呼ばれます。「GPT」は生成事前トレーニング済みトランスフォーマーの略です。 これは、単に何らかのソースからテキストをコピーするのではなく、予測モデルに基づいてテキストを生成するため、生成的です。 これは、インターネットから収集した膨大な量のテキストに基づいて事前トレーニングされています。

これらの LLM システムは思考を行わず、人間の知能をシミュレートする一般的な AI への途上にありません。 これらは、非常に優れたオートコンプリートと比較されています。インターネットからの数十億の例に基づいて、最も可能性の高い次の単語セグメントを予測することによって機能します。 それでも、その結果は非常に印象的なものになる可能性があります。 彼らは自然な響きの言語を生み出すことができ、印象的な知識の基礎を生み出すことができます。

しかし、このような狭い AI システムが脆弱であるのと同じように、それらも依然として脆弱であり、押すと壊れてしまいます。 これらの LLM の主な弱点は、いわゆる幻覚に弱いことです。 これは、彼らが何かをでっち上げることができることを意味します。 覚えておいてください。実際に事実を確認したり、正確な知識を反映したりするのではなく、確率に基づいてテキストを生成しているのです。 したがって、たとえば、統計的に 2 つの事柄が一緒に言及される可能性が高い場合、ChatGPT はそれが直接関連しているかのように見えるテキストを生成します。 また、参照のような構造を生成し、それを統計的に決定された偽の詳細で埋めることにより、もっともらしい参照を完全にでっち上げることもできます。

これはエキスパート システムにとって重大な欠陥です。 最近の研究における ChatGPT のパフォーマンスを状況に合わせて説明すると、平均的な新規医学部卒業生と同等の知識レベルでかろうじて合格しましたが、経験豊富な臨床医には及ばなかったのです。 したがって、まだ医療を実践できるレベルには達していません。 疑問は 2 つあります。それはいつか実現するのでしょうか、そしてそれまでの間役立つでしょうか。

2 番目の質問を先に考えますと、現時点では、ChatGPT のような一般的な LLM アプリケーションは、エキスパート システムとしてある程度役立つ可能性があると思います。つまり、エキスパートが機能するためのツールとしてエキスパートによって使用されることを意味します。 ただし、その有用性にはいくつかの重要な注意事項が伴います。 ChatGPT が生成する結果は信頼できません。 たとえそのように聞こえるとしても、それらを権威あるものとして受け取ってはなりません。 しかし、臨床医が思いつかなかった可能性のある診断を提案するためのアイデア生成手段として使用することはできます。