第I相試験と第II相試験:安全性と有効性の評価基準【ChatGPT統計解析】
第I相試験は、適切な用量の決定と安全性の評価を目的とし、通常は非ランダム化で実施され、特に薬理学的治療の場合は用量規制毒性(DLT)の閾値や中止基準が設定されます。非薬理学的介入においても適切な用量設定と安全性確認が重要です。早期の第II相試験は、新しい治療の活性を証明し、大規模試験の必要性を示すことが目的であり、対照群を欠いたデザインも多いですが、内的妥当性が犠牲になり得ます。対照群のないヒストリカル対照試験もがん研究で利用されるが、対照の適切性に欠け、バイアスのリスクがあります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
第1相試験のデザイン
第1相試験は.用量の範囲決めと安全性の研究を含むが,伝統的に非ランダム化試験である.
これらの試験の基本的な目標は,適切な用量を見出すことと試験による介入または治療法に起因する可能性のある毒性を検出することである.
治療法が薬理学的なときは.用量規制毒性(dose limiting toxicity, DLT)の閾値または身体的な事象を定義し,中止基準を作り出しておく必要がある.
通常. DLTの定義は,国立がん研究所の有害事象のための共通毒性基準(National Cancer Institute Common Toxicity Criteria for Adverse Events,NCI-CTCAE)によって定義されるような毒性等級の基準に基づく.
非薬理学的な介入は,伝統的には毒性以外のもので定義されることがよくあるが,その手の介入では用量範囲試験は重要ではないということではない.
例えば,大うつ病(major depressive disorder, MDD)の治療法に対する特定の心理療法の適切な用量を決めるのは重要であり,そのような用量試験は安全性と中止基準を規定しておく必要がある.
特にある治療法ではすべての用量群において毒性を示さないことから,介入や研究デザイン,患者集団が異なれば,中止基準も異なる.
しかしながら,いずれにしても川量範囲試験の開始に先立ってDLTを入念に定義しておくことは必須である.
薬理学的な治療法試験に対しては,数個の用量群またはカテゴリーが選ばれ,各用量群に少人数の被験者が治療されるが,通常次のような方法で用量群を段階的に上げてゆく.
2〜3人の被験者がプロトコールにある最も低い用最群に登録され,もしその中の誰もDLTを進展させなければ,試験は次の用量に上げられる.もし被験者のうちの1人に観察されたら,追加で2〜3人の被験者を登録し,登録された被験者すべてがその時点で進行中の用量を受ける.
もし追加された被験者のうち誰もDLTを進展させなければ,研究は次の用量に上げられる.
前の用量のすべての被験者が指定の期間内に毒性を呈しない限りは,新たな用量群で被験者を登録しない.
さらに.通常,最大耐量(maximum tolerated dose. MTD)は,ある割合,通常33% (研究被験者2人分に相当する低さ)がDLTを経験する用量のすぐ下の用量群として定義される.
通常,研究はMTDとして定義される安全な用量を見つけることを目標とするか,プロトコールで予め決めておいた妓大用量になれば終わる.
この型の試験には様々な変形がある.
非薬理学的な治療法研究に対しては.用量範囲の調査はあまり一般的ではなく,実現可能性や費用,標準的な診療であること(それらの介入は積極的に臨床で使われているけれども有効であるとは経験的に立証していない).および患者への負担(軽減)に基づいて選択されることが多い.
それにもかかわらず,用量範囲は安全性を確立させるために,また特に最適な治療法の強度を同定するために極めて重要である.
非薬理学的な試験の中に用量範囲試験を含め損ねると,治療法は有効ではない(用量が低すぎる場合)か,治療法は利用できない(費用や負担などのため)かのどちらかの早まった結論を導き得る.
安全性に関しては,薬理学的な治療法試験からもっと広い文脈まで,この方法論を使うことは, MTDおよび無毒性であるが望ましくない事象を含めるように拡張されたMTDを明確にすることに帰着する.
時々,薬理学的および非薬理学的な介入に対してランダム化第1相試験が行われている.
これらの試験は,各用量階級に対照介入を受ける少人数の被験者を含めることがある.
早期第II相試験のデザイン
新しい治療のスクリーニングは,単一の治療群または非ランダム化試験で行われることが多い.
例えば,心臓血管疾患に対する治療においては,第n相試験は患者が治療され反応(必ずしも臨床的な反応ではなくバイオマーカーまたは代替指標についての応答が多い)が観察されることが多い.
これらの試験の目的は,新しい治療法が興味ある究極の臨床的エンドポイント(例えば生存率)について有効であることを示すことではなく,これからランダム化比較試験で試験されるのに十分な活性をもつこと(例えば臨床に関連したバイオマーカーが減少すること)のみを証明することである.
これらは概念実証試験(proof of concept studies,POC試験)と呼ばれることが多く,より大規模で費用のかかる試験を正当化するために,ある活性が起こっているという必要不可欠なシグナルを提供するのである.
早期第II相デザインが必要とするのは.大抵は少人数の患者である;新しい治療法の便益が小さいか全くないというエビデンスが示されるときには,そのデザインは無益なあるいは有害な可能性ですらある治療に大多数の患者がさらされるのを防ぐ.
けれども.この戦略の欠点は,実験対照が最適であるように課されることは少ないということである.
このように,内的妥当性を犠牲にすることで,顕著なプラセボ効果や,マスキングを欠くことによる研究者たちのバイアス,平均への回帰,その他内的妥当性を脅かす結果をもたらし得る.
例えば.多発性硬化症(multiple sclerosis, MS)患者の早期第n相治療法試験は,適度のMRI活性に対して候補者をスクリーニングし,長期的に追跡するかも知れない.
自然経過は再発寛解型であるため,患者が再発中であって時間と共に自然に寛解状態に移行しているときにスクリーニングされる可能性がある.
その結果,実験の治療法に効果がなくても.時間経過と共に疾患活動性の減少があるように見えてしまう.
このデザインは,強い対照群とできれば多数の測定を組み込んだより厳密なデザインにより改善されるだろう.
けれども,それにはより大きくて費用のかかる試験をデザインしなければならないが,それで試験治療法が有効であるというエビデンスが必ずしも得られるわけではない.
このように,早期第II相試験は,調査研究プログラムにおいて次のステップに向かうための助けとなる重要な役割を果たすが,後続のもっと厳密な試験を追加でたくさん行わない限り,臨床診療,ガイドラインまたは健康管理政策に変化を引き起こすことはない.
もう一つの早期第n相デザインはヒストリカル対照試験(historical control study)である.
そのような試験は,がん研究でよく用いられている.
そこでは,ランダム化された比較群を設ける代わりに,単一群の患者が治療され,その反応を以前の試験の対照と比較する.
これらの試験では半分の患者数しか使わず.そのうちの誰もプラセボ投与を受けないという利点がある.
重大な不利益もある.
非ランダム化試験にあるような問題に加えて,それら対照は新治療法の患者に対する良い比較対象にならないことが多い.
例えば.対照は,急速に変化する患者プロフィールや治療職略に対して,数年前に実施された試験からとられることが多い.
これは,診断,治療,技術,患者管理が比較的短期間で変化するために,特に問題である.
加えて,患者集団の特性も変化しているかも知れない.
これらの変化はあまり認知されたり報告されることはなく,治療法の有効性を評価する上で重大なバイアスを生じ得る.
第I相試験は、臨床試験の初期段階で行われ、主に薬剤の用量の範囲を決定し、安全性を評価することが目的です。通常、少人数の被験者を対象に非ランダム化で行われ、主な焦点は安全性と忍容性の評価にあります。この段階で適切な用量を設定することは、その後の臨床試験に進むために不可欠です。特に薬理学的治療の場合、用量規制毒性(dose limiting toxicity, DLT)と呼ばれる閾値が設けられ、このDLTの発生が観察された場合には、その用量が忍容限界とされます。また、DLTの定義は、国立がん研究所(National Cancer Institute, NCI)の共通毒性基準(Common Toxicity Criteria for Adverse Events, NCI-CTCAE)に基づいており、これにより毒性が客観的に評価されます。通常、DLTの発生が見られた場合には、用量を段階的に調整し、安全な範囲を確認していくプロセスが取られます。これにより、治療が忍容性の範囲内で行えるようにすることが目指されます。
非薬理学的な介入についても、第I相試験は実施される場合がありますが、この場合、毒性が主要な評価基準にはならず、代わりに心理的な負担や忍容性、実施の可否が検討されることが一般的です。例えば、精神的健康問題を扱う治療法であれば、特定の心理療法が大うつ病(major depressive disorder, MDD)の患者にとってどの程度の負担であるか、またその有効性を判断するために用量範囲を設定する必要がある場合があります。こうした非薬理学的な介入でも、安全性と中止基準を事前に規定しておくことが重要です。患者にとって過度の負担がないように用量を設定し、適切な範囲内で治療が実施できるよう工夫します。このように、薬理学的および非薬理学的な治療法の試験では、異なる目的や基準を持ちながらも、基本的なプロセスにおいては共通する要素が多く存在します。特に、どのような治療法でも全ての用量群において毒性を示さないことが重要で、介入や研究デザイン、被験者の特徴が異なる場合には、それぞれに応じた中止基準や用量の設定が求められます。
さらに、薬理学的治療法の試験では、複数の用量群が設定され、少人数の被験者に対して段階的に用量が増やされるステップアップ方式が取られることが一般的です。例えば、2〜3人の被験者がまず最も低い用量群に割り当てられ、DLTが発生しない場合には次の用量群に移行します。しかし、1人でもDLTが発生した場合には、同じ用量群にさらに2〜3人の被験者を追加し、その用量での忍容性を確認します。追加被験者でもDLTが発生しなければ次の用量群に進みますが、一定期間内に全ての被験者が忍容性を保てない場合には、次の用量群への移行は見送られます。用量が次第に増加することで最大耐量(maximum tolerated dose, MTD)が特定され、MTDとは、通常、被験者の約33%がDLTを経験する用量の直下のレベルにあたります。こうして安全かつ効果的な用量を見出すことが第I相試験の重要な目標となります。
このようにして設定された安全な用量を基に、第II相試験が開始されますが、第II相試験の初期段階は新しい治療法の活性をスクリーニングすることが目的で、しばしば非ランダム化で行われます。この段階では、治療法の有効性を確認するために単一の治療群を用いることが多く、心血管疾患に対する治療法などもこの方法で進行することがあります。第II相試験において重要なのは、新しい治療法が究極的な臨床的エンドポイントに関して有効であることを示すよりも、ランダム化比較試験に進むための適切な活性があることを証明する点です。具体的には、臨床的に関連のあるバイオマーカーが減少することが確認されれば、次の段階に進む正当な理由が得られることになります。こうした試験は概念実証試験(proof of concept studies, POC試験)と呼ばれ、さらなる大規模試験を行うためのシグナルを提供します。
第II相試験では通常、少人数の被験者が対象となり、治療法の効果が限定的である場合には、その治療が患者に有害であるかもしれないリスクを避けるため、無益な治療から早期に患者を保護するデザインがとられることが一般的です。しかし、こうした試験には欠点もあり、対照群が最適であるとは限らない点が内的妥当性を損ねる可能性があります。例えば、多発性硬化症(multiple sclerosis, MS)の患者を対象とする場合、再発寛解型の疾患経過を持つ患者が自然に寛解状態に移行する可能性があるため、対照群の欠如や実験デザインによるバイアスが問題となることがあります。このため、対照群をしっかりと設定し、できるだけ多くの測定を含めることで、内的妥当性を保つことが求められますが、そのためには大規模かつ高コストの試験が必要になる可能性があり、治療法の有効性に関するエビデンスが必ずしも確保できるわけではありません。第II相試験は、最終的に治療法が臨床診療やガイドラインに反映される可能性を示す重要なステップですが、後続の厳密な試験が必要で、単独では臨床実践に直結する成果をもたらすことは少ないです。
一方で、第I相試験や第II相試験の一環として、ヒストリカル対照試験(historical control study)もよく用いられます。これは、主にがん研究などで採用されるデザインであり、単一群の患者の治療反応を過去の試験データと比較するものです。ランダム化比較試験を行わずに対照群のデータを用いることで、被験者数を半減させたり、患者がプラセボを受けないという利点が得られます。しかし、対照群が現在の治療法と患者集団に適切に一致しない可能性が高く、これがバイアスのリスクを生じる原因になります。たとえば、数年前のデータと比較する場合、当時の治療法や診断方法が現在のものと異なることが多く、さらに患者のプロフィールも変化しているため、治療法の有効性評価に影響を与えることがあります。こうしたデザインの限界を理解しながら、試験結果の解釈には慎重さが求められます。
関連記事