入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】
入力マニュアルには入力に関する注意事項が記載されるべきであり、例えば、数字やアルファベットは半角、カタカナや記号は全角で入力し、未実施項目には「ND」を入力することなどが含まれる。また、曖昧な日付データには「初旬は5日、中旬は15日、下旬は25日」とする入力ルールを設定し、情報損失を防ぐために文字型フィールドを用意する方法もある。症例報告書では医師が用いた用語を用語集に基づく用語にまとめる必要があるが、両方の提示が求められるため、用語の自動割り当てや集計時の対応が推奨される。入力方法にはシングルエントリー、ダブルエントリー、トリプルエントリーがあり、それぞれ信頼性や効率性に差がある。シングルエントリーは手軽だが入力ミスの発見が難しく、ダブルエントリーでは異なる入力を比較し整合性を確認できる。トリプルエントリーは最も手間がかかるが、最終確認としてデータと症例報告書の整合性を保証する。また、入力者が気づいた問題をトレースできる仕組みを設けることが品質管理の観点から望ましい。

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】

 

 

入力における注意事項

 

入力における注意事項は,入力マニュアルに記載されるべき事項の一つであり次のような全般的な事項がまず考えられるが,その内容は状況に応じて必要と思われるものを設定すればよい.

 

@数字,アルファベットは全て半角で入力する

 

Aカタカナ,記号は全て全角で入力する

 

B未実施として斜線の入った項目については「ND」を入力する

 

このほかには,日付の欠測の場合などの入力ルールなども考えられる.

 

たとえば,ある項目の日付が1992年3月中旬としか症例報告書に記載されていなかった場合に,項目によっては絶対に日付を明確にしておかなければならない項目もあるが,既往歴というような項目の場合にはこれ以上の確認を行うことの意味は少ないと思われ,実際に確認が不可能な場合も多い.

 

このような場合に「初旬は5日,中旬は15日,下旬は25日と見なして入力する」というような入力ルールを規定しておくことにより,この項目が日付フィールドとして定義されているために入力が不可能になってしまうという事態を避けることができる.

 

さらに,この項目を基に日数などを計算しているような場合には,このような入力ルールを設定することは必須である.

 

ただし,このような入力ルールを使用すると,本当に1992年3月15日であったデータと1992年3月中旬というデータの区別がつかなくなり情報量の損失が起こってしまうので注意が必要である.

 

可能であれば,このような曖昧な日付データを許す可能性がある項目については文字型として定義した入力用フィールドを設定するとともに「初旬は_B,中旬は_M,下旬は_Eと入力する」というような入力ルールを規定し,これに対応するデータ処理用の日付フィールドを用意する.

 

そして,_Bは5日,_Mは15日,_Eは25日と置き換えて計算する」というような変換ルールを規定し,自動変換が可能なように設定しておくなどの方法をとることが望ましい.

 

また,医師が用いたままの用語(Original Term)と用語集に基づく用語(Preferred Term)についても注意を払う必要がある.

 

すなわち,症例報告書に記載された「食欲不振」,「食欲がない」,「食思不振」などといった医師が用いたままの用語を集計・解析時には「食欲不振」という用語集に基づく用語にまとめる必要がある.
そして, 1996年5月1日に薬審第355号として通達された「治験の総括報告書の構成と内容に関するガイドライン」によれば医師が用いたままの用語と用語集に基づく用語の両方を提示する必要がある.

 

用語集に基づく用語だけを入力することは情報量の損失を意味し,用語集に基づく用語から医師が用いたままの用語に遡ることは不可能である.

 

このため,少なくとも用語集に基づく用語ではなく,医師が用いたままの用語が入力されるべきであり,用語集に基づく用語は辞書などを利用して自動割り当てを行うか,集計・解析時に割り当てを行うなどの対処を行うことが望ましい.

 

さらに,この医師が用いたままの用語と用語集に基づく用語の概念を利用すれば,前治療薬や併用薬が一般名と商品名のいずれで症例報告書に記載されていたとしても,集計・解析用に一般名に割り当て直すということも簡単に対応することができる.

 

ただし,医師が用いたままの用語で,明らかな誤字・脱字があった場合にどのように対処するかということは,入力マニュアルあるいは「症例報告書の変更又は修正に関する手引き」などで明確にしておく必要がある.

 

 

入力の方法

 

臨床試験データをコンピュータに入力する方法としては,以下に示したようないくつかの方法がある.

 

@シングルエントリー

 

ただ一回だけ入力を行う方法であり,最も手軽で時間がかからない.

 

また,臨床試験データ管理システムとしても複雑な仕掛けを必要としない.

 

しかしながら,入力時にその項目には20以上65未満の数字だけが入力できるというような範囲の確認ができる機能を設定していたとしても,35というデータを36と間違って入力してしまったというような場合の入力ミスの発見は入力処理だけでは困難である.

 

Aダブルエントリー

 

2回のデータ入力を行う方法であり,一回目と二回目のそれぞれの入力内容を比較することにより35というデータを36と間違って入力してしまったというような入力ミスの発見も可能になる.

 

基本的には,二回のデータ入力は別のデータパンチャーが行うことが望ましく,シングルエントリーに比べて時間も人もかかってしまう.

 

しかし,入力そのものの信頼性は高くなる.

 

ダブルエントリーには,次の二つの人カミスを発見する方法がある.

 

このどちらの方法がよいかということは,臨床試験データ管理システムの設計方針によって決まる.

 

そして,いくつのデータファイルが存在するかによりデータ修正における処理方法には工夫が必要となる.

 

一回目と二回目のそれぞれの入力に対して一つずつのデータファイルを作成した後,データファイルを比較することにより整合性を確認する

 

→データファイルは二つ作成される

 

一回目の入力に対してデータファイルが作成され,二回目の入力においては一回目のデータファイルを入力時に自動的に参照させることにより,異なった入力が行われた場合にはエラーを表示してデータ確認を逐次求める

 

→データファイルは一つだけ作成される

 

Bトリプルエントリー

 

三回のデータ入力を行う方法である.原則としてダブルエントリーで作業を行うが,最終的に症例報告書の全てのデータ確認が終了し症例固定が行われた後に,最終の症例報告書を基にして三回目のデータ入力を行い,症例報告書に対する修正・追記などが間違いなく実施されたことを確認しようという方法である.

 

当然,最も時間がかかり人手を要するが,この三回目のデータ入力によって症例報告書とコンピュータ上の臨床試験データとの整合性を保証することにより,途中での読み合わせなどによる整合性確認作業を一回も行わないという方法もあり得る.

 

そして,その場合には総合的には時間と人的な節約が可能になるという考え方である.

 

また,品質管理という観点からは入力中のデータパンチャーが何か気づいた場合や,はっきり識別できなかった文字をとりあえず入力した場合などに,簡単にデータベース上にメモを残してその問題がトレースできるような仕掛けが準備されているとよい.

 

少なくとも,ノートなどに記録として残しておき,後で問題に対する処理が行えるようにしておくことは必須である.

 

 

入力マニュアルにおける注意事項は、データ入力の正確性と一貫性を確保するために非常に重要であり、臨床試験や研究においてデータの信頼性を保つ基盤となります。まず、入力の際の基本的なルールとして、数字やアルファベットは全て半角で入力し、カタカナや記号は全角で入力するという基準が設けられます。これにより、システムがデータを処理する際に不具合が生じる可能性を最小限に抑えることができます。また、未実施項目については「ND(Not Done)」を入力することで、データの欠損部分が明確になり、解析時に不要な混乱を避けることができます。さらに、日付データが曖昧な場合に対応するための入力ルールを設定することも重要です。例えば、症例報告書において「1992年3月中旬」と記載されている場合、過去の病歴のように詳細な確認が困難な項目では、「初旬は5日、中旬は15日、下旬は25日」と見なして入力するというルールを設けることで、システムへの入力を可能にしつつ、解析に必要な一貫性を維持することができます。しかしながら、このような入力ルールを適用する際には注意が必要であり、例えば実際に「1992年3月15日」という明確な日付であった場合との区別がつかなくなることで情報量の損失が発生する可能性があります。したがって、このような曖昧なデータを許容する項目に対しては、文字型フィールドを設定し、「初旬は_B、中旬は_M、下旬は_E」と入力させるルールを規定する方法が有効です。このように設定すれば、対応するデータ処理フィールドにおいて、_Bを5日、_Mを15日、_Eを25日と変換することが可能となり、解析時に日付データとしての整合性を保ちながらも元の情報を保持することができます。また、医師が用いた用語(Original Term)と用語集に基づく標準用語(Preferred Term)の扱いにも注意が必要です。症例報告書に記載された「食欲不振」や「食欲がない」などの表現を解析時には統一された「食欲不振」という用語にまとめることが推奨されますが、1996年5月1日に薬審第355号として通達された「治験の総括報告書の構成と内容に関するガイドライン」では、医師が用いた用語と用語集に基づく用語の両方を提示することが求められています。このため、用語集に基づく標準用語のみを入力することは情報の多様性を損ない、解析における正確性を低下させる可能性があります。したがって、少なくとも医師が用いた用語を入力し、必要に応じて標準用語を辞書機能や自動割り当て機能を用いて補完する方法が望ましいとされています。このアプローチにより、前治療薬や併用薬のようなデータが一般名や商品名で記載されていても、簡単に解析用の一般名に統一することができます。一方で、医師が用いた用語に誤字や脱字が含まれる場合には、入力マニュアルや「症例報告書の変更又は修正に関する手引き」に従い、修正の方法を明確に定義しておく必要があります。次に、入力方法については、シングルエントリー、ダブルエントリー、トリプルエントリーの3つが一般的に挙げられます。シングルエントリーは一度だけ入力を行う方法であり、最も手軽で時間がかからない手法ですが、入力ミスの発見が困難であるため、信頼性に欠ける場合があります。一方、ダブルエントリーは2回の入力を別々のデータパンチャーが行い、その入力結果を比較することでミスを発見する方法です。これにより、シングルエントリーでは検出できない入力間違いも発見することが可能となり、信頼性が向上します。さらに、トリプルエントリーは3回の入力を行い、最終的な確認作業としてデータと症例報告書の整合性を保証する方法です。特にトリプルエントリーでは、症例報告書の全データ確認が完了した後に3回目の入力を行い、報告書に基づいた修正や追記が正確に行われたかどうかを検証します。これにより、途中での整合性確認作業を省略することが可能となり、最終的な品質保証を目的とした効率的な方法として活用できます。また、入力の過程でデータパンチャーが不明瞭な点に気付いた場合や、識別困難な文字が含まれていた場合には、それを簡単にメモとして記録できる仕組みを用意しておくことが望まれます。この仕組みにより、問題が発生した際のトレースが容易になり、後続の修正作業が円滑に進められるようになります。このように、データ入力の際には一貫性、正確性、効率性を重視しつつ、曖昧なデータや用語の扱いに十分配慮し、適切なルールや仕組みを設定することが重要です。

 

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】

入力マニュアルで守るデータ品質と信頼性【ChatGPT統計解析】