データ入力における注意事項と入力方法|【医療統計学・統計解析】
入力における注意事項
入力における注意事項は,入力マニュアルに記載されるべき事項の一つであり次のような全般的な事項がまず考えられるが,その内容は状況に応じて必要と思われるものを設定すればよい.
@数字,アルファベットは全て半角で入力する
Aカタカナ,記号は全て全角で入力する
B未実施として斜線の入った項目については「ND」を入力する
このほかには,日付の欠測の場合などの入力ルールなども考えられる.
たとえば,ある項目の日付が1992年3月中旬としか症例報告書に記載されていなかった場合に,項目によっては絶対に日付を明確にしておかなければならない項目もあるが,既往歴というような項目の場合にはこれ以上の確認を行うことの意味は少ないと思われ,実際に確認が不可能な場合も多い.
このような場合に「初旬は5日,中旬は15日,下旬は25日と見なして入力する」というような入力ルールを規定しておくことにより,この項目が日付フィールドとして定義されているために入力が不可能になってしまうという事態を避けることができる.
さらに,この項目を基に日数などを計算しているような場合には,このような入力ルールを設定することは必須である.
ただし,このような入力ルールを使用すると,本当に1992年3月15日であったデータと1992年3月中旬というデータの区別がつかなくなり情報量の損失が起こってしまうので注意が必要である.
可能であれば,このような曖昧な日付データを許す可能性がある項目については文字型として定義した入力用フィールドを設定するとともに「初旬は_B,中旬は_M,下旬は_Eと入力する」というような入力ルールを規定し,これに対応するデータ処理用の日付フィールドを用意する.
そして,_Bは5日,_Mは15日,_Eは25日と置き換えて計算する」というような変換ルールを規定し,自動変換が可能なように設定しておくなどの方法をとることが望ましい.
また,医師が用いたままの用語(Original Term)と用語集に基づく用語(Preferred Term)についても注意を払う必要がある.
すなわち,症例報告書に記載された「食欲不振」,「食欲がない」,「食思不振」などといった医師が用いたままの用語を集計・解析時には「食欲不振」という用語集に基づく用語にまとめる必要がある.
そして, 1996年5月1日に薬審第355号として通達された「治験の総括報告書の構成と内容に関するガイドライン」によれば医師が用いたままの用語と用語集に基づく用語の両方を提示する必要がある.
用語集に基づく用語だけを入力することは情報量の損失を意味し,用語集に基づく用語から医師が用いたままの用語に遡ることは不可能である.
このため,少なくとも用語集に基づく用語ではなく,医師が用いたままの用語が入力されるべきであり,用語集に基づく用語は辞書などを利用して自動割り当てを行うか,集計・解析時に割り当てを行うなどの対処を行うことが望ましい.
さらに,この医師が用いたままの用語と用語集に基づく用語の概念を利用すれば,前治療薬や併用薬が一般名と商品名のいずれで症例報告書に記載されていたとしても,集計・解析用に一般名に割り当て直すということも簡単に対応することができる.
ただし,医師が用いたままの用語で,明らかな誤字・脱字があった場合にどのように対処するかということは,入力マニュアルあるいは「症例報告書の変更又は修正に関する手引き」などで明確にしておく必要がある.
入力の方法
臨床試験データをコンピュータに入力する方法としては,以下に示したようないくつかの方法がある.
@シングルエントリー
ただ一回だけ入力を行う方法であり,最も手軽で時間がかからない.
また,臨床試験データ管理システムとしても複雑な仕掛けを必要としない.
しかしながら,入力時にその項目には20以上65未満の数字だけが入力できるというような範囲の確認ができる機能を設定していたとしても,35というデータを36と間違って入力してしまったというような場合の入力ミスの発見は入力処理だけでは困難である.
Aダブルエントリー
2回のデータ入力を行う方法であり,一回目と二回目のそれぞれの入力内容を比較することにより35というデータを36と間違って入力してしまったというような入力ミスの発見も可能になる.
基本的には,二回のデータ入力は別のデータパンチャーが行うことが望ましく,シングルエントリーに比べて時間も人もかかってしまう.
しかし,入力そのものの信頼性は高くなる.
ダブルエントリーには,次の二つの人カミスを発見する方法がある.
このどちらの方法がよいかということは,臨床試験データ管理システムの設計方針によって決まる.
そして,いくつのデータファイルが存在するかによりデータ修正における処理方法には工夫が必要となる.
一回目と二回目のそれぞれの入力に対して一つずつのデータファイルを作成した後,データファイルを比較することにより整合性を確認する
→データファイルは二つ作成される
一回目の入力に対してデータファイルが作成され,二回目の入力においては一回目のデータファイルを入力時に自動的に参照させることにより,異なった入力が行われた場合にはエラーを表示してデータ確認を逐次求める
→データファイルは一つだけ作成される
Bトリプルエントリー
三回のデータ入力を行う方法である.原則としてダブルエントリーで作業を行うが,最終的に症例報告書の全てのデータ確認が終了し症例固定が行われた後に,最終の症例報告書を基にして三回目のデータ入力を行い,症例報告書に対する修正・追記などが間違いなく実施されたことを確認しようという方法である.
当然,最も時間がかかり人手を要するが,この三回目のデータ入力によって症例報告書とコンピュータ上の臨床試験データとの整合性を保証することにより,途中での読み合わせなどによる整合性確認作業を一回も行わないという方法もあり得る.
そして,その場合には総合的には時間と人的な節約が可能になるという考え方である.
また,品質管理という観点からは入力中のデータパンチャーが何か気づいた場合や,はっきり識別できなかった文字をとりあえず入力した場合などに,簡単にデータベース上にメモを残してその問題がトレースできるような仕掛けが準備されているとよい.
少なくとも,ノートなどに記録として残しておき,後で問題に対する処理が行えるようにしておくことは必須である.
関連記事