XML|【統計学・統計解析コラム】
XMLは1998年2月に発表されたSGMLのサブセットであり、インターネット環境において非常に注目され利用が盛んになっています。
XMLは、その源流であるSGMLよりもソフトウェア開発が容易でパフォーマンスにも優れており、同じくSGMLの流れを汲むHTMLに比べてもタグの拡張が容易で厳密な構文解析を行うことができるという特徴を持ちます。
XMLは、構造化データを記述するマークアップ言語であると同時に、マークアップ言語を定義するメタ言語(Meta-Language)です。
そして、Web関連技術の標準化を検討、推進する団体であるW3C(World Wide Web Consortium)により2000年1月には、HTMLもXMLを母体として定義し直したXHTML(eXtensible Hyper Text Markup Language)に発展しています。
XMLは、XML宣言やDTDの存在は必須ではなく、仕様もSGMLに比べて簡略化されているため、手軽に利用することができます。
そして、XML文書のうち、開始タグと終了タグの対応や入れ子関係が整えられているものを整形式XML文書(well-formed XML Document)と呼び、さらにDTDで定義されている要素型宣言や属性リスト宣言などに従ったタグが付けられているものを検証済みXML文書(valid XML document)と呼びます。
XMLでは、漢字を含めた日本語への対応も行われています。
CDISCなどでもXMLを利用しており、SGMLと合わせて今後の発展が期待されます。
なお、DTDが省略可能であることにより、誤ったXML文書に対してエラーを生じてしまう処理系が存在することには注意が必要です。
最近ではいろいろな局面でXML技術を利用することが本当に増えており、行政への届け出というような事務的な場面での利用だけでなく、臨床試験データを管理するために用いることも十分可能になってきています。
関連記事