データ解析に必須！カテゴリ変数とR×C表の活用法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

カテゴリ変数とは、数値ではなく、カテゴリーで表される変数を指します。例えば、性別（男性・女性）や製品の状態（合格・不合格）などがあります。カテゴリ変数は、もともと分類として定義される場合もあれば、連続変数や離散変数をカテゴリに分類して扱うこともあります。例えば、血圧は連続的に測定されますが、低血圧や高血圧といったカテゴリで分析することが一般的です。また、順序変数として、カテゴリに順序がある場合もあります。分析の際、2つのカテゴリ変数の関係を調べるためにR×C表（分割表）を用い、データを行と列に分類して表示します。このような手法は、統計解析で広く使われています。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次データ解析に必須！カテゴリ変数とR×C表の活用法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

統計学におけるカテゴリ変数

カテゴリ変数は、応答値がカテゴリの中のどれかであり、分量などの連続量で表される数値ではない。

例えば、人は性別を男性や女性で表し、機械部品は許容可能または欠陥品に分類される。

２つ以上のカテゴリも考えられる。

例えば、所属政党を自民党、民主党、または無所属で表す。

カテゴリ変数は測定の基盤となる数値尺度がなくもともと分類の場合もあれば、連続変数や離散変数を分類して作成される場合もある。

血圧は血管壁にかかる圧力の尺度であり、水銀柱（Hg）ミリメートル単位で測定する。

通常、血圧は連続的に測定し、120/80mmHgなどの特定の測定結果として記録するが、低血圧､正常､前高血圧､高血圧などのカテゴリを使って分析することも多い。

離散変数（範囲内の特定の値しか取れない変数）もカテゴリ変数に分類できる。

研究者は世帯ごとの子供の数に関する正確な情報（子供なし、１人、２人、３人など）を収集したいことがあるが､分析目的でこのデータをカテゴリ（子供なし､１人、２人、３人以上など）に分類する場合もある。

このような分類は、たくさんのカテゴリがあり、一部のカテゴリ内のデータがまばらな場合によく使われる。

例えば世帯ごとの子供の数の場合、データ集合に属する子供の人数が多い世帯は比較的少なくなり、カテゴリの度数が少ないと調査能力に悪影響を及ぼしたり、ある分析手法が使えなくなったりする可能性がある。

連続的または離散的な測定値をカテゴリに分類するという手法はときには議論の対象となるが（カテゴリ内の散らばりに関する情報を破棄するため､情報の浪費という研究者もいる）、多くの分野で一般的な方法である。

連続データの分類は。慣例（ある分類が専門分野で受け入れられるようになっている場合）やデータ集合内の分布間題を解決する手段などの多くの理由で行われている。

カテゴリデータ手法は順序変数（カテゴリを順序付けするが、カテゴリ間の等距離の要件は満たさない尺度で測定された変数）にも適用できる。

質問に対する回答を一連の順序付けされたカテゴリ（非常に当てはまる、当てはまる、どちらともいえない､当てはまらない､全く当てはまらないなど）から選ぶ有名なリッカート尺度は、順序変数の典型的な例である。

特定の順序手法は、カテゴリの順序に関する情報を保持する順序尺度データのために開発された。

一般に順序手法の方が強力であるため、選択できるなら、順序尺度データの分听にはカテゴリ手法よりも特定の順序手法の方が望ましい。

カテゴリデータと順序尺度データを分析するための多くの手法が開発されている。

Ｒ×Ｃ表

分析で２つのカテゴリ変数の関係を調べたいときには、データ集合の分布はＲ×Ｃ表（分割表とも呼ばれる）で表示されることが多い｡

Ｒ×ＣのRは行(row)、Ｃは列（column）を表し、具体的な表は行と列で表現できる。行と列は必ずこの順で指定され、これは行列の表現と添字記法でも使われる慣例である。

ときには、２つの二値変数の同時分布を衣す２×２の表とそれ以上の次元の表は区別されることがある。

２×２の表はRとＣの両方が２のＲ×Ｃ表と考えられるが、２×２の表専用に開発された手法を論じるときには別々に分類すると便利である。

「Ｒ×Ｃ」という表現は「R掛けるC（R byＣ）」と読み、これは個別の表サイズにも当てはまるので、「3×2」は「3掛ける2」と読む。

年齢と健康の広範なカテゴリ問の関係を調査したいとする。

健康は、見慣れた５分類一般健康尺度で定められる。

年齢に使うカテゴリを決め、個人の標本からデータを収集して年齢（あらかじめ決めたカテゴリを使う）と健康状態（5点尺度を使う）によって分類する。

そして、この情報を以下表のような分割表に表す。

この表には４行と５列からなるので。４×５の表と言う。

それぞれのセルには、標本の中で示された２つの特徴を持つ人数を入れる。

健康状態が優良な18歳未満の人数、健康状態が優良な18歳～39歳の人数などである。

関連リンク

母集団

臨床試験の実施

治療学上の自明の理

ROC曲線によるスクリーニング検査の評価

共変量とサブグループの理解

研究者と研究スタッフ

臨床データマネジメント

介入研究と観察研究

インターネット上のデータを使った評判調査

分散分析という統計手法

前へ

1

2

3

4

5

6

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

データ解析に必須！カテゴリ変数とR×C表の活用法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

データ解析に必須！カテゴリ変数とR×C表の活用法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

統計学におけるカテゴリ変数

Ｒ×Ｃ表

サブメニュー

最新記事