統計に出てくる用語の意味
変数 | 調査される項目 |
データの記述と要約
変数の分類(データの尺度)
データの分類 | 尺度の分類 | 尺度の解釈 | 例 |
質的 データ |
名義 尺度 |
単に分類するために整理番号として、数値を割り当てたもの (同じ値かどうかのみ意味がある) |
性別、血液型、人種、職業 |
質的 データ |
順序 尺度 |
順序や大小関係を比較するもの (値の大小関係に意味がある) |
満足度、順位、等級、アンケート調査の項目 |
量的 データ |
間隔 尺度 |
等間隔であると仮定して比較するもの (値の大小関係・値の差の大きさに意味がある、0には相対的な意味しかない) |
温度、テストの点数、偏差値、時刻、西暦 |
量的 データ |
比例 尺度 |
間隔や比率に意味があり差積商の計算が可 (値の大小関係・値の差の大きさや比に意味がある、0に絶対的な意味がある=0は何もない!) |
身長、体重、血圧値、血液化学検査値 |
量的データの分布
【グラフの種類】
棒グラフ | 数量の大小を比較する際に用いられるグラフ |
折れ線グラフ | 数量の時間的な変化を示す際に用いられるグラフ |
複合グラフ | 棒グラフと折れ線グラフを1つにまとめたグラフ |
円グラフ | 全体に対する割合を示すグラフ |
帯グラフ | 全体に対する割合を示すグラフで、異なる2つのデータを比較しやすい |
幹葉図 | データの数が少なく、ざっと数値のばらつきをみる図(バスの時刻表みたいな図) 幹葉図を左に90°回転させたものはヒストグラムに対応する |
ヒストグラム | 度数分布表(階級と度数を表にしたもの)をグラフにしたもの。棒グラフは互いに接しており、面積は度数に比例する。各階級の中央値を階級値(代表値)という。 |
度数分布多角形 | ヒストグラムで描かれた各長方形の頂点の上辺の真ん中に点を打ち、それを線分で結んだ折れ線様グラフ |
箱ひげ図 | 最大値と最小値でひげの端を、第1四分位数と第3四分位数で箱の両端をそれぞれ表すグラフ(中央値は箱の中に線を引く) ひげの両端の長さ=範囲、箱の長さ=四分位範囲 |
パレート図 | 棒グラフと累積相対度数を示す折れ線グラフをまとめたグラフ ※相対度数=その階級の度数/全体の度数 ※累積相対度数=ある階級のまでの相対度数の合計/全体の度数 |
【統計分析の分類】
記述統計 | 手元にあるデータ(母集団)の持つ情報を明らかにするための分析 |
推測統計 | 手元にあるデータは全体の一部と考え、 この一部のデータ(標本)から全体(母集団)を推測する分析 |
【データの特性値】
説明 | 式 | |
度数(頻度) | 階級(カテゴリ)に含まれる数 | ー |
相対度数 | 各階級の度数に全体に対する割合(%) | 階級の度数/度数の合計 ×100 |
累積度数 | 相対度数を小さい階級から合計して得られる割合(%) | ー |
平均値 (ミーン) |
データの平均の値 | ①データの総和/データの数 ②(階級値×度数)の総和/度数の合計 |
中央値 (メジアン) |
データを順に並べ、真ん中にある値 (はずれ値がある場合に用いる) |
奇数:中央の値 偶数:2つの中央の値の平均 |
最頻値 (モード) |
データの中で最も度数が多い数値 (ヒストグラムで最も高い階級の階級値) |
ー |
分散 s2 標準偏差 s |
データのばらつき具合を示した値 分散の平方根を標準偏差という(平均と同じ単位にするため標準偏差にする) |
分散=(偏差)²の総和/データの数 ※偏差=個々のデーター平均値 |
不偏分散 | ||
標準化 | 複数あるデータの平均を0、分散が1になるように変換すること。例:偏差値 標準化された値をz値(zスコア)という。 |
z値=(観測値ー平均値)/標準偏差 (※偏差値=z値×10+50) |
変動係数 | データのばらつき具合を示した値 2つの変動係数からばらつきを比較できる |
変動係数=標準偏差/平均値 |
四分位数 | データを順に並べて幾つかのグループに等分したものを分位数といい、4等分したものを四分位数という | ※データを小さい順に並べた場合 下から1/4の値=第1四分位数 中央値=第2四分位数 下から3/4の値=第3四分位数 |
四分位範囲 | 中心付近のデータのばらつき具合の値 ※範囲:データ全体の最大値と最小値の差 |
第3四分位数ー第1四分位数 |
共分散Sxy | 2変数(X,Y)の関係の強さを表す指標 共分散が大きい場合、XとYは正の相関 共分散が0の場合、XとYの相関なし |
共分散 =(Xの標準偏差)×(Yの標準偏差)×相関係数r |
相関係数r | 共分散から変数の単位の影響を排除したもの(−1≦相関係数≦1) | r =共分散 /(Xの標準偏差)×(Yの標準偏差) |
確率と確率分布
検定とは,母数に関するある特定の仮説を設定し,その仮説が正しいかどうかについて統計学的・確率論的に判断する手法である.主張したい仮説とは逆の仮説(帰無仮説)を設定したうえで,帰無仮説を否定することにより,主張したい仮説(対立仮説)を証明する.設定した帰無仮説の下で,ある特定の統計量が得られる確率を求める.その検定により得られた確率(p値)がある基準(有意水準:5%または1%が使用されることが多い)より小さければ,母数に関する帰無仮説が誤っている可能性が強い(有意差がある)と判断する.
事象 | ある試行のもとで起こる事柄(例:サイコロを投げて、偶数が出ること) |
確率(P) | 事象の起こりやすさの程度を表す数値 |
統計学的問題解決法
PPDACサイクル
①Problem | 問題の明確化 |
②Plan | 実験・調査の計画(誰に対してどのような測定を行うのか) |
③Data | ②の計画に基づいたデータの収集 |
④Analysis | データの分析 |
⑤Conclusion | 問題の解決 |
コメント