【統計検定１級】統計応用・人文科学 2021年問1【解答】

本記事は、2021年に実施された統計検定１級（統計応用・人文科学）問1について、投稿者が作成した解答・解説を掲載しています。

統計検定の問題は、実施団体の規約に基づき当サイトでは掲載しておりません。
出題の正確な内容や公式の解答は、公式問題集や公式サイトの公開情報をご参照ください。

記載内容は投稿者個人の見解であり、一般財団法人統計質保証推進協会および日本統計学会の公式見解・公式解答ではありません。
内容の正確性には配慮していますが、誤りがあり得ます。ご注意ください。
統計検定®は一般財団法人統計質保証推進協会の登録商標です。

[1]

[1-1]
単純無作為抽出法とは、どの標本も等しい確率で母集団から抽出される方法であり、利点は標本誤差の大きさを評価でき統計的な推測（信頼区間や仮設検定）が可能になる。また欠点は、等しい確率にするために母集団全体のリストが必要となり、その作成にコストがかかる。
有意抽出法とは、調査者が主観的に抽出する方法であり、利点は手続きが簡単でコストや時間を抑えられる。また欠点は、調査者の主観によるバイアスが生じやすい。
[1-2]
男性と女性という層に分け抽出する方法は「層化抽出法」と呼ばれる方法であり、単純無作為抽出法とはいえない。単純無作為抽出法であれば、男性81名・女性19名のような組み合わせも起こり得るが、男性80名・女性20名と固定されているため除外されてしまう。よって、単純無作為抽出とはいえない。

[2]

いろいろとあるが、ここでは次の３つがあげる。
・質問Iの勤続年数の選択肢において、選択肢が「10年以上」から始まっており、「10年未満」の社員が回答する場所がない。すべての回答者がいずれかの選択肢を選べる状態になっていない。
・質問IIの質問文において、「テレワークが好ましいといわれ」のように回答者が好ましくないと答えにくくなる誘導的な質問文になっている。
・質問IIの(iii)の選択肢において、「2時間～5時間」と「5時間～10時間」のように、5時間ちょうどの人がどちらを選べばよいか不明確である。

[3]

[3-1]
標本誤差とは、標本を調査することによって偶然生じる真の値とのずれ。標本サイズを増やせば小さくすることができる。標本誤差は標本サイズを増やせば小さくすることができる。
非標本誤差とは、標本誤差以外の誤差のこと。例えば、調査票の不備、入力ミス、調査員の不正、対象者の記憶違いなどがある。これは標本サイズを増やしても誤差を小さくすることはできない。
[3-2]
無回答バイアスとは、回答しなかった人（無回答者）と回答した人の間に調査項目に違いがあり、それによって生じる推定の偏りのこと。ペナルティによる影響は、無理に回答させることになるため、適当に回答されたり嘘の回答をする可能性が高まる。

[4]

[4-1]
有限母集団修正を行うので、通常の標準誤差の式に有限母集団修正係数$\sqrt{\frac{N-n}{N-1}}$をかけて信頼区間を求める。これより、有限母集団修正を行った信頼区間は次のように与えられる。
\[
\left[
\hat{p} – z_{\alpha/2}
\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \times \sqrt{\frac{N-n}{N-1}},
\hat{p} + z_{\alpha/2}
\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \times \sqrt{\frac{N-n}{N-1}},
\right]
\]
ここで、母集団サイズ$N=500$、標本サイズ$n=100$、標本比率 $\hat{p} = \frac{70}{100} = 0.7$より、
\begin{align*}
&\quad
\hat{p} – z_{\alpha/2}
\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \times \sqrt{\frac{N-n}{N-1}}
\\
&=
0.7 – z_{0.025}
\sqrt{\frac{0.7 \times 0.3}{100}} \times \sqrt{\frac{500-100}{500-1}}
\\
&\approx
0.7 – 1.96 \times 0.04103 \approx 0.620
\end{align*}
\begin{align*}
&\quad
\hat{p} + z_{\alpha/2}
\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \times \sqrt{\frac{N-n}{N-1}}
\\
&=
0.7 + z_{0.025}
\sqrt{\frac{0.7 \times 0.3}{100}} \times \sqrt{\frac{500-100}{500-1}}
\\
&\approx
0.7 + 1.96 \times 0.04103 \approx 0.780
\end{align*}
となるので、95\%信頼区間は$[0.620, 0.780]$となる。

[4-2]
ここで次の仮説検定を行う。
帰無仮説$H_0$：どの年代でも「テレワークが比較的好ましい」と思う割合は等しい。
対立仮説$H_1$：年代によって割合は異なる。
このとき、これはカイ二乗検定で検定を行う。
いま、全体で100名中70名が「比較的好ましい」と回答しており、比率は0.7となっている。
これより、各年代は計20名ずつのため、期待度数は「好ましい: 14名」「その他: 6名」となる。
これより、カイ二乗検定での検定統計量は
\[
T = \sum_{i, j} \frac{(O_{ij} – E_{ij})^2}{E_{ij}}
\]
として与えらえる。
ここで、$O_{ij}$は観測度数、$E_{ij}$は期待度数である。
例えば、$O_{11}$は20代の「好ましい」の観測度数であり、$O_{12}$は20代の「その他」の観測度数、また$E_{11}$は20代の「好ましい」の期待度数であり、$E_{12}$は20代の「その他」の期待度数である。
このとき、各年代において次のように計算される。
\[
\begin{array}{|c|c|c|c|c|c|c|}
\hline
年代 & 好:実測(O) & 好:期待(E) & \frac{(O-E)^2}{E} & 他:実測(O) & 他:期待(E) & \frac{(O-E)^2}{E} \\
\hline
20代 & 18 & 14 & \frac{4^2}{14} & 2 & 6 & \frac{4^2}{6} \\
30代 & 15 & 14 & \frac{1^2}{14} & 5 & 6 & \frac{1^2}{6} \\
40代 & 16 & 14 & \frac{2^2}{14} & 4 & 6 & \frac{2^2}{6} \\
50代 & 12 & 14 & \frac{2^2}{14} & 8 & 6 & \frac{2^2}{6} \\
60代 & 9 & 14 & \frac{5^2}{14} & 11 & 6 & \frac{2^2}{6} \\
\hline
\end{array}
\]
これより検定統計量は
\begin{align*}
T &=
\frac{4^2}{14}+\frac{1^2}{14}+\frac{2^2}{14}+\frac{2^2}{14}+\frac{5^2}{14}
+
\frac{4^2}{6}+\frac{1^2}{6}+\frac{2^2}{6}+\frac{2^2}{6}+\frac{2^2}{6}
\\
&=\frac{50}{14}+\frac{50}{6} = \frac{150+350}{42} = \frac{500}{42} = \frac{250}{21} \approx 11.90
\end{align*}
となる。また棄却域$R$は自由度が$(5-1) \times (2-1) = 4$より
\[
R : T > \chi_{4}^2 (0.05) = 9.488
\]
となる。
以上より、検定統計量$T = 11.90 > 9.488$より、帰無仮説は棄却される。
これより、年代によってテレワークを好ましいと思う割合には有意な差があるといえる。