本記事は、2025年に実施された統計検定1級・統計応用・社会科学の問3について、投稿者による解答例と解説を掲載しています。
統計検定の問題は、実施団体が定める「統計検定の問題の使用に関する規約」により、当サイトでは掲載いたしません。出題の正確な内容や公式の解答は公式問題集等をご参照ください。
記載内容は投稿者個人の見解であり、一般財団法人統計質保証推進協会および日本統計学会の公式見解・公式解答ではありません。
統計検定®は一般財団法人統計質保証推進協会の登録商標です。
解答
[1]
単回帰モデル$y_i = \alpha + \beta x_i + \varepsilon_i$の最小二乗推定量$\hat{\alpha}$、$\hat{\beta}$ は、共分散$s_{xy}$、分散$s_x^2$、平均$\bar{x}$、$\bar{y}$ を用いて次のように与えられる。
\[
\hat{\alpha} = \bar{y} – \hat{\beta}\bar{x}, \quad
\hat{\beta} = \frac{s_{xy}}{s_x^2}
\]
問題文にある数値$\bar{x}=50$、$s_x^2=400$、$\bar{y}=30$、$s_{xy}=200$を代入すると
\begin{align*}
\hat{\beta} &= \frac{200}{400} = 0.5 \\
\hat{\alpha} &= 30 – 0.5 \times 50 = 30 – 25 = 5
\end{align*}
となる。
[2]
ここで、$n=100$(人)のデータを、$y=0$である50人を「グループ1」、$y>0$である50人を「グループ2」として各データを次のように表す。
\begin{align*}
& \textrm{ グループ1 ($y=0$ の群):
サイズ$n_1 = 50$、データ:$(x_{1i}, y_{1i})$。}
\\
& \textrm{ グループ2 ($y>0$ の群):
サイズ$n_2 = 50$、データ:$(x_{2,i}, y_{2,i})$。}
\end{align*}
このとき、各グループの平均や分散を次のように表す。
\begin{align*}
& \textrm{ グループ1 ($y=0$ の群):
平均$\bar{x}_1$、$\bar{y}_1$、
分散$s_{x_1}^2$、$s_{y_1}^2$、共分散$s_{x_1y_1}$}
\\
& \textrm{ グループ2 ($y>0$ の群):
平均$\bar{x}_2$、$\bar{y}_2$、
分散$s_{x_2}^2$、$s_{y_2}^2$、共分散$s_{x_2y_2}$}
\end{align*}
求める$y>0$となるグループ2だけでの回帰モデル
\[
y_{2i} = \alpha + \beta x_{2i} + \varepsilon_{2i}, \quad i=1, \ldots, n_2
\]
での$\alpha$、$\beta$の最小二乗推定量は次のように与えられる。
\[
\hat{\alpha} = \bar{y}_2 – \hat{\beta}\bar{x}_2, \quad
\hat{\beta} = \frac{s_{x_2y_2}}{s_{x_2}^2}
\]
ここで、問題文より次のことがわかっている。
\[
\bar{x}_2 = 60, \quad s_{x_2}^2 = 20^2 = 400
\]
まず、グループ2の平均$\bar{y}_2$を求める。
全データの平均$\bar{y}$は、各グループの和の平均として以下のように分解できる。
\[
\bar{y} =
\frac{1}{n} \left( \sum_{i=1}^{n_1} y_{1i} + \sum_{i=1}^{n_2} y_{2i} \right)
\]
ここで、第1グループは$y_{1i} = 0$より、第1項の和は0となるので
\[
\bar{y} = \frac{1}{n} \left( 0 + \sum_{i=1}^{n_2} y_{2i} \right)
= \frac{1}{n} n_2 \bar{y}_2
\]
これに問題文で与えられた数値($n=100, \bar{y}=30, n_2=50$)を代入すると
\[
30 = \frac{50}{100} \bar{y}_2 \implies 30 = 0.5 \times \bar{y}_2 \implies \bar{y}_2 = 60
\]
をえる。
次に共分散$s_{x_2y_2}$を求める。
これは次のように表せる。
\[
s_{x_2y_2} = \frac{1}{n_2} \sum_{i=1}^{n_2} x_{2i} y_{2i} – \bar{x}_2\bar{y}_2
\]
ここで、$\bar{x}_2=60$は問題文より、$\bar{y}_2=60$は先ほど求めたのでわかっている。
後は積和$\sum_{i=1}^{n_2} x_{2i} y_{2i}$の値がわかればいい。
これは先ほどの$\bar{y}_2$の計算のように全体の積和から求めることができる。
まず、全データの共分散$s_{xy}$は次のように表せる。
\[
s_{xy} = \frac{1}{n} \sum_{i=1}^{n} x_i y_i – \bar{x}\bar{y}
\]
ここで、$\sum_{i=1}^{n} x_i y_i$は次のように表せる。
\[
\sum_{i=1}^{n} x_i y_i =
\sum_{i=1}^{n_1} x_{1i} y_{1i} + \sum_{i=1}^{n_2} x_{2i} y_{2i}
\]
このとき、第1グループでは$y_{1i} = 0$より$x_{1i} y_{1i} = 0$となるため、第1項はゼロとなる。
これより、
\[
\sum_{i=1}^{n} x_i y_i =
0 + \sum_{i=1}^{n_2} x_{2i} y_{2i} = \sum_{i=1}^{n_2} x_{2i} y_{2i}
\]
となり、全データの共分散$s_{xy}$は
\[
s_{xy} = \frac{1}{n} \sum_{i=1}^{n_2} x_{2i} y_{2i} – \bar{x}\bar{y}
\]
となる。
これより、[1]の問題文から$s_{xy}=200$、$\bar{x}=50$、$\bar{y}=30$を代入すると
\begin{align*}
200 &= \frac{1}{100} \sum_{i=1}^{n_2} x_{2i} y_{2i} – 50 \times 30
\\
\frac{1}{100} \sum_{i=1}^{n_2} x_{2i} y_{2i} &= 1700
\\
\sum_{i=1}^{n_2} x_{2i} y_{2i} &= 100 \times 1700
\end{align*}
となる。
これを先ほどの$s_{x_2y_2}$に代入すると
\begin{align*}
s_{x_2y_2} &=
\frac{1}{n_2} \sum_{i=1}^{n_2} x_{2i} y_{2i} – \bar{x}_2\bar{y}_2
\\
&=
\frac{1}{50} 100 \times 1700 – 60 \times 60 = -200
\end{align*}
となる。
以上、得られた$\bar{y}_2=60$、$s_{x_2y_2} = -200$を使って$\alpha$、$\beta$を求めると
\begin{align*}
\hat{\beta} &=
\frac{s_{x_2y_2}}{s_{x_2}^2} = \frac{-200}{20^2} = -\frac{1}{2}
\\
\hat{\alpha} &=
\bar{y}_2 – \hat{\beta}\bar{x}_2 = 60 + \frac{1}{2} \times 60 = 90
\end{align*}
となる。
[3]
医療費$y$が正となる確率は次のように表せる。
\[
P(y > 0) = P(\eta > 0)
= P(\alpha + \beta x + \varepsilon > 0)
= P(\varepsilon > -(\alpha + \beta x))
\]
ここで誤差項$\varepsilon \sim N(0, 1)$なので、標準正規分布に従う確率変数を$Z$とすると
\[
P(Z > -(\alpha + \beta x))
\]
となる。
これより、$x=50$のとき$y$が正となる確率が0.5とは
\[
P(Z > -(\alpha + \beta \times 50)) = 0.5
\implies
-(\alpha + 50 \beta) = 0
\implies
\alpha + 50 \beta = 0
\]
であり、$x=60$のとき$y$が正となる確率が0.95とは、上側5\%点 (1.645)を使い次のようになる。
\[
P(Z > -(\alpha + \beta \times 60)) = 0.95
\implies
-(\alpha + 60 \beta) = -1.645
\implies
\alpha + 60 \beta = 1.645
\]
これより、次の連立方程式を解けばいい。
\[
\begin{cases}
\alpha + 50 \beta &= 0 \\
\alpha + 60 \beta &= 1.645
\end{cases}
\]
このとき、2つの式の差は
\[
\alpha + 60 \beta – (\alpha + 50 \beta) = 1.645 – 0
\implies
10 \beta = 1.645
\implies
\beta = 0.1645
\]
となり、これより
\[
\alpha + 50 \times 0.1645 = 0
\implies
\alpha = 8.225
\]
となる。
よって、
\[
\alpha = 8.225, \qquad
\beta = 0.1645
\]
[4]
$\alpha + \beta x = 0$のとき、$\eta = \alpha + \beta x + \varepsilon = \varepsilon$となり、このときの$y$の期待値は
\begin{align*}
\E[y] &=
P(\eta \le 0)\cdot \E[y | \eta \le 0] +
P(\eta > 0) \cdot E[y | \eta > 0]
\\
&=
P(\eta \le 0)\cdot \E[0 | \eta \le 0] +
P(\eta > 0) \cdot E[\eta | \eta > 0]
\\
&=
P(\eta > 0) \cdot E[\eta | \eta > 0]
\end{align*}
と表せる。
ここで、$\eta = \varepsilon \sim N(0, 1)$より
\[
P(\eta > 0) = \frac{1}{2}
\]
また、標準正規分布の確率密度関数を$\varphi(z)$として表せば
\begin{align*}
E[\eta | \eta > 0] &=
\frac{\displaystyle \int_0^\infty z \varphi(z) dz}
{\displaystyle \int_0^\infty \varphi(z) dz}
= 2 \int_0^\infty z \varphi(z) dz
\\
&=
2 \int_0^\infty z \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz
\\
&= \frac{2}{\sqrt{2\pi}} \left[ -e^{-z^2/2} \right]_0^\infty
\\
&= \frac{2}{\sqrt{2\pi}} (0 – (-1)) = \frac{2}{\sqrt{2\pi}}
\end{align*}
よって
\[
\E[y] = \frac{1}{2} \cdot \frac{2}{\sqrt{2\pi}} = \frac{1}{\sqrt{2\pi}}
\]
