迷子のオガワコマッコウの放浪日記

鯨類、廃棄プラスチック問題、乱獲について語ります

ライントランセクト調査による個体数の区間推定4

ずいぶん時間が空いてしまって申し訳ありませんでした。今回は{ \displaystyle \bar{s} }の分散について説明します。

 

 まず、何も調整を行わずに、単純に得られたデータの群れサイズを平均する場合です。この場合は、

{ \displaystyle \bar{s} = \frac{1}{n}\sum_{i=1}^{n} s_i }

とするだけです。siはi番目の群れサイズを表します。分散は、

{ \displaystyle Var[\bar{s}] = \frac{1}{n^2}\sum_{i=1}^{n} Var[s_i] }

{ \displaystyle \hspace{18mm} = \frac{1}{n^2}・n・\frac{1}{n-1} \sum_{i=1}^{n} \left( s_i - \bar{s} \right)^2 }

{ \displaystyle \hspace{18mm} = \frac{1}{n(n-1)} \sum_{i=1}^n \left(s_i - \bar{s} \right)^2 }

となります。

 

しかしこれには問題があります。通常ライントランセクト調査では、トラックラインから遠い場所だと、群れサイズが大きい群ればかり発見され、群れサイズが小さい群れのほうが見逃しやすいという事態が発生するのです。

このような場合、単純にデータの群れサイズを平均しただけでは群れサイズを過小推定する恐れがあるため、群れサイズの調整を行うことが多いです。

ではどのように調整すればよいのでしょうか。実際には、線形回帰分析により平均群れサイズを推定する手法がしばしば用いられます(Buckland et al., 1993)。モデル式は以下の通りです。

{ \displaystyle z = \log(s) = a+bg(x)+\epsilon \hspace{8mm} \epsilon ~ N(0,\sigma^2) }

つまり、データ上ではz=log(s)とg(x)は一次関数の関係になっていて、誤差項は正規分布に従う、ということを仮定するのです。

ここからどのように群れサイズ平均を推定するかというと、すべての個体が発見される場合、つまりg(x)=1の地点におけるsの確率分布が、真の群れサイズの確率分布と同じになると考えるのです。したがって、g(x)=1におけるsの確率分布を考えれば良いということになります。

大半の人は回帰分析を大学1年で習うので基礎的な部分は省略しますが、パラメータaとbの推定値は以下のようになります。

{ \displaystyle \hat{a} = \bar{z} - b \bar{g}(x) } ・・・①

{ \displaystyle \hat{b} = \frac{S_{xy}}{S_{xx}} }

ただし、

{ \displaystyle S_{xy} = \frac{1}{n} \sum_{i=1}^{n} (g(x_i) - \bar{g}(x))(z_i - \bar{z}) }

{ \displaystyle S_{xx} = \frac{1}{n} \sum_{i=1}^{n} (g(x_i) - \bar{g}(x))^2 }

です。

モデル式より、g(x)=1の時のときのzのz0とすると、

{ \displaystyle z_0 = a+b+\epsilon }

①のaの推定値を代入すると、

{ \displaystyle z_0 = \bar{z} - b \bar{g}(x) +b+\epsilon }

{ \displaystyle \hspace{8mm} = \bar{z}+b(1-\bar{g}(x)) +\epsilon }

よって、

{ \displaystyle Var[z_0] = Var[\bar{z}] + (1-\bar{g}(x))^{2}Var[b] + Var[\epsilon] +2(1-\bar{g}(x))Cov[\bar{z},b] + 2(1-\bar{g}(x))Cov[b,\epsilon] + 2Cov[\bar{z},\epsilon] } ・・・②

となります。ただしここでは、εはデータと独立なため、{\displaystyle Cov[b,\epsilon] }{\displaystyle Cov[\bar{z},\epsilon] }は0になります。

 

回帰分析に関する本はたくさんあるので詳しい説明はそちらに譲りますが(面倒になっただけです、ハイ)、各分散、共分散の値は以下のようになります。

{ \displaystyle Var[\bar{z}] = \frac{\sigma^2}{n} }

{ \displaystyle Var[b] = \frac{\sigma^2}{S_{xx}} }

{ \displaystyle Var[\epsilon] = \sigma^2 }

{ \displaystyle Cov[\bar{z},b] = 0 }

となります。ただし、σ2は残差分散で、その不偏推定量は

{ \displaystyle \hat{\sigma^2} = \frac{1}{n-2} \sum_{i=1}^{n} (z_i - a+bg(x_i))^2 }

と求められます。

これらの値を式②に代入して整理すると、

{ \displaystyle Var[z_0] = \sigma^2 \left(1 + \frac{1}{n} + \frac{(1-\bar{g}(x))^{2}}{S_{xx}} \right) }

となります。

 

以上より、zは期待値a+b、分散Var[z0]の正規分布に従うことが分かりました。しかし今求めたいのは、s0=exp(z0)の確率分布です。

正規分布に従う確率変数を指数変換した時、その分布は対数正規分布と呼ばれるものになります。)

期待値と分散を考えてみます。これらは、正規分布確率密度関数まで戻り、期待値と分散の定義に従って積分で求めることが出来ます。

{ \displaystyle E[s_0] = E[exp(z_0)] = \int_{-∞}^{∞}\frac{exp(z)}{\sqrt{2 \pi Var[z_0]}}exp \left(-\frac{(z-(a+b))^2}{2Var[z_0]} \right) dx }

途中計算は面倒なので省略します。exp()の中身を平方完成して整理していくと、以下の式が導けます。

{ \displaystyle E[s_0] = exp \left(a+b+\frac{Var[z_0]}{2} \right) }

どうようにE[s02]は

{ \displaystyle E[{s_0}^2] = exp(2(a+b)+2Var[z_0]) }

となります。故に、

{ \displaystyle Var[s_0] = E[{s_0}^2] = E[s_0]^2 = exp(2(a+b)+Var[z_0])・(exp(Var[z_0])-1) }

となります。これが、g(x)=1となる点における群れサイズsの確率分布の期待値と分散です。

これをもとに群れサイズの平均について考えれば良いわけです。平均の期待値はE[0]に一致します。分散は、上で求めたs0の分散をnで割れば良いだけです。