迷子のオガワコマッコウの放浪日記

鯨類、廃棄プラスチック問題、乱獲について語ります

ライントランセクト調査による個体数の区間推定3

さて今回は発見群数nの分散について考えようと思います。

 

まずは皆さんに問題です。ある海域において、1kmのライントランセクト調査を行った翌日、同じ海域で2kmの調査を行ったとします。ただし、天候や有効探索幅などの条件はすべて同じであると仮定します。この時、2つの調査における発見群数の期待値や分散の関係はどうなるでしょうか。

 

発見群数の期待値は、もちろん調査距離に比例します。では分散はどうでしょうか。2kmの調査の記録を、半分までの1kmと残りの1kmに分けて考えます。双方の調査は完全に独立です。なので、総発見群数の分散は1kmの時に比べて2倍になります。

3kmのときはどうでしょうか。同じように考えると、分散は3倍になりそうですね。

 

このように考えていくと、発見群数の分散も調査距離に比例することが分かるかと思います。つまり、発見群数の期待値と分散は常に比例することが分かります。

 

 

この性質を使って、発見群数nの分散を求める方法を説明します。ライントランセクト調査ではこれを求めるために、データを分割して部分トランセクトというものに分けます。この分け方は通常、日付によって分けたり、あるいは調査コースをいくつかに分割することによって分けます。

各部分トランセクトにおける調査距離を{ \displaystyle L_i }とし、全体の調査距離({ \displaystyle L_i }の総和)をLとします。同様にして、各部分トランセクトにおける発見群数を{ \displaystyle n_i }とし、全体の発見群数({ \displaystyle n_i })の総和をnとします。さらにnの期待値(E[n])を{ \displaystyle n_0}とします。

先ほど見たように、発見群数の期待値と調査距離は比例するので、i番目の部分トランセクトにおける発見群数の期待値は、

{ \displaystyle E[n_i] = \frac{L_i}{L} n_0 }  ・・・①

となります。同様に分散も調査距離に比例するので、

{ \displaystyle Var[n_i] = \frac{L_i}{L} Var[n] }

この式を以下のように変形してみます。

{ \displaystyle Var[n] = \frac{L}{L_i} Var[n_i] }  ・・・②

ここで、{ \displaystyle n_i }の分散の定義より、

{ \displaystyle Var[n_i] = E[(n_i - E[n_i])^2] \\ \hspace{18mm} = E[\left(n_i - \frac{L_i}{L} n_0 \right)^2]  (∵①)  ・・・③}

③を②に代入すると、

{ \displaystyle Var[n] = E[\frac{L}{L_i} \left(n_i - \frac{L_i}{L} n_0 \right)^2] }

故に、nの分散の不偏推定量は、

{ \displaystyle \hat{Var[n]} = \frac{L}{L_i} \left(n_i - \frac{L_i}{L} n_0 \right)^2\ }

これはすべてのiについて成り立つので、さらに精度を上げるために、これらをiについて平均します。

{ \displaystyle \frac{1}{s} \sum_{i=1}^{s} \frac{L}{L_i} \left(n_i - \frac{L_i}{L} n_0 \right)^2}

ここで、sは部分トランセクトの数を表します。

実際には、{ \displaystyle n_0}はデータから求めることが出来ません。そこで、nで代用することになるのですが、統計学を学んでいる人は、不偏分散の式の分母が(標本数)-1になることを知っていると思います。これは、期待値を平均で代用した時に不偏推定量ではなくなる、という性質によるものでした。今回も同じです。そのままnで代用してしまうと、不偏推定量ではなくなるという事態が発生します。従って、nの分散の不偏推定量は以下のようになります。

{ \displaystyle \hat{Var[n]} = \frac{1}{s-1} \sum_{i=1}^{s} \frac{L}{L_i} \left(n_i - \frac{L_i}{L} n \right)^2}

「ライントランセクト調査でも1を引くだけでいいの?」とか「最後の最後でそんな適当でいいのかよ?」とかいろいろ文句はあると思いますが、厳密な証明が結構面倒なので省いただけです(ぶっちゃけ数式を入力するのって面倒だし)。暇ができれば厳密な証明をこちらに書くかもしれません。

 

ちなみにですが、n/Lの値のことを遭遇率と呼ぶことがあります。遭遇率の分散の不偏推定量は、上で求めた式と、分散の基本的性質を使えば、下のようになります。

{ \displaystyle \hat{Var[\frac{n}{L}]} =\frac{1}{L^2} \hat{Var[n]} }

{ \displaystyle \hspace{20mm} = \frac{1}{s-1} \sum_{i=1}^{s} \frac{1}{{L_i} L} \left(n_i - \frac{L_i}{L} n \right)^2 }

{ \displaystyle \hspace{20mm} = \frac{1}{s-1} \sum_{i=1}^{s} \frac{L_i}{L} \left(\frac{n_i}{L_i} - \frac{n}{L} \right)^2 }

 

関連資料:

岡村寛(2004), 「海産哺乳類を中心とした生態系モデリングのための数理統計学的研究」, 水研センター研報 No.10, pp.18-100