論文について

Mi, C., Huettmann, F., Guo, Y., Han, X. and Wen, L.
Why choose Random Forest to predict rare species distribution with few samples in large undersampled areas? Three Asian crane species models provide supporting evidence
PeerJ, 5, e2849 (2017)

メモ

犯罪学の論文じゃないけど関係あるので
広い範囲の地域において在データのサンプル数が少ない種の分布（species distribution）の一般化（モデル化）の方法を調べる
中国におけるナベヅル（grus monacha, n=33，2002-2014），マナヅル（grus vipio, n=40, 2009-2014），オグロヅル（grus nigricollis, n=75, 2014）という鶴の種類についてそれぞれのケースで調べる
サンプリングされた地域からサンプリングされていない地域の分布を一般化する
先行研究でも複数のモデリング手法によるspecies distribution models（SDMs）の比較が行われている
- 本研究ではサンプル数が少ないデータを評価したことがポイント
Salford Predictive Modeler（SPM）という有償の分析ソフトを使用した
TreeNet（GBDT），Random Forest，CART，Maxent，それら4モデルのアンサンブル（平均値）を比較
- TreeNet，Random Forest，CARTは二値分類モデル
- Tree系アルゴリズムはclass weightをバランスさせ，1,000本のモデルを生成
説明変数は21種（WorldClim，Natural Earth，ESA，ArcGISの標高レイヤから取得および作成）
- 生物気候因子（WorldClim）
- 地形因子（標高，傾斜，方位）
- 水因子（河川までの距離，湖沼までの距離，海岸線までの距離）
- 推論因子（道路までの距離，鉄道路線までの距離，集落までの距離）
- 土地被覆要因
偽不在ポイントは種ごとに10,000点のランダム抽出で選択
予測は5km×5kmの格子上点単位に実施
テストデータには，衛星追跡データと文献に基づくデータを使用
- 4羽のナベヅルと8羽のマナヅルの衛星追跡データを使い，時速5km以下のポイントを繁殖地と判断した
- 文献（Threatened Birds of Asia: The BirdLife International Red Data Book）からナベヅル，マナヅル，オグロヅルの繁殖地を得た
- テスト用の偽不在データはナベヅルとマナヅルは3,000ポイント，オグロヅルは5,000ポイントをランダムで生成
  - ここにバイアスが乗る可能性あり
指標はROCとTSS（true skill statistic）を使用
- TSS（TNが大きい場合は在確率に収束）は以下のように定義される
  - $\displaystyle \frac{\left( TP*TN \right) - \left( FP*FN \right)}{ \left( TP+FN \right) * \left( FP + TN \right) }$
  - $TP$ ：true positive
  - $TN$ ：true negative（真不在）
  - $FP$ ：false positive
  - $FN$ ： false netative
予測分布はrelative index of occurrence（RIO）で表示
- RIOとは格子上の各点に対して，出現する可能性を0-1で相対化したもの
分析の結果，4つのモデル中ではRandom Forestが最も高いAUCを記録した
- AUCが高い順に，Random Forest→Maxent→CART→TreeNet
- TSSは3種のSDMsでRandom Forestが最良
アンサンブルモデルとRandom Forestは似たり寄た性能であった
- ナベヅルとマナヅルではRandom Forestの方が良い
- オグロヅルではアンサンブルモデルの方が良い
衛星追跡データも文献に基づくデータもRandom Forestが最も優れた結果を示した
予測地図とテストデータをプロットした地図を観察した結果，サンプル数が少ない場合はRandom Forestが最良の性能を示すが，サンプル数が増えると他のモデルも安定化していく
Heikkinen et.al.(2012)ではRandom Forestの空間的移植性は低いと主張されているが，これに対して著者らはRandom Forestの実装が複数あるためであると主張している
- 要するにRandom Forestは素晴らしいが，そのモデリングの仕方に問題があるのでは？と言っている
Random Forestが最良なのは，アルゴリズムによって低バイアス-低バリアンスを実現できる構造だから，と言っている