ほわい ちゅーず らんだむ ふぉれすと とぅ ぷれでぃくと れあ すぴーしーず でぃすとりびゅーしょん うぃず ふゅー さんぷるす いん らーじ あんだーさんぷるど えありあず? すりー あじあん くれーん すぴーしーず もでるす ぷろばいど さぽーてぃんぐ えびでんす
論文について
- Mi, C., Huettmann, F., Guo, Y., Han, X. and Wen, L.
- Why choose Random Forest to predict rare species distribution with few samples in large undersampled areas? Three Asian crane species models provide supporting evidence
- PeerJ, 5, e2849 (2017)
メモ
- 犯罪学の論文じゃないけど関係あるので
- 広い範囲の地域において在データのサンプル数が少ない種の分布(species distribution)の一般化(モデル化)の方法を調べる
- 中国における ナベヅル(grus monacha, n=33,2002-2014),マナヅル(grus vipio, n=40, 2009-2014),オグロヅル(grus nigricollis, n=75, 2014)という鶴の種類についてそれぞれのケースで調べる
- サンプリングされた地域からサンプリングされていない地域の分布を一般化する
- 先行研究でも複数のモデリング手法によるspecies distribution models(SDMs)の比較が行われている
- 本研究ではサンプル数が少ないデータを評価したことがポイント
- Salford Predictive Modeler(SPM)という有償の分析ソフトを使用した
- TreeNet(GBDT),Random Forest,CART,Maxent,それら4モデルのアンサンブル(平均値)を比較
- 説明変数は21種(WorldClim,Natural Earth,ESA,ArcGISの標高レイヤから取得および作成)
- 生物気候因子(WorldClim)
- 地形因子(標高,傾斜,方位)
- 水因子(河川までの距離,湖沼までの距離,海岸線までの距離)
- 推論因子(道路までの距離,鉄道路線までの距離,集落までの距離)
- 土地被覆要因
- 偽不在ポイントは種ごとに10,000点のランダム抽出で選択
- 予測は5km×5kmの格子上点単位に実施
- テストデータには,衛星追跡データと文献に基づくデータを使用
- 4羽のナベヅルと8羽のマナヅルの衛星追跡データを使い,時速5km以下のポイントを繁殖地と判断した
- 文献(Threatened Birds of Asia: The BirdLife International Red Data Book)からナベヅル,マナヅル,オグロヅルの繁殖地を得た
- テスト用の偽不在データはナベヅルとマナヅルは3,000ポイント,オグロヅルは5,000ポイントをランダムで生成
- ここにバイアスが乗る可能性あり
- 指標はROCとTSS(true skill statistic)を使用
- TSS(TNが大きい場合は在確率に収束)は以下のように定義される
- :true positive
- :true negative(真不在)
- :false positive
- : false netative
- TSS(TNが大きい場合は在確率に収束)は以下のように定義される
- 予測分布はrelative index of occurrence(RIO)で表示
- RIOとは格子上の各点に対して,出現する可能性を0-1で相対化したもの
- 分析の結果,4つのモデル中ではRandom Forestが最も高いAUCを記録した
- AUCが高い順に,Random Forest→Maxent→CART→TreeNet
- TSSは3種のSDMsでRandom Forestが最良
- アンサンブルモデルとRandom Forestは似たり寄た性能であった
- ナベヅルとマナヅルではRandom Forestの方が良い
- オグロヅルではアンサンブルモデルの方が良い
- 衛星追跡データも文献に基づくデータもRandom Forestが最も優れた結果を示した
- 予測地図とテストデータをプロットした地図を観察した結果,サンプル数が少ない場合はRandom Forestが最良の性能を示すが,サンプル数が増えると他のモデルも安定化していく
- Heikkinen et.al.(2012)ではRandom Forestの空間的移植性は低いと主張されているが,これに対して著者らはRandom Forestの実装が複数あるためであると主張している
- 要するにRandom Forestは素晴らしいが,そのモデリングの仕方に問題があるのでは?と言っている
- Random Forestが最良なのは,アルゴリズムによって低バイアス-低バリアンスを実現できる構造だから,と言っている
この論文の画期的なところ
- サンプル数が少ない種についてモデリング手法の比較を行ったこと
- しかし,いろいろな研究でRandom Forestが最良な結果を示しているけど,なんでなんだろうか?