ぷれでぃくてぃんぐ せーふ ぱーきんぐ すぺーしす: あ ましーん らーにんぐ あぷろーち とぅ じおすぺーしゃる あーばん あんど くらいむ でーた
論文について
- Matijosaitiene, I., McDowald, A. and Juneja, V.
- Predicting Safe Parking Spaces: A Machine Learning Approach to Geospatial Urban and Crime Data Irina
- Sustainability, 11(10), 2848 (2019)
メモ
- theft from motor vehicleの発生リスクが高い駐車場の予測モデルを機械学習によって作成する
- アメリカ合衆国ニューヨーク州ニューヨーク市マンハッタンで発生したtheft from motor vehicle(車上ねらい)を対象とした
- 犯罪情報のデータソースはNYPD Complant Map(from NYC Open Data)
- 25変数,n=478,805
- 研究に使用したのは2015年,2016年,2017年の発生データ
- 研究に使用した変数はID,罪種,発生日時,曜日,緯度,経度
- 駐車場で発生した車上ねらいは全体の0.496%,99.5%は路上で発生している
- Getis-Ord Gi*でホットスポットの検出を行った
- 空間全体で観測された何らかの変数に対して,ある地域とその空間的に近接する地域における全体に対する割合がGetis-Ord Gi*である。そして多くの場合はそのz値を指している。つまり,平均よりも有意に値が大きい地域(ホットスポット)と有意に値が小さい地域(コールドスポット)を検出できる
- 商業施設や公共施設の視認性,営業時間,照明,落書き,植生などの都市の特徴を使用
- 道路セグメント(長さ,幅員,舗装(良い,普通,悪い,NR); n=81,210,2017年)
- 地下鉄の入り口(ID,点; n=1,929,2017年)
- レストラン(ID,点; n=9,326,2017年)
- 落書き(ID,X座標,Y座標; n=2,226,2015~2017年)
- すべてオープンデータから取得
- 道路セグメント単位で分析
- 各変数はそれらと最近接する道路セグメントの中心点に割り付ける
- 該当する変数(ポイント)のカウントとする
- 各変数はそれらと最近接する道路セグメントの中心点に割り付ける
- 最終的なデータ数は17,060件
- 訓練データを80%,予測データを20%でランダムスプリット
- 分析手法は以下の9つ
- データ加工として線形モデル,正則化線形モデル,SVMは特徴量スケーリング,ポイントのセンタリング処理を実施
- ハイパーパラメタは10-fold CVを3-repeatsで探索してチューニング
- モデル比較にはRMSEとR2を使用(回帰分析)
- 以下のクリーニングを実施
- 欠測値:除外
- マルチコ対策:説明変数間のピアソン積率相関チェック → は無し
- 外れ値:無し
- 正規性:車上ねらい,レストラン,地下鉄の入り口,落書きは正規性がないため変換
- データ観察を実施
- 車上ねらいと曜日の関係は見られない
- (平日は徐々に減少して,金曜~日曜に増加して見えるけど?)
- 車上ねらいのほとんどは路上で発生
- 路上で発生した火曜~木曜の車上ねらいは,16~20時頃に増加傾向,2~6時に低下傾向が見られた
- 1週間について平日+出勤時間,平日+通勤時間,平日+夜,週末+夜に分けて観察したところ,各集計によって車上ねらいの発生場所が異なっていた
- 車上ねらいと曜日の関係は見られない
- コールドスポットとして検出された地域は自動車の駐車が制限されている(つまり駐車できる場所があまり無い)可能性が考えられる
- 回帰分析の結果,ランダムフォレスト,線形回帰,正則化線形回帰が最良の精度となった(!?)
- 線形モデルの以下を確認
- Mean of residuals is zero:OK
- Homoscedasticity:OK
- No autocorrelation of residuals:OK
- The X variables and residuals are un correlated:OK
- No multicolinearity:OK
- Normality of residuals:NG
- RのShinyを使って安全な駐車場を表示する地図アプリを作成
- 車上ねらい発生リスクが高い場所をGISで確認した結果以下のような景観があった(これは目視確認なので"あくまで目で見たらこんなだったよ"程度)
- 通りの目(自然監視性)の欠如:窓がない,入り口(ドア)がない,窓まで遠い,フェンスなどの隔たりがある,歩行者が少ない,暗い(照明がない等)
この論文の画期的なところ
- んーなんだろう。あまりないかも
ほわい ちゅーず らんだむ ふぉれすと とぅ ぷれでぃくと れあ すぴーしーず でぃすとりびゅーしょん うぃず ふゅー さんぷるす いん らーじ あんだーさんぷるど えありあず? すりー あじあん くれーん すぴーしーず もでるす ぷろばいど さぽーてぃんぐ えびでんす
論文について
- Mi, C., Huettmann, F., Guo, Y., Han, X. and Wen, L.
- Why choose Random Forest to predict rare species distribution with few samples in large undersampled areas? Three Asian crane species models provide supporting evidence
- PeerJ, 5, e2849 (2017)
メモ
- 犯罪学の論文じゃないけど関係あるので
- 広い範囲の地域において在データのサンプル数が少ない種の分布(species distribution)の一般化(モデル化)の方法を調べる
- 中国における ナベヅル(grus monacha, n=33,2002-2014),マナヅル(grus vipio, n=40, 2009-2014),オグロヅル(grus nigricollis, n=75, 2014)という鶴の種類についてそれぞれのケースで調べる
- サンプリングされた地域からサンプリングされていない地域の分布を一般化する
- 先行研究でも複数のモデリング手法によるspecies distribution models(SDMs)の比較が行われている
- 本研究ではサンプル数が少ないデータを評価したことがポイント
- Salford Predictive Modeler(SPM)という有償の分析ソフトを使用した
- TreeNet(GBDT),Random Forest,CART,Maxent,それら4モデルのアンサンブル(平均値)を比較
- 説明変数は21種(WorldClim,Natural Earth,ESA,ArcGISの標高レイヤから取得および作成)
- 生物気候因子(WorldClim)
- 地形因子(標高,傾斜,方位)
- 水因子(河川までの距離,湖沼までの距離,海岸線までの距離)
- 推論因子(道路までの距離,鉄道路線までの距離,集落までの距離)
- 土地被覆要因
- 偽不在ポイントは種ごとに10,000点のランダム抽出で選択
- 予測は5km×5kmの格子上点単位に実施
- テストデータには,衛星追跡データと文献に基づくデータを使用
- 4羽のナベヅルと8羽のマナヅルの衛星追跡データを使い,時速5km以下のポイントを繁殖地と判断した
- 文献(Threatened Birds of Asia: The BirdLife International Red Data Book)からナベヅル,マナヅル,オグロヅルの繁殖地を得た
- テスト用の偽不在データはナベヅルとマナヅルは3,000ポイント,オグロヅルは5,000ポイントをランダムで生成
- ここにバイアスが乗る可能性あり
- 指標はROCとTSS(true skill statistic)を使用
- TSS(TNが大きい場合は在確率に収束)は以下のように定義される
- :true positive
- :true negative(真不在)
- :false positive
- : false netative
- TSS(TNが大きい場合は在確率に収束)は以下のように定義される
- 予測分布はrelative index of occurrence(RIO)で表示
- RIOとは格子上の各点に対して,出現する可能性を0-1で相対化したもの
- 分析の結果,4つのモデル中ではRandom Forestが最も高いAUCを記録した
- AUCが高い順に,Random Forest→Maxent→CART→TreeNet
- TSSは3種のSDMsでRandom Forestが最良
- アンサンブルモデルとRandom Forestは似たり寄た性能であった
- ナベヅルとマナヅルではRandom Forestの方が良い
- オグロヅルではアンサンブルモデルの方が良い
- 衛星追跡データも文献に基づくデータもRandom Forestが最も優れた結果を示した
- 予測地図とテストデータをプロットした地図を観察した結果,サンプル数が少ない場合はRandom Forestが最良の性能を示すが,サンプル数が増えると他のモデルも安定化していく
- Heikkinen et.al.(2012)ではRandom Forestの空間的移植性は低いと主張されているが,これに対して著者らはRandom Forestの実装が複数あるためであると主張している
- 要するにRandom Forestは素晴らしいが,そのモデリングの仕方に問題があるのでは?と言っている
- Random Forestが最良なのは,アルゴリズムによって低バイアス-低バリアンスを実現できる構造だから,と言っている
この論文の画期的なところ
- サンプル数が少ない種についてモデリング手法の比較を行ったこと
- しかし,いろいろな研究でRandom Forestが最良な結果を示しているけど,なんでなんだろうか?
ざ くらいむ かれいどすこーぷ: あ くろすーじゅりすでぃくしょなる あなりしす おぶ ぷれーす ふぃーちゃー あんど くらいむ いん すりー あーばん えんばいろんめんつ
論文について
- Barnumj, J.D., Caplan, J.M., Kennedy, L.W. and Piza, E.L.
- The crime kaleidoscope: A cross-jurisdictional analysis of place features and crime in three urban environments
- Applied Geography, 79, 203-211 (2017)
メモ
- Risk Terrain Modeling(RTM)を使って,シカゴ,ニューアーク,カンザスシティでrobberyの場所の特徴を調べた
- Kennedy(1983)は,歴史的・文化的・政治的・経済的な影響が万華鏡(kaleidoscope)のように組変わって場所に影響を与えている概念を提案した
- 犯罪に影響する場所の特徴は,同様の罪種・手口であっても環境によっては同一とは言えないだろう
- シカゴ:面積2227平行マイル,人口270万人
- カンザスシティ:面積315平方マイル,人口46万人
- ニューアーク:面積24平方マイル,人口27万7千人
- 2012年に警察によって記録されたrobberyを使用
- 14種類の場所の特徴を選択。
- 薬物の逮捕(drug arrests),公園(parks),質屋(pawn shops),バー(Bars),差し押さえ物件(Foreclosures),ガソリンスタンド(Gas stations),食品店(Grocery stores),健康施設とジム(Health centers & ジム),コインラインドリー(Laundromats),酒店(Liquor stores),駐車場(Parking stations),学校(Schools),雑貨屋(Variety stores),バス停(Bus stops)
- 各都市間の場所の特徴の影響を比較するために,環境要因はそれぞれ標準化
- (RTMDxはポイントフィーチャしか入力できない
- 推定結果
- 地域的に近接していると似た環境の影響が現れるケースが見られた
- 都市によって各施設の配置のされ方が異なるため,犯罪への影響も異なる
- 道路セグメントやパス,エッジとの関係を含めた理解は今後の課題
- また環境間の交互作用を考えることも今後の課題
この論文の画期的なところ
- RTMを使って,同じ罪種・手口に影響する場所の特徴を異なる都市間で比較したこと
せるふ えきさいてぃんぐ ぽいんと ぷろせす もでりんぐ おぶ くらいむ
論文について
- Mohler, G.O., Short, M.B., Brantingham, P.J., Schoenberg, F.P. and Tita, G.E.
- Self-Exciting Point Process Modeling of Crime
- Journal of the American Statistical Association, 106(493), 100-108
メモ
- 犯罪が時空間的に近接して発生するパターンを地震の本震と余震のメカニズムを説明するETASモデルでの説明し得るかを試みる
- 時空間的なETASモデルに倣って,burglaryの時空間的強度を説明するモデルを以下とする
- この式のパラメタ推定を行うため,乱数ベースの反復計算を行う
- 最尤法をまともに解こうとすると超高次元を扱うことになり計算機が火を噴くのでノンパラメトリックな確率的方法で解く
- この式のパラメタ推定を行うため,乱数ベースの反復計算を行う
- burglaryには発生時間の幅があるため,その中間時間を代表として使用
- フィールドはカリフォルニア州ロサンゼルス群サンフェルナンド・バレー
- ロサンゼルス警察が記録した2004年,2005年に発生したburglaryを使用
- Figure 3. の右図から明らかなように,同じ家に何度も侵入しているパターンがある
- しかし日本ではこんなことあるかな?そんなに反復被害って顕著なもんなの?
- 反復計算から得られたカスケードイベントのカーネルを空間で周辺化すると,時間の反復性が取れる(Figure 4. 左図)
- 背景イベントの1-2日後と7日後くらいのところで強度が強くなる
- 提案手法と先行事例で使用されている予測手法(いわゆるProMap)と比較する
- この時,提案手法に使った可変バンド幅では予測精度が悪いらしく固定バンド幅に変えている
- 提案手法の方が精度が良い結果となったが,これは従来手法が背景イベントの効果を入れていないと推測されている
- ProMapは全てのイベントが背景イベントでありカスケードイベントでもあると考えている
- 計算上重要な点として,この方法では,時空間グリッド点はO(1000)の数必要になること
- そうしないと反復計算が収束しない可能性があることが指摘されている
この論文の画期的なところ
- かねてから言及されてきたnear repeat victimizationの傾向を数量的に得る方法を地震学の方法を輸入することで定量化できた
- 特に最新のパラメタ推定の工夫を用いることで,確率的な計算過程でこれを実現することができた(地震学の研究者もすごい)
- へぇーってなるところ
その他
- この論文は何年も前に読んで割と頭の真ん中に留めていたんだど,ちょっと実際にコード書いてみようかな(どうせならブログにメモするかも)
すていぶる あんど ふるーいど ほっとすぽっつ おぶ くらいむ: でぃふぁれんしえーしょん あんど あいでんてぃふぃけーしょん
論文について
- Johnson, S.D., Lab, S.P. and Bowers, K.j. (2008)
- Stable and Fluid Hotspots of Crime: Differentiation and Identification
- Built Environment, 34(1)
メモ
- ホットスポットの時間的安定性を調査
- ホットスポットを描くと同じ分布に見えても,temporalな発生パターンによっては対策の仕方が異なると考えられる
- ある期間内のデータを短い時間間隔(例: 14日)で区切って作成したホットスポットの時系列推移を観察する
- 期間の全てのデータを用いて作成したホットスポットを"cumulative KDE"と呼ぶ
- 区切ったホットスポットに対してセルごとの時間方向の変動係数(Coefficient of Variation; CoV)によりホットスポットの安定性を評価する
- CoVが1より十分に小さい場合: 犯罪の発生は時間的に安定している,1より大きい場合: 犯罪の発生は時間的に安定していない
- 筆者らが指摘するように,14日以外の区間では結果が異なるかもしれないことに留意(シンプソンのパラドクス,生態学的誤謬を生みかねない)
- rolling windowで解決する方法もあるが,windowサイズに説明を与える必要がある
- フィールドはイギリスのマージサイド州
- 2005/1/1 - 2005/6/30に発生した窃盗(住宅侵入窃盗)が対象,場所は1メートルの解像度で測定されている
- ホットスポットのグリッド点は50m×50mとし,グリッド内に住宅があるセルのみ使用
- 住宅の有無はOrdnance Survey(OS)によって記録された測量結果を使用
- グリッドセルごとにCoVを計算した結果,KDE値の上位5%に位置するセルの中にも犯罪の集中が安定していない(CoVが1より大きい)ものが含まれている
- 特に上位側のセルは,CoVが大きくなる傾向がある
- デュアルKDE: 犯罪のKDEを人口のKDEで割ったもの
- 単に犯罪の多発を示すのでなく,犯罪率として示すことで犯罪機会を考慮することができる
- 時系列的な変動の影響を加味したKDEの改良方法は,時系列分割した各KDEのzero adjusted logを取る。そうすることである時系列区間の外れ値を影響を抑制できる(外れ値の影響に引きずられなくする)
- 犯罪の発生に関して場所に何らかの脆弱性がある場合,時間的に安定している場所を対象とした要因分析をしなければならないだろう(1. 安定したホットスポットの特定, 2. crime generator or attractor flagを立てる,3. 定量的分析)
- この研究で使用したKDEのカーネル関数はquartic kernel function
この論文の画期的なところ
- 犯罪ホットスポットの時間的な変動パターンを定量的に評価したこと
- 短期間的な多発の影響を加味したKDE方法を提案したこと
- 単純なKDEとデュアルKDEで時間変動の様相が異なることを示したこと
- デュアルKDEの方が時間的な安定性が低さが大きくなる
へぇーってなるところ
いんふぇくしゃす ばーぐらりーず: あ てすと おぶ ざ にあ りぴーと はいぽせしす
論文について
- Townsley, M., Homel, R. and Chaseling, J.
- INFECTIOUS BURGLARIES: A Test of the Near Repeat Hypothesis
- British Journal of Criminology, 43(3), 615-663 (2003)
メモ
- repeat victimization(反復被害)の存在とそれに依拠した防犯活動の有効性は確認されつつあったが,空間的な近接性(near repeat)が伴うか否かも調査する(疫学的アプローチ)
- すでに既存研究で,反復被害に遭う被害対象の近隣で被害が発生し易い傾向は示されていた
- フィールドはオーストラリア連邦クイーンズランド州ブリスベン南東部の警察署管轄,犯罪データは1995/1/1 - 1997/10/31までに記録されたburglary(住宅侵入窃盗)
- 住宅の多様性は地元の不動産屋にインタビュー
- 近年大規模に開発された住宅街をhousing homogeneityが高い地域とした
- 5つの郊外で検証を実施
- housing homogeneity指標で2グループに分けられた
- "被害に遭い易い地域"は,失業率・公営住宅・低所得者層とburglaryの発生率から指標を作った(いいんか!?)
- 被害に遭った回数が1回の場合(single)と2回以上(repeat)の場合でペアを分けて,SS,SR,RRの場合の近接反復性を確認した
- この方法で犯罪の伝染のメカニズムを調べたい
- 分析方法はKnox法
- 詳細は省くが,Knox法とは各インシデント間の全てのペアで時間差と距離差を計算し,人が与えた時間的・空間的閾値による集計の不均一性を残差分析する方法
- x (0 - 1000m),y (0 - 1000m)範囲ないでランダムに生成した500件のサンプルデータを20回生成し,Knox法のベースラインを計測
- "被害に遭い易い"地域やhousing homogeneityが高い地域は近接反復的な犯罪被害に遭い易いが,両方が成立するとより強い傾向が出る
- housing homogeneityが高い地域では反復被害が多く,犯罪リスクは被害対象から反比例的に距離減衰する,という考えがある
- 近接反復被害が起こっているのでは?という仮説を検証する
- housing homogeneityとは住宅が似たような特徴(間取り,外観,セキュリティなど外的な特徴)を持っていること
- つまり犯行者にとっては魅力的なターゲットが集中している地域となる
- ただし単に似通ってた住宅が集まる地域で被害が増えるわけではなく,"被害に遭い易いhousing homogeneity"が興味の対象である
- burglarの時間的減衰は2カ月までリスクが尾を引き,6カ月ほどで大幅に減少,12カ月で元にもどる(Farrell and Pease 1993; Polvi et al. 1990; Townsley et al. 2000)
- 全く同じ地点にあるデータはKnox testの対象データから除外
この論文の画期的なところ
- 反復被害の知見や環境犯罪学の概念(日常活動理論,犯罪パターン理論)から,犯罪の近接反復的な伝染パターンを仮定し,Knox法によって検証したこと
- housing homogeneityと"被害に遭い易い"指標から,地域を分割し,近接反復被害の発生メカニズムを確認したこと
はう こんせんとれいてっど いず くらいむ あっと ぷれいす?あ しすてまてぃっく れびゅー ふろむ 1970 とぅ 2015
論文について
- Lee, Y.J., Eck J.E., O, S.H. and Martinez, N.N. (2017)
- How concentrated is crime at places? A systematic review from 1970 to 2015
- Crime Science, 6(6)
メモ
- 犯罪ホットスポット研究のレビュー論文
- 関心事は主に以下の2つ
- 犯罪は集中するのか?集中にはばらつきがあるのか?
- 場所(施設,道路セグメント,グリッドセルなど)などによる違いは何か?
- 単位場所とそこでの犯罪発生件数が記録された論文をサーチ
- 全ての場所に対して犯罪が発生した場所と発生しなかった場所が分かる場合は'prevalence'
- 犯罪が発生した場所だけが記録されている場合は'frequency'
- 表1はレビュー対象論文のpercentage of crimeとpercentage of placesをプロットしているが,こんなことしていいの?
- 研究デザインはさまざま(場所の定義,国や地域,罪種や手口,サンプル点など)だが…
- 著者たちが指摘するように,図2のpercentage of placesが10%で曲線がキレイにフィットして見えるのは,bin毎の中央値で代表させているからだと思う
- calls for services(CFS)と犯罪発生場所で犯罪の集中の様相は異なるかを調べた
この論文の画期的なところ
- 先行研究を基に,ホットスポットの様相を定量的に評価したこと
- 使用するデータ(CFSか発生場所か)による犯罪の集中の違いを明らかにしたこと
- 場所(住所,世帯,セグメント,エリア)による犯罪の集中の違いを明らかにしたこと
- 'prevalence'の場合,場所のスケールが小さくなるほど犯罪が集中する
- 'frequency'の場合,住所はセグメントよりも集中確率が高い(1つのセグメントには複数の住所が含まれる)
- 1990年代前半に犯罪が減少し,犯罪の集中も減少したことを示したこと(犯罪の発生件数が減るとホットスポットの強度が弱くなる。ただしホットスポットそのものは残存している)
- ホットスポットが20年程度変化していないことを示唆している
- 'prevalence'の場合,アメリカは他国と比べて犯罪の集中の程度が大きいことを示したこと
へぇーってなるところ
- 国によって犯罪の集中度合い異なること
- でもこれって都市にもよるのでは?
- 日本はアメリカなんかと比べると犯罪が極端に少ないけど,犯罪の集中の程度はいかがなものか?