閱讀244 返回首頁    go 阿裏雲 go 技術社區[雲棲]


聚焦開放數據:全球恐怖襲擊事件數據庫

0?wx_fmt=jpeg

在Kaggle上發布數據是各個組織機構去接觸形形色色對求知和協作充滿熱情的數據科學家的一種方式。(譯者注:Kaggle是一個數據建模和數據分析的競賽平台。企業和研究者可在其上發布數據,統計學者和數據科學家可在其上進行競賽以產生最好的模型。)對於START(the National Consortiumfor the Study of Terrorism,研究恐怖襲擊及應對恐怖襲擊的全國性聯盟)的Erin Miller博士而言,把START的全球恐怖襲擊事件數據庫(GlobalTerrorism Database:https://www.kaggle.com/START-UMD/gtd)發布到Kaggle上,讓kaggle的用戶來分析這些數據,能幫助他們對恐怖襲擊有新的認識。


在這篇訪談裏,Erin Miller博士將介紹Kaggle用戶將如何在業餘時間對這個涵蓋了超過150,000次襲擊事件的驚天數據集進行建設性的分析,從而得出可能挑戰公眾對恐怖襲擊的認識的新見解。我們還將繼續介紹更多關於全球恐怖襲擊事件數據庫的內容,以及如何獲取和分析它的開放數據來為反恐事業添磚加瓦。


開始


在START聯盟中,你的背景和角色是什麼?


我(譯者注:Erin Miller博士)是馬裏蘭大學(University of Maryland)的一名刑事學家,目前任START全球恐怖襲擊數據庫(GTD)項目的項目經理。我從十二年前開始當助教清理這個數據庫的原始數據,到現在管理著整個項目團隊、工作流程、資源、以及與最終用戶和相關研究項目之間的互動。


能不能跟我們介紹一下START聯盟?


START是由美國國土安全部和大學計劃辦公室於2005年創建的一個高級研發中心(åCenter of Excellence)。這個高級研發中心的理念是為了讓綜合性大學裏的研究者去關注與國土安全有關的問題。START的組織框架是社會科學。我們開發了一係列科研、培訓和教育資源,用於對恐怖襲擊的因果研究。


你能描述一下全球恐怖襲擊事件數據庫嗎?


全球恐怖襲擊事件數據庫(GTD)是一個收錄了全球恐怖襲擊事件的數據庫,最早可追溯至1970年。GTD的發展是一個漫長的曆程,目前它包括了超過150,000次恐怖襲擊的數據,並用超過100個變量來詳盡地描述襲擊發生的時間和地點,襲擊者和受害者是誰,襲擊者使用的策略,襲擊的結果是什麼,等等。所有的數據都基於未分類信息–––大部分來自媒體的報道。而且數據的收集工作還在持續地進行中,我們每年都會更新GTD數據庫。


隨著在線媒體的發展,我們還開發出“混合”數據收集策略。我們利用一些自動化方法(自然語言處理,機器學習模型)來篩選每個月幾百萬篇的新聞報道,再通過人工閱讀選出來幾千篇關於恐怖襲擊的報道來盡可能精確地添加新的數據庫條目。

 

深入數據


你希望公布這些數據給公眾進行分析將如何幫助到你們的工作和這個世界?


基於原則上和實際中的一些原因,讓用戶了解和使用GTD一直是我們工作的一個重點。一開始我們花了幾年的時間來整理和數字化成千上萬條手寫數據記錄,從那時起我們在START網站上的GTD數據庫就已經比較規範。我們發現人們對關於恐怖襲擊這個熱點的客觀數據越來越感興趣,而且讓Kaggle這麼大的數據分析用戶群來使用這些數據要比我們繼續像過去十年這樣自己使用這些數據能產生重大發現的可能性要大得多。


此外,對於任何數據采集項目而言,透明度非常關鍵。其中很重要的一點是讓人們可以了解到這些數據是如何采集的以及每條記錄長怎麼樣的,這樣可以增加大家使用數據的靈活性和數據本身的可信度。最後,讓用戶使用這些數據有利於提高數據本身的質量。改善數據精確度的最好方式就是去關注它,從而發現潛在問題以便我們審查和改進。


你們在Kaggle上分享這些數據的動機是什麼?


兩個原因:第一,Kaggle這個平台有一些比我們自己的係統更出色的功能。它允許用戶做自定義分析,然後分享給其他用戶。這個功能非常有用,能夠推動更多的合作和新的發現。


第二,盡管我們在START網站分享數據已經差不多十年了,但我們的用戶群體與Kaggle的用戶群體似乎隻有少量的重疊。可能因為我們和Kaggle的用戶往往來自不同的圈子,有著不一樣的技能和興趣。Kaggle用戶可能很難“偶然”發現GTD網站,那麼在Kaggle上分享GTD的數據是一個讓更多人去了解和使用GTD的好機會。

 

Kaggle用戶群


到目前為止,你最喜歡的Kaggle用戶對GTD數據的分析工作是什麼?


Kaggle上已經有很多對GTD數據的分析,我們很難跟蹤所有的這些分析。但這也是Kaggle的一個優點:各種技能水平的用戶(包括初學者)都能在上麵找到一些數據進行練習。


我特別喜歡Umesh的“使用Highcharter來探索全球恐怖襲擊”的分析。(譯者注:Highcharter是一個網絡可視化工具Highchart在R裏麵的程序包。)Umesh的分析不僅使用了多種可視化工具,他的許多圖表還包含了一些承前啟後的要點。這表明他了對數據有著非常深入的了解。要知道用圖表來總結這些數據是一件多麼具有挑戰性的工作。


Pranav Pandya的“世界範圍內的恐怖襲擊 ”項目也相當出色。盡管我對恐怖襲擊的模式已經相當了解,但新用戶會覺得PranavPandya對美國恐怖襲擊數據的分析非常有趣(就像Abigail Larion的分析一樣),因為這些結果公然挑戰了大眾對恐怖襲擊的認知。


迄今為止最讓你感到驚奇的方麵是什麼?


我喜歡Kaggle用戶如何去激勵其他的Kaggle用戶參與到項目中來。我和許多出色的分析人員進行過一對一的接觸,但是我的社交平台經驗(好吧,主要是Twitter)是:當GTD被提及時,常常是因為人們爭論恐怖襲擊這個問題時,有人給出GTD的連接來試圖證明他們的觀點。


當人們出於興趣(而不是作為日常工作的一部分)來研究GTD數據,他們往往變得更具積極性。我喜歡閱讀來自Kaggle的關於有人試圖回答另一個用戶的問題或者隻是評論說“你的工作超讚,謝謝!”這類的電子郵件。


如何看待利用GTD數據進行反恐行動?


GTD數據庫可以通過多種形式來協助反恐行動:從提供各轄區內出現的恐嚇與密謀以及它們如何隨時間變化等基本信息,到更複雜的試圖分析在既定情境中什麼類型的反恐策略更有效。我很樂意看到GTD能為決策者提供準確且有用的數據。


關於開放數據的思考


你認為開放數據將如何改變世界?


我認為開放數據非常有用,尤其對Kaggle讀者。然後我想重點討論一下使用開放數據在這個瞬息萬變的世界裏的將會遇到的一個潛在問題:當這些數據被多次處理和重新發布後,用戶可能無法查到數據的原出處,甚至可能想當然的接受處理後的數據。但不要忘了這就像某些經改寫的新聞可能會偏離作者的原意一樣,某些對原始數據的處理很可能改變了數據本身。


在過去的幾年裏,為了收集GTD的數據,我們幸運地得到了來自美國司法部、美國國土安全部和美國國務院的資助。但GTD的運營是一個相當勞動密集的工作,它涉及到馬裏蘭大學的研究人員和學生。而START 是一個非營利性研究聯盟。盡管GTD已被數據科學家、政策製定者、媒體、研究人員和教育工作者廣泛使用,但我們並不能預測未來能否持續地獲得維持數據采集的資金。所以我鼓勵所有開放數據的用戶:如果你覺得一個數據集有用,我建議你花點時間去了解它來自哪裏。如果你發現它確實有用,請考慮給采集此數據的機構發送一條使用記錄,這將幫助該機構繼續獲得相關部門的資助。


對於那些有興趣學習如何分析START數據的人,你有什麼建議?


我最大建議是去看一看GTD的代碼書(https://www.start.umd.edu/gtd/downloads/Codebook.pdf) 。關於恐怖襲擊的數據往往不是那麼簡單直接,GTD代碼書能幫助新老用戶解答很多關於這些數據的問題。


那些對數據采集感興趣的用戶還可以看看GTD的培訓模塊。這些培訓旨在展示GTD數據庫的特點以及一些需要注意的地方。此外,我們還介紹了在MS Excel中如何使用數據透視表(PivotTables)進行數據的互動演示,而這裏麵的原理也適用於其他分析工具。

 

原文發布時間為:2017-5-13

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-16 15:57:30

  上一篇:go  tensorflow實現基於深度學習的圖像補全
  下一篇:go  突發!最嚴重網絡攻擊威脅全球,74個國家超5萬電腦被黑!