閱讀837 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《大數據導論》理解大數據



本節書摘來自華章出版社《Spark大數據分析:核心概念、技術及實踐》一書中的第1章,第1節,作者托馬斯·埃爾(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保羅·布勒(Paul Buhler)更多章節內容可以訪問雲棲社區“華章計算機”公眾號查看。

理解大數據

大數據是一門專注於對大量的、頻繁產生於不同信息源的數據進行存儲、處理和分析的學科。當傳統的數據分析、處理和存儲技術手段無法滿足當前需求的時候,大數據的實踐解決方案就顯得尤為重要。具體地說,大數據能滿足許多不同的需求,例如,將多個沒有聯係的數據集結合在一起,或是處理大量非結構化的數據,抑或是從時間敏感的行為中獲取隱藏的信息等。

雖然大數據看起來像是一門新興的學科,卻已有多年的發展曆史。對大型數據集的管理與分析是一個存在已久的問題—從利用勞動密集方法進行早期人口普查的工作,到計算保險收費背後的精算學科,都涉及這個方麵的問題,大數據就由此發展起來。

作為對傳統的基於統計學分析方法的優化,大數據加入了更加新的技術,利用計算資源和方法的優勢來執行分析算法。在當今數據集持續地擴大化、擴寬化、複雜化和數據流化的背景之下,這種優化十分重要。自《聖經》時代以來,統計學方法一直在告訴我們通過抽樣調查的手段能夠粗略地測量人口。但計算機科學目前的發展使我們完全有能力處理那樣龐大的數據集,因此抽樣調查的手法正在逐漸“失寵”。

對於大數據的數據集的分析是一項綜合數學、統計學、計算機科學等多項專業學科的跨學科工作。這種多學科、多觀點的混合,常常會使人對大數據及大數據分析這門學科所涵蓋的內容產生疑問,每個人都會有不同的見解。大數據問題所涵蓋的內容範圍也會隨著軟硬件技術的更新而變化。這是因為我們在定義大數據的時候考慮了數據特征對於數據解決方案本身的影響。比如30年前,1GB的數據就稱得上是大數據,而且我們還會為這份數據專門申請計算資源,而如今,1GB的數據十分常見,麵向消費者的設備就能對其進行快速的存儲、轉移、複製或者其他處理。

大數據時代下的企業數據,常常通過各種應用、傳感器以及外部資源聚集到企業的數據集中。這些數據經過大數據解決方案的處理後,能夠直接應用於企業,或者添加到數據倉庫中豐富現有的數據。這種大數據解決方案處理的結果,將會給我們帶來許多深層知識和益處,例如:

運營優化

可實踐的知識

新市場的發現

精確的預測

故障和欺詐的檢測

詳細的信息記錄

優化的決策

科學的新發現

顯然,大數據的應用麵和潛在優勢十分廣闊。然而,在何時選用大數據分析手段的問題上,還有大量的問題需要考慮。當然,我們需要去理解這些存在的問題,並與大數據的優勢進行權衡,最終才能做出一個合理的決策並提出合適的解決方案。這些內容我們將在第二部分單獨討論。

1.1 概念與術語

作為開端,我們首先要定義幾個基本概念和術語,以便大家理解。

1.1.1 數據集

我們把一組或者一個集合的相關聯的數據稱作數據集。數據集中的每一個成員數據,都應與數據集中的其他成員擁有相同的特征或者屬性。以下是一些數據集的例子:

存儲在一個文本文件中的推文(tweet)

一個文件夾中的圖像文件

存儲在一個CSV格式文件中的從數據庫中提取出來的行數據

存儲在一個XML文件中的曆史氣象觀測數據

圖1.1中顯示了三種不同數據格式的數據集。

 

圖1.1 數據集可以有多種不同的格式

1.1.2 數據分析

數據分析是一個通過處理數據,從數據中發現一些深層知識、模式、關係或是趨勢的過程。數據分析的總體目標是做出更好的決策。舉個簡單的例子,通過分析冰淇淋的銷售額數據,發現一天中冰淇淋甜筒的銷量與當天氣溫的關係。這個分析結果可以幫助商店根據天氣預報來決定每天應該訂購多少冰淇淋。通過數據分析,我們可以對分析過的數據建立起關係與模式。圖1.2顯示了代表數據分析的符號。

 

圖1.2 用於表示數據分析的符號

1.1.3 數據分析學

數據分析學是一個包含數據分析,且比數據分析更為寬泛的概念。數據分析學這門學科涵蓋了對整個數據生命周期的管理,而數據生命周期包含了數據收集、數據清理、數據組織、數據分析、數據存儲以及數據管理等過程。此外,數據分析學還涵蓋了分析方法、科學技術、自動化分析工具等。在大數據環境下,數據分析學發展了數據分析在高度可擴展的、大量分布式技術和框架中的應用,使之有能力處理大量的來自不同信息源的數據。圖1.3顯示了代表數據分析學的符號。

 

圖1.3 用於表示數據分析學的符號

大數據分析(學)的生命周期通常會對大量非結構化且未經處理過的數據進行識別、獲取、準備和分析等操作,從這些數據中提取出能夠作為模式識別的輸入,或者加入現有的企業數據庫的有效信息。

不同的行業會以不同的方式使用大數據分析工具和技術。以下述三者為例:

在商業組織中,利用大數據的分析結果能降低運營開銷,還有助於優化決策。

在科研領域,大數據分析能夠確認一個現象的起因,並且能基於此提出更為精確的預測。

在服務業領域,比如公眾行業,大數據分析有助於人們以更低的開銷提供更好的服務。

大數據分析使得決策有了科學基礎,現在做決策可以基於實際的數據而不僅僅依賴於過去的經驗或者直覺。根據分析結果的不同,我們大致可以將分析歸為以下4類:

描述性分析

診斷性分析

預測性分析

規範性分析

不同的分析類型將需要不同的技術和分析算法。這意味著在傳遞多種類型的分析結果的時候,可能會有大量不同的數據、存儲、處理要求。如圖1.4所示,生成高質量的分析結果將加大分析環境的複雜性和開銷。

 

圖1.4 從描述性分析到規範性分析,價值和複雜性都在不斷提升

1.描述性分析

描述性分析往往是對已經發生的事件進行問答和總結。這種形式的分析需要將數據置於生成信息的上下文中考慮。

相關問題可能包括:

過去12個月的銷售量如何?

根據事件嚴重程度和地理位置分類,收到的求助電話的數量如何?

每一位銷售經理的月銷售額是多少?

據估計,生成的分析結果80%都是自然可描述的。描述性分析提供了較低的價值,但也隻需要相對基礎的訓練集。

如圖1.5所示,進行描述性分析常常借助即席報表和儀表板(dashboard)。報表常常是靜態的,並且是以數據表格或圖表形式呈現的曆史數據。查詢處理往往基於企業內部存儲的可操作數據,例如客戶關係管理係統(CRM)或者企業資源規劃係統(ERP)。

 

圖1.5 圖左側的操作係統,經過描述性分析工具的處理,能夠生成圖右側的報表或者數據儀表板

2.診斷性分析

診斷性分析旨在尋求一個已經發生的事件的發生原因。這類分析的目標是通過獲取一些與事件相關的信息來回答有關的問題,最後得出事件發生的原因。

相關的問題可能包括:

為什麼Q2商品比Q1賣得多?

為什麼來自東部地區的求助電話比來自西部地區的要多?

為什麼最近三個月內病人再入院的比率有所提升?

診斷性分析比描述性分析提供了更加有價值的信息,但同時也要求更加高級的訓練集。如圖1.6所示,診斷性分析常常需要從不同的信息源搜集數據,並將它們以一種易於進行下鑽和上卷分析的結構加以保存。而診斷性分析的結果可以由交互式可視化界麵顯示,讓用戶能夠清晰地了解模式與趨勢。診斷性分析是基於分析處理係統中的多維數據進行的,而且,與描述性分析相比,它的查詢處理更加複雜。

3.預測性分析

預測性分析常在需要預測一個事件的結果時使用。通過預測性分析,信息將得到增值,這種增值主要表現在信息之間是如何相關的。這種相關性的強度和重要性構成了基於過去事件對未來進行預測的模型的基礎。這些用於預測性分析的模型與過去已經發生的事件的潛在條件是隱式相關的,理解這一點很重要。如果這些潛在的條件改變了,那麼用於預測性分析的模型也需要進行更新。

 

圖1.6 診斷性分析能夠產生可以進行上卷和下鑽分析的數據

預測性分析提出的問題常常以假設的形式出現,例如:

如果消費者錯過了一個月的還款,那麼他們無力償還貸款的幾率有多大?

如果以藥品B來代替藥品A的使用,那麼這個病人生存的幾率有多大?

如果一個消費者購買了商品A和商品B,那麼他購買商品C的概率有多大?

預測性分析嚐試著預測事件的結果,而預測則基於模式、趨勢以及來自於曆史數據和當前數據的期望。這將讓我們能夠分辨風險與機遇。

這種類型的分析涉及包含外部數據和內部數據的大數據集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價值,同時也要求更加高級的訓練集。如圖1.7所示,這種工具通常通過提供用戶友好的前端接口對潛在的錯綜複雜的數據進行抽象。

 

圖1.7 預測性分析能夠提供用戶友好型的前端接口

4.規範性分析

規範性分析建立在預測性分析的結果之上,用來規範需要執行的行動。其注重的不僅是哪項操作最佳,還包括了其原因。換句話說,規範性分析提供了經得起質詢的結果,因為它們嵌入了情境理解的元素。因此,這種分析常常用來建立優勢或者降低風險。

下麵是兩個這類問題的樣例:

這三種藥品中,哪一種能提供最好的療效?

何時才是拋售一隻股票的最佳時機?

規範性分析比其他三種分析的價值都高,同時還要求最高級的訓練集,甚至是專門的分析軟件和工具。這種分析將計算大量可能出現的結果,並且推薦出最佳選項。解決方案從解釋性的到建議性的均有,同時還能包括各種不同情境的模擬。

這種分析能將內部數據與外部數據結合起來。內部數據可能包括當前和過去的銷售數據、消費者信息、產品數據和商業規則。外部數據可能包括社會媒體數據、天氣情況、政府公文等等。如圖1.8所示,規範性分析涉及利用商業規則和大量的內外部數據來模擬事件結果,並且提供最佳的做法。

 

圖1.8 規範性分析通過引入商業規則、內部數據以及外部數據來進行深入徹底的分析

1.1.4 商務智能

商務智能(BI)通過分析由業務過程和信息係統生成的數據讓一個組織能夠獲取企業績效的內在認識。分析的結果可以用於改進組織績效,或者通過修正檢測出的問題來管理和引導業務過程。商務智能在企業中使用大數據分析,並且這種分析通常會被整合到企業數據倉庫中以執行分析查詢。如圖1.9所示,商務智能的輸出能以儀表板顯示,它允許管理者訪問和分析數據,且可以潛在地改進分析查詢,從而對數據進行深入挖掘。

 

圖1.9 商務智能用於改善商業應用,將數據倉庫中的數據以及儀表板的分析查詢結合起來

1.1.5 關鍵績效指標

關鍵績效指標(KPI)是一種用來衡量一次業務過程是否成功的度量標準。它與企業整體的戰略目標和任務相聯係。同時,它常常用來識別經營業績中的一些問題,以及闡釋一些執行標準。因此,KPI通常是一個測量企業整體績效的特定方麵的定量參考指標。如圖1.10所示,它常常通過專門的儀表板顯示。儀表板將多個關鍵績效指標聯合起來展示,並且將實測值與關鍵績效指標閾值相比較。

 

圖1.10 KPI儀表板是評價企業績效的核心標準

1.2 大數據特征

大數據的數據集至少擁有一個或多個在解決方案設計和分析環境架構中需要考慮的特征。這些特征大多數由道格·蘭尼早在2001年發布的一篇討論電子商務數據的容量、速率和多樣性對企業數據倉庫的影響的文章中最先提出。考慮到非結構化數據的較低信噪比需要,數據真實性隨後也被添加到這個特征列表中。最終,其目的還是執行能夠及時向企業傳遞高價值、高質量結果的分析。

這一節將探究5個大數據的特征,這些特征可以用來將大數據的“大”與其他形式的數據區分開。這5個大數據的特征如圖1.11所示,我們也常常稱為5V:容量(volume);速率(velocity);多樣性(variety);真實性(veracity);價值(value)。

 

圖1.11 大數據中的“5V”

1.2.1 容量

最初考慮到數據的容量,是指被大數據解決方案所處理的數據量大,並且在持續增長。數據容量大能夠影響數據的獨立存儲和處理需求,同時還能對數據準備、數據恢複、數據管理的操作產生影響。圖1.12形象地展示了每天來自世界範圍內的組織和用戶所產生的大量數據。

 

圖1.12 世界上所有的組織和用戶一天產生的數據超過2.5EB,作為對比,美國國會圖書館目前存儲的數據大概為300TB

典型的生成大量數據的數據源包括:

在線交易,例如官方在線銷售點和網銀。

科研實驗,例如大型強子對撞機和阿塔卡瑪大型毫米及次毫米波陣列望遠鏡。

傳感器,例如GPS傳感器,RFID標簽,智能儀表或者信息技術。

社交媒體、臉書(Facebook)和推特(Twitter)等。

1.2.2 速率

在大數據環境中,數據產生得很快,在極短的時間內就能聚集起大量的數據集。從企業的角度來說,數據的速率代表數據從進入企業邊緣到能夠馬上進行處理的時間。處理快速的數據輸入流,需要企業設計出彈性的數據處理方案,同時也需要強大的數據存儲能力。

根據數據源的不同,速率不可能一直很快。例如,核磁共振掃描圖像不會像高流量Web服務器的日誌條目生成速度那麼快。圖1.13給出了高速率大數據生成示例,一分鍾內能夠生成下列數據:35萬條推文、300小時的YouTube視頻、1.71億份電子郵件,以及330GB飛機引擎的傳感器數據。

 

圖1.13 高速率的大數據例子,包括推文、視頻、電子郵件、傳感器數據

1.2.3 多樣性

數據多樣性指的是大數據解決方案需要支持多種不同格式、不同類型的數據。數據多樣性給企業帶來的挑戰包括數據聚合、數據交換、數據處理和數據存儲等。圖1.14展示了數據多樣性的可視化形象,其中包括經濟貿易的結構化數據,電子郵件的半結構化數據以及圖像等非結構化數據。

 

圖1.14 大數據多樣性的例子,包括結構化數據、文本數據、圖像數據、視頻數據、音頻數據、XML數據、JSON數據、傳感器數據和元數據

1.2.4 真實性

數據真實性指的是數據的質量和保真性。進入大數據環境的數據需要確保質量,這樣可以使數據處理消除掉不真實的數據和噪音。就數據的真實性而言,數據在數據集中可能是信號,也可能是噪音。噪音是無法被轉化為信息與知識的,因此它們沒有價值,相對應的,信號則能夠被轉化成有用的信息並且具有價值。信噪比越高的數據,真實性越高。從可控的行為中獲取的數據(例如通過網絡消費注冊獲得的數據)常常比通過不可控行為(例如發布的博客等)獲取的數據擁有更少的噪音。而數據的信噪比獨立於數據源和數據類型。

1.2.5 價值

數據的價值是指數據對一個企業的有用程度。價值特征直觀地與真實性特征相關聯,真實性越高,價值越高。同時,價值也依賴於數據處理的時間,因為分析結果具有時效性。例如20分鍾的股票報價延遲與20毫秒的股票報價延遲相比,明顯後者的價值遠大於前者。正如前麵所說,價值與時間緊密相關。數據轉變為有意義的信息的時間越長,這份信息對於商業的價值就越小。過時的結果將會抑製決策的效率和質量。圖1.15闡述了價值是如何被數據真實性以及生成結果的時間所影響的。

除了數據真實性和時間,價值也受如下幾個生命周期相關的因素影響:

數據是否存儲良好?

數據有價值的部分是否在數據清洗的時候被刪除了?

數據分析時我們提出的問題是正確的嗎?

數據分析的結果是否準確地傳達給了做決策的人員?

 

圖1.15 數據的保真性越高,分析時間越短,對商業有越高的價值

1.3 不同數據類型

雖然數據最終會被機器處理並生成分析結果,但經由大數據解決方案處理的數據來源,可能是人也可能是機器。人為產生的數據是人與係統交互時的結果,例如在線服務或者數字設備,圖1.16顯示了人為產生的數據的示例。

 

圖1.16 人為產生的數據,例如社交媒體、博客博文、電子郵件、照片分享、短信等

機器生成的數據是指由軟件程序和硬件設備對現實世界做出回應所產生的數據。例如,一個記錄著安全服務的某次授權的日誌文件,或者一個銷售點管理係統生成的消費者購買的商品清單。從硬件的角度來看,大量的手機傳感器生成的位置和信號塔信號強度等信息就是由機器生成數據的例子。圖1.17清晰地表述了由機器生成的各種數據。

如上所述,人為產生的數據和機器生成的數據都是多源的,並且會以多種不同的格式呈現。這一節中我們將仔細審查大數據解決方案處理後的多種不同數據類型。主要的類型有以下三種:

 

圖1.17 機器生成的數據,例如網頁日誌、傳感器數據、遙感數據、智能電表以及應用數據

結構化數據

非結構化數據

半結構化數據

這些數據類型代表了數據的內部組織結構,有時也叫做數據格式。除了以上三種基本的數據類型以外,還有一種重要的數據類型為元數據,我們將在後麵討論。

1.3.1 結構化數據

結構化數據遵循一個標準的模型,或者模式,並且常常以表格的形式存儲。該類型數據通常用來捕捉不同對象實體之間的關係,並且存儲在關係型數據庫中。諸如ERP和CRM等企業應用和信息係統之中會頻繁地產生結構化數據。由於數據庫本身以及大量現有的工具對結構化數據的支持,結構化數據很少需要在處理或存儲的過程中做特殊的考慮。這類數據的例子包括銀行交易信息、發票信息和消費者記錄等。圖1.18顯示了代表結構化數據的符號。

1.3.2 非結構化數據

非結構化數據是指不遵循統一的數據模式或者模型的數據。據估計,企業獲得的數據有80%左右是非結構化數據,並且其增長速率要高於結構化數據。圖1.19顯示了幾種常見的非結構化數據。這種類型的數據可以是文本的,也可以是二進製的,常常通過自包含的、非關係型文件傳輸。一個文本文檔可能包含許多博文和推文。而二進製文件多是包含著圖像、音頻、視頻的媒體文件。從技術上講,文本文件和二進製文件都有根據文件格式本身定義的結構,但是這個層麵的結構不在討論之中,並且非結構化的概念與包含在文件中的數據相關,而與文件本身無關。

存儲和處理非結構化的數據通常需要用到專用邏輯。例如,要放映一部視頻,正確的編碼、解碼是至關重要的。非結構化數據不能被直接處理或者用SQL語句查詢。如果它們需要存儲在關係型數據庫中,它們會以二進製大型對象(BLOB)形式存儲在表中。當然,NoSQL數據庫作為一個非關係型數據庫,能夠用來同時存儲結構化和非結構化數據。

 

圖1.19 視頻數據、圖像數據、音頻數據都是非結構化數據

1.3.3 半結構化數據

半結構化數據有一定的結構與一致性約束,但本質上不具有關係性。半結構化數據是層次性的或基於圖形的。這類數據常常存儲在文本文件中。圖1.20展示了XML文件和JSON文件這兩類常見的半結構化數據。由於文本化的本質以及某些層麵上的結構化,半結構化數據比非結構化數據更好處理。

 

圖1.20 XML數據、JSON數據和傳感器數據均屬於半結構化數據

半結構化數據的一些常見來源包括電子轉換數據(EDI)文件、擴展表、RSS源以及傳感器數據。半結構化數據也常需要特殊的預處理和存儲技術,尤其是重點部分不是基於文本的時候。半結構化數據預處理的一個例子就是對XML文件的驗證,以確保它符合其模式定義。

1.3.4 元數據

元數據提供了一個數據集的特征和結構信息。這種數據主要由機器生成,並且能夠添加到數據集中。搜尋元數據對於大數據存儲、處理和分析是至關重要的一步,因為元數據提供了數據係譜信息,以及數據處理的起源。元數據的例子包括:

XML文件中提供作者和創建日期信息的標簽

數碼照片中提供文件大小和分辨率的屬性文件

 

圖1.21 用於表示元數據的符號

1.4 案例學習背景

ETI(Ensure to Insure)是一家領先的保險公司,為全球超過2500萬客戶提供健康、建築、海事、航空等保險計劃。該公司擁有超過5000名員工,年利潤超過3.5億美元。

1.4.1 曆史背景

ETI早在50年前建立之時,就是一家專業做健康保險計劃的公司。在過去30年的不斷收購過程中,ETI已經發展成了覆蓋航空、航海、建築等多個領域的財產險和意外險的保險公司。這幾類保險中每一類都有一個核心團隊,包括專業的以及經驗豐富的保險代理人、精算師、擔保人、理賠人等。

精算師負責評估風險,設計新的保險計劃並優化現有保險計劃,同時代理人則通過推銷保險來為公司賺取利潤。精算師也會利用儀表板和計分板來對場景進行假設評估分析。擔保人則評估保險產品,並決定附加的保險費。理賠人則主要去尋找可能對保險政策不利的賠付聲明並且最終決定保險政策。

ETI的一些核心部門包括擔保部門、理賠部門、客戶服務部門、法律部門、市場部門、人力資源部門、會計部門和IT部門。潛在的客戶和現有的客戶均通過客戶服務部門的電話聯係ETI,同時,通過電子郵件和社交平台的聯係在近年來也在不斷增加。

ETI通過提供富有競爭性的保險條款和終生有效的保險客戶服務從眾多保險公司中脫穎而出。其管理方針認為這樣做能夠有效地保留客戶群體。ETI在很大程度上依賴於其精算師製定保險計劃來反映其客戶的需求。

1.4.2 技術基礎和自動化環境

ETI公司的IT環境由客戶服務器和主機平台組合構成,支持多個係統的執行政策。這些執行係統包括政策報價係統,政策管理係統,理賠管理係統、風險評估係統、文件管理係統、賬單係統、企業資源規劃(ERP)係統和客戶關係管理(CRM)係統。

政策報價係統用作創建新的保險計劃,並提供報價給潛在客戶。它集成了網站和客戶服務門戶網站,為網站訪問者和客戶服務代理提供獲取保險報價的能力。政策管理係統處理所有政策生命周期方麵的管理,包括政策的發布、更新、續訂和取消。理賠管理係統主要處理理賠操作行為。

一次理賠行為的成立,需要經過如下流程:法定賠償人提交報告申請,然後理賠人將根據被一同提交上來的直接信息和來源於內外部資源的背景信息對這份報告進行分析,其後理賠才能成立。基於分析的數據,這次理賠行為將會根據固定的一係列商業規則來處理。風險評估係統則被精算師們用來評估任何潛在的風險,例如一次暴風或者洪水可能導致投保人索賠。風險評估係統使得基於概率的風險評估能利用數學和統計學模型量化分析。

文件管理係統是所有文件的儲存中心,這些文件包括保險政策、理賠信息、掃描文檔以及客戶通信。賬單係統持續跟蹤客戶的保險費同時自動生成電子郵件對未交保險費的客戶進行催款。ERP係統用來每日運作ETI,包括人力資源管理和財務管理。而CRM係統則全麵地記錄所有客戶的交流信息,從電話到電子郵件等,同時也能為電話中心代理人提供解決客戶問題的橋梁。更進一步地,它能讓市場小組進行一次完整的市場活動。從這些操作係統中得到的數據將被輸送到企業數據倉庫(EDW),該數據倉庫則根據這些數據生成財務和業績報告。EDW同時還被用於為不同的監管部門生成報告,確保監管的持續有效執行。

1.4.3 商業目標和障礙

過去的幾十年裏,該公司的利潤一直在遞減,於是任命了一個由多名高級經理組成的委員會,對該情況進行調查和提議。委員會發現,財政衰減的主要原因是不斷增加的欺詐型理賠以及對這些理賠的賠償。這些發現表明欺詐行為十分複雜,並且很難去檢測,因為詐騙犯越來越富有經驗和組織化。除了遭受的直接金錢損失,對詐騙行為的檢測流程也造成了相當一部分的間接損失。

另一個需要考慮的因素是,近期多發的洪水、龍卷風和流感等增加真實賠付案例的災害。其他財政衰減的原因還有由於慢速理賠處理導致的客戶流失,保險產品不符合消費者現有需求。此外,一些精通技術的競爭者使用信息技術提供個性化的保險政策,這也是本公司目前不具備的優勢。

委員會指出,近期現有法規的更改和新法規出台的頻率有所增加。不幸的是,公司對此反應遲緩,並且沒有能夠確保全麵且持續地遵守這些法規。由於這些問題,ETI不得不支付巨額罰金。

委員會強調,公司財政狀況惡劣的原因還包括在製作保險計劃和提出保險政策時,擔保人未能完整詳盡地評估風險。這導致了錯誤的保險費設置以及比預期更高的理賠金額。近來,收取的保險費與支出的虧空與投資相抵消。然而這不是一個長久的解決方案,因為這樣會衝淡投資帶來的利潤。更進一步地,保險計劃常常是基於精算師的經驗完成的,而精算師的經驗隻能應用於普遍的人群,也就是平均情況。這樣,一些情況特殊的消費者可能不會對這些保險計劃感興趣。

上述因素同樣也是導致整個ETI股價下跌並且失去市場地位的原因。

基於委員會的發現,ETI的執行總裁設定了以下的戰略目標:

1)通過三種方法降低損失:(a)加強風險評估,最大化平息風險,將這點應用到創建新保險計劃中,並且應用在討論新的保險政策時;(b)實行積極主動的災難管理體係,降低潛在的因為災難導致的理賠;(c)檢測詐騙性理賠行為。

2)通過以下兩種方法降低客戶流失,加強客戶保留率:(a)加速理賠處理;(b)基於不同的個體情況出台個性化保險政策。

3)通過加強風險管理技術,可以更好地預測風險,在任何時候實現和維持全麵的監管合規性,因為大多數法規需要對風險的精確知識來確保,才能夠執行。

谘詢過公司的IT團隊後,委員會建議采取數據驅動的策略。因為在對多種商業操作進行加強分析時,不同的商業操作均需要考慮相關的內部和外部數據。在數據驅動的策略下,決策的產生將基於證據而不是經驗或直覺。尤其是大量結構化與非結構化數據的增長對深入而及時的數據分析的良好表現的支持。

委員會詢問IT團隊是否還有可能阻礙實行上述策略的因素。IT團隊考慮到了操作的經濟約束。作為對此的回應,小組準備了一份可行性報告用來強調下述三個技術難題:

獲取、存儲和處理來自內部和外部的非結構化數據—目前,隻有結構化數據能夠被存儲、處理,因為現存的技術並不支持對非結構化數據的處理。

在短時間內處理大量數據—雖然EDW能用來生成基於曆史數據的報告,但處理的數據量非常大,而且生成報告需要花費很長時間。

處理包含結構化數據和非結構化數據的多種數據—非結構化數據生成後,諸如文本文檔和電話中心記錄不能直接被處理。其次,結構化數據在所有種類的分析中會被獨立地使用。

IT小組得出了結論:ETI需要采取大數據作為主要的技術來克服以上的問題,並且實現執行總裁所給出的目標。

1.5 案例學習

雖然ETI公司目前的策略選擇了大數據技術作為實現它們戰略目標的手段,但ETI並沒有大數據技術,因此需要在雇傭大數據谘詢團隊還是讓自己的IT團隊進行大數據訓練中進行選擇。最終它們選擇了後者。然而,隻有高級的成員接受了完整的學習,並且轉換為公司永久的大數據谘詢員工,同時由他們去訓練初級團隊,在公司內部進行進一步大數據訓練。

接受了大數據學習之後,受訓小組的成員強調他們需要一個常用的術語詞典,這樣整個小組在討論大數據內容時才能處於同一個頻道。其後,他們選擇了一個案例驅動的方案。當討論數據集的時候,小組成員將會指出一些相關的數據集,這些數據集包括理賠、政策、報價、消費者檔案、普查檔案。雖然這些數據分析和分析學概念很快被接受了,但是一些缺乏商務經驗的小組成員在理解BI和建立合適的KPI上依舊有困難。一個接受過訓練的IT團隊成員以生成月報的過程為例來解釋BI。這個過程需要將操作係統中的數據輸入到EDW中,並生成諸如保險銷售、理賠提交處理的KPI在不同的儀表板和計分板上。

就分析方法而言,ETI同時使用描述性分析和診斷性分析。描述性分析包括通過政策管理係統決定每天賣的保險份數,通過理賠管理係統統計每天的理賠提交數,通過賬單係統統計客戶的欠款數量。診斷性分析作為BI活動的一部分,例如回答為什麼上個月的銷售目標沒有達成這類問題。分析將銷售劃分為不同的類型和不同的地區,以便發現哪些地區的哪些類型的銷售表現得不盡人意。

目前ETI並沒有使用預測性分析和規範性分析手法。然而,對大數據技術的實行將會使他們最終能夠使用這些分析手法,正如他們現在能夠處理非結構化數據,讓其跟結構化數據一同為分析手法提供支持一樣。ETI決定循序漸進地開始使用這兩種分析方法,首先應用預測性分析,鍛煉了熟練使用該分析的能力後再開始實施規範性分析。

在這個階段,ETI計劃利用預測性分析來支持他們實現目標。舉個例子,預測性分析能夠通過預測可能的欺詐理賠來檢測理賠欺詐行為,或者通過對客戶流失的案例分析,來找到可能流失的客戶。在未來的一段時間內,通過規範性分析,我們可以確定ETI能夠更加接近他們的目標。例如,規範性分析能夠幫助他們在考慮所有可能的風險因素下確立正確的保險費,也能幫助他們在諸如洪水和龍卷風的自然災害下減少損失。

1.5.1 確定數據特征

IT團隊想要從容量、速率、多樣性、真實性、價值這5個方麵對公司內部和外部的數據進行評估,以得到這些數據對公司利益的影響。於是小組輪流討論這些特征,考慮不同的數據集如何能夠表現出這些特征。

1.容量

小組強調,在處理理賠、銷售新的保險產品以及更改現有產品的過程中,會有大量的轉移數據產生。然而,小組進行了一個快速的討論,發現大量的非結構化數據,無論是來自公司的內部還是外部,都會幫助公司達成目標。這些數據包括健康記錄、客戶提交保險申請時提交的文件、財產計劃、臨時數據、社交媒體數據以及天氣信息。

2.速率

考慮所有輸入流的數據,有的數據速率很低,例如理賠提交的數據和新政策討論的數據。但是像網頁服務日誌和保險費又是速率高的數據。縱觀公司外部數據,IT小組預計社交媒體數據和天氣數據將以極快的高頻到達。此外,預測還表示災難管理和詐騙理賠檢測的時候數據必須盡快處理,以最小化損失。

3.多樣性

在實現目標的時候,ETI需要將大量多種不同的數據集聯合起來考慮,包括健康記錄、策略數據、理賠數據、保險費、社交媒體數據、電話中心數據、理賠人記錄、事件圖片、天氣信息、人口普查數據、網頁服務日誌以及電子郵件。

4.真實性

從操作係統和EDW中獲得的數據樣本顯示有極高的真實性。於是IT小組把這一點添加到數據真實性表現中。數據的真實性體現在多個階段,包括數據進入公司的階段、多個應用處理數據的階段,以及數據穩定存儲在數據庫中的階段。考慮ETI的外部數據,對一些來自媒體和天氣的數據闡明了真實性的遞減會導致數據確認和數據清洗的需求增加,因為最終要獲得高保真性的數據。

5.價值

對於價值這個特征,從目前的情況來看,所有IT團隊的成員都認同他們需要通過確保數據存儲的原有格式以及用合適的分析類型來使數據集的價值最大化。

1.5.2 確定數據類型

IT小組成員對多種數據集進行了分類訓練,並得出如下列表:

結構化數據:策略數據、理賠數據、客戶檔案數據、保險費數據;

非結構化數據:社交媒體數據、保險應用檔案、電話中心記錄、理賠人記錄、事件照片;

半結構化數據:健康記錄、客戶檔案數據、天氣記錄、人口普查數據、 網頁日誌及電子郵件。

元數據對於ETI現在的數據管理過程是一個全新的概念。同樣的,即使元數據真的存在,目前的數據處理也沒有考慮過元數據的情況。IT小組指出其中一個原因,公司內部幾乎所有的需要處理的數據都是結構化數據。因此,數據的源和特征能很輕易地得知。經過一些考慮後,成員們意識到對於結構化數據來說,數據字典、上次更新數據的時間戳和上次更新時不同關係數據表中的用戶編號可以作為它們的元數據使用。

最後更新:2017-05-19 17:01:51

  上一篇:go  《大數據導論》采用大數據的商業動機與驅動
  下一篇:go  《Spark 官方文檔》Spark配置(一)