大數據阿裏雲產品的簡單介紹理解
很多人問,大數據是什麼。一個時尚的技術名詞,一個互聯網時代的標誌。給人高端大氣上檔次的感覺,很多公司不說自己有大數據都不好意思跟別人談業務。那我就談談我的一些看法來結合阿裏雲的數加大數據產品比較粗俗的介紹下大數據到底是什麼。首先,從字麵意思”大數據”,那可以感受到,數據量要大,這是一個必須的條件。舉一個例子,比方說我要根據一些銷售數據做一個報表給老板看,那麼幾千條數據甚至幾萬條,我用excel可以很方便的做出來,數據可以保存在自己電腦上。
那麼,當數據幾十萬到幾百萬,excel就不能做了,就需要把數據放在數據庫,比如常見的mysql等關係型數據庫,來計算存儲等,但是當數據量幾千萬幾億幾十億以上呢,怎麼辦?那就需要大量的服務器和更高的配置機器來存儲,計算,做出來報表,這其中就需要大數據技術來實現。所以,大數據的根本條件是數據量要足夠大。
首先,說大數據,就不得不說分布式的概念。還是那個做報表的例子,數據量小,放在一個excel表中,放在你自己的一台電腦裏存儲,數據量大點的時候,放在一台或者獨立的放在幾台服務器上,再不行就增加配置,裝個mysql來管理,但是如果數據量非常大,每天幾十Tb過來或者每天要從幾十T數據中抽取一些數據來做一些指標給老板看,一台服務器肯定是幹不了的,如果把數據分開存儲又是相對獨立的到幾台服務器上肯定會影響數據的總體效果,比如對數據排個順序。那怎麼辦呢,是否可以用某種方式或者某個軟件把很多台服務器連在一起讓他們像一台服務器工作呢,答案是肯定的。這就是分布式係統,把存儲和計算分發到每個服務器上來執行,整體看來就像是一台在執行,匯集了多台服務器資源。這種方式或者軟件再或者說結構,是阿裏雲的基礎,我們有一個響亮而又充滿夢想色彩的名字:飛天係統。那麼下麵我就圍繞數據來介紹,以公司為中心,按照數據從哪裏來,來了怎麼辦,到哪裏去這個線路來說下相關概念。
一, 數據從哪裏來,怎麼來
一切業務數據化。舉個例子,寄快遞,最開始大家寄東西要填寫快遞單,手寫的,這些是你的信息,姓名,電話,地址等,這些數據被搜集起來,就變成了最原始的數據,比如你在商場逛隨便連人家的免費wifi,抱歉你的信息,從哪個門進來,那個門出去,在哪個店呆了多久等信息被搜集(說這些我會不會被找喝茶),再比如大家喜歡追劇,你在哪個頁麵看了什麼電視什麼類型看了多久,評論了什麼,用的什麼手機搜集成為原始數據。
那如果用戶非常多,產生的數據也必然非常大。怎麼搜集呢,用什麼技術呢,那麼比如阿裏雲產品-日誌服務等產品,當然還有其他阿裏雲產品

二,數據來了怎麼辦
一切數據業務化。怎麼辦是說,這麼大的數據,怎麼去存儲,怎麼做計算,怎麼做成功能或者成什麼樣的產品呢。
首先,這樣大批量的數據,就可以放在飛天上存儲,計算等。那麼存儲和計算又分很多種,就比如你有一個農場,農場裏有很多倉庫,倉庫裏可以放各種東西,比如小麥,你可以放在麥鬥裏,你也可以裝在袋子裏堆在那裏,你也可以隨便倒進倉庫就行。可以對這些小麥篩選統計等,那麼小麥就是數據,這就是數據倉庫,農場上的這個倉庫,我們可以對應阿裏雲的大數據利器ODPS現在叫:Maxcompute。
那麼用戶可以把海量數據放到odps中,進行存儲,計算,以及和其他數據源交互等。類似於你可以把麥子進行篩選,去雜質,選出優質麥子,那就是對應到大數據術語,數據的清洗,過濾。到此看似可以滿足基本需求了,如果我有很多地方的麥子要裝進倉庫,我要對很多倉庫裏的麥子進行篩選,我還要把篩選出來的優質麥子送到科研單位做實驗。問題來了,誰先裝進倉庫,對誰先篩選或者同時篩選,篩選進度,或者說我就想等一號倉庫篩選完了再進行2號倉庫的篩選,我需要有人進行調度指揮,篩選完了送到其他各個地方,並且我想整個流程透明化,智能化。怎麼辦?
我們對odps進行了封裝並且集成了其他一些功能讓操作變得可視化,可用易用
用戶可以通過可視化的工具-大數據開發套件,來操作odps,另外一個重要的功能是數據同步,把麥子運到其他地方。開發套件中可以界麵化配置同步到rds,ads等等各種數據庫中,可以定時,可以設置任務的依賴關係和周期,可以預警等等。並且重要的是,目前是免費使用。
話題回到最開始麥子存放,如果麥子源源不斷的運過來,從地裏收割一把麥子就立刻通過某種流式的比如傳送帶送到科研單位,並且傳送過程中要進行麥子的篩選,鑒別等操作。怎麼辦,有沒有這種實時的通道,流式的具有篩選功能的傳送帶呢。首先收割采集麥子的方法,我們有一種了,就是上麵的日誌服務,可以收割,有一個重要的問題不能忽略,就是收割速度很快,我後麵的傳送帶上篩選工具篩選能力不夠,麥子會堆積吧,那有沒有一種工具,可以先把搜集的麥子源源不斷的臨時存放在那裏,後麵流式傳送帶上篩選多少就從那裏取多少,源源不斷的取。有這種工具,它就是datahub-實時數據通道,可以通過日誌服務把日誌實時上傳臨時存儲,那傳送帶流式的實時篩選器是什麼-阿裏雲流計算
datahub配合流計算使用,天衣無縫。流計算可以從datahub中取數據做到實時計算分析。
話題再次回到存放麥子的問題上,比如我有一些麥子需要非常快速的篩選,計算麥子各種指標,比如品種占有比例,注意是要篩選得速度快,領導隨時都會來視察,隨到隨查的那種。我們可以把數據存放在ADS中,眨眼間,千億數據隨意查詢:
說到數據存儲,比如我在農場裏不僅是麥子的存放,我還有一些化肥農藥汽油什麼不是那麼規則的物質怎麼辦呢
oss能存放非結構化的數據,比如音頻,視頻,圖片等並提供快速訪問接口,當然日誌數據也是可以存的。那麼Maxcompute就不可以存放這些數據,要求要是結構化的,但是Maxcompute2.0可以連接oss間接處理非結構化數據。
三,數據到哪裏去
既然領導來視察了,來看麥子的各項指標,你還沒準備好excel怎麼辦,請使用阿裏雲產品:Quick BI
像使用excel那樣操作海量數據的報表,我自己都怕了。
那麼,如果你還想做個牛逼的ppt給老板看,或者做個動畫看看地圖上每個位置的麥子產量,整個雙11的那種大屏幕給老板看,幸運的是,datav可以滿足
領導視察完畢,作出重要指示:
- 希望地方可以根據曆年使用的化肥,農藥,種植的地域,播種時間等因素綜合考量指定出最佳的豐收計劃
- 希望可以將麥子進行分類,聚類,能夠做到下麵再有麥子進入倉庫可以自動識別它是那種類別
領導的指示不敢怠慢,機器學習來幫你用算法搞定
機器學習,是一個名詞,通俗一點講,是希望機器通過算法程序實現擁有像人類一樣有學習能力,學習後有經驗了,長大了,就能夠明辨是非了。這種學科演化為專業學科,並不是說讓機器會學習。從技術角度說,它是一個技術學科。是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
最後再舉一個例子,上淘寶買衣服,發現買了上衣之後,在下麵會給你推薦鞋子,褲子或者類似款式的衣服,如果你經常買衣服,會經常給你推薦相關性很強的東西。再比如,刷微博,會根據你經常喜歡點擊看哪些視頻,給你推薦相同類型的視頻。這就是算法實現的,具體來說是推薦算法,屬於機器學習學科中的一種算法。如何使用推薦呢
比如微博,用戶量巨大,我要對每個用戶進行推薦,一個推薦算法的實現運行需要對背後海量的數據進行計算,那就是-大數據。所以說,機器學習,推薦算法是基於大數據技術的。阿裏雲機器學習,推薦引擎是基於Maxcompute的海量存儲和計算能力的。往大的說,實際上這些機器學習學科早就出現了,但是因為沒有強大的大數據技術的支撐發展緩慢,近些年來隨著大數據技術的發展以及服務器在內存和cpu上的突破得以廣泛應用,並且推動人工智能的發展。
總結:大數據技術並不是阿裏雲特有,但是阿裏雲把它變成了一種普惠服務和平台提供給用戶。目前各色各樣的企業單位把數據放到雲上,百花齊放,是信任。安全穩定是第一要則,所以 雲若安好,便是晴天。
如果非讓我用一句話總結雲計算的話,那便是:彩雲之下,萬物相連。
最後更新:2017-05-15 20:01:17