閱讀996 返回首頁    go 阿裏雲 go 技術社區[雲棲]


我的2017雲棲之行

我的2017雲棲之行

——笨笨的粽子妞

零:雲棲初印象

說起今年的雲棲,很早就關注了,但是苦於京杭的距離和工作原因,一直在搖擺不定,但是又不想給自己留下遺憾。在軒晴同學贈送了一張TI的門票之後,毅然決然請假,在10月9日踏上雲棲之行。

然而,天公不作美,9號的北京,雨從早到晚,一直下個不停。原定下午六點的航班,一直延誤到晚上十二點,因擔心航班取消,便申請了改簽,好在在10日淩晨落地杭州。

9e316efcbdbbbec72e7d04c966f06626c1223b4a

  因為酒店定在西湖附近,在稍作休息之後,早上6點便起身洗漱,前往雲棲小鎮。

  上次來杭州已是三年前,現在的杭州,不得不說,給人一種油然而生的喜愛之情,寧靜、靜謐,途徑楊公堤時,除了能夠唿吸到清新的空氣以外,兩邊鬱鬱蔥蔥的樹林,給人以生機,陽光灑入樹林中,一束束光映入眼簾,美不勝收。道路兩旁時不時還有跑步經過的年輕人,甚至老奶奶,不禁感歎不已。

  在去雲棲小鎮的路上,可以看到距離雲棲大會XX公裏的指示牌,在快到雲棲小鎮的轉完路口,可以看到雲棲小鎮的花壇。

d137338f1f3e83526823615e93245af2dc6c7648

  雲棲小鎮A、B館的外觀圖:

ff28017b8683f8379ad6c9af91e1c085d8cc1b83

  雲棲小鎮A、B和C館之間的拱形門:

d6533d507b02edea166b1c60e73f7c50606674ee

  B館門口的參會指南:

0e499a4cd45d0c15b6e6af2e0d1523ebe4981306

  C館門口的無人機試飛區:

73f6fa11469a974a893d173e81cbb5d79494711e

  D區的自動簽到區:

048538baba4397c8a3e341eea096459c15fff9fa

壹:Tech Insight專場

Tech Insight主要麵向開發者、架構師以及產品技術管理人員,解讀各類跨行業解決方案,包含5場分論壇,2場Workshop,1場MVP Demo Show,在論壇外的休息區,還有阿裏雲專家一對一的交流專區。

aedc84d1d13de441059a4a8f3f354794e90318b1


我此次主要參加了Alibaba Cloud Workshop,包括上午的《雲計算 大數據:海量日誌數據分析與應用》和下午的《在線用戶行為分析:基於流式計算的數據處理及應用》。

60fb26432d17785783058ebbd9732dd03e29f2a5 

簡略的學習筆記如下:

 

Tech Insight_20171010_《雲計算 大數據:海量日誌數據分析與應用》

教程:https://yq.aliyun.com/articles/72538

 

阿裏雲數加的前世今生?

2009.9 阿裏雲成立,開始自主研發計算平台

數加是阿裏雲大數據的品牌名,旗下包含一係列的大數據產品及服務。

人工智能、BI、數倉,行業場景化應用

DataWorks產品架構

網站日誌分析思路

明確業務問題,搜集整理數據

數據分析挖掘,提取有效信息

製定經營策略,優化提升價值

從用戶行為到用戶畫像:日誌分析

自然屬性、地理屬性、統計屬性、社會屬性、……

從原始日誌文件數據,提煉直觀清晰的用戶行為屬性分析結果

數據采集、畫像分析、數據展現

大數據計算服務MaxCompute

大數據開發套件DataWorks

1. 環境準備

https://yq.aliyun.com/articles/72350?spm=5176.100239.blogcont72538.15.3gP1LE

為什麼進行數據采集?

帶來挑戰:不易維護、配置複雜、局限於單機、無法跨網絡

多並發、分布式執行(突破單機瓶頸)

無需暴露公網地址,實現數據跨機房交換(解決無法跨網絡問題)

實驗步驟

需求分析

南丁格爾玫瑰圖

數據可視化的意義

高效理解數據

快速洞察規律

即時發現異常

BDP能為企業帶來什麼價值?

整合內部外部數據,統一數據管控口徑

同比環比留存重複,高級計算一鍵接入

鑽取篩選自由分析,業務人員按需索圖

移動應用動態掌控,預警信息即時推送

57efb0b8fec57075291934ddade605f0f3ddf972

Tech Insight_20171010_《在線用戶行為分析:基於流式計算的數據處理及應用》

13:30 - 13:50 流式日誌分析及采集場景介紹及技術點分析 禕休 阿裏雲產品專家

如何提高平台的用戶粘性和活躍度

如何從海量的日誌中挖掘關鍵價值?

Nginx訪問日誌、用戶行為日誌、點擊日誌、性能日誌、GPS日誌

海量日誌處理方案的演進

·         海量日誌處理方案 1.0時代

無集中式處理

缺乏複雜事務處理

隻做事後追查

·         海量日誌處理方案 2.0時代

日誌離線批處理

實時性差

非拿來即用

·         海量日誌處理方案 3.0時代

快:隻有數秒時延

大:每天處理TB級別日誌量

靈活:可搜索分析日誌

實時采集 Log 實時消費 StreamCompute 加工存儲 RDS 可視化 DataV

Log實時采集/解析

13:50 - 14:35 流數據采集:海量流式視頻日誌收集 北洲 阿裏雲技術專家

目標:

監控用戶體驗和服務質量

多種來源:平台多、格式多

運維負擔:集群擴容、采集工具運維

事後排查:HTTP 500、報警

日誌服務(LOG

針對實時日誌的一站式托管服務。

·         Hub:實時數據采集、存儲和消費

·         Shipper:與數據倉庫投遞對接

·         Search/Analytics

LogHub

功能:通過ECS、容器、移動端、開源軟件、JS等接入實時日誌數據(例如MetricEventBinLogTextLogSyslog等)

與實時計算及服務對接,並提供SDK/API自定義消費

直播係統日誌分析架構

設備端、瀏覽器——RTMP——ECS

14:45 - 15:30 流數據處理:通過StreamSQL分析視頻日誌 巴真 阿裏雲產品專家

數據處理麵臨的新場景

用戶 (參與) 係統 (產生) 數據 報告 (決策) 用戶 越快越好

用戶參與係統交互,構成大量用戶行為

係統跟蹤用戶行為,產生大量用戶數據

數據進行加工處理,形成決策參考依據

決策通過影響客戶,

實時偵測工業車床各指標,優化製品工藝

實時了解雙十一全網總額,提升媒體曝光

實時了解各渠道廣告效果,調優廣告分配

商品大促廣告投放的實時監控案例

數據裝載 ——》批處理模型 —— 數據請求

批量模型,無法對實時數據進行實時處理

全量計算,無法對局部數據進行增量處理

主動請求,無法對上遊變化進行及時響應

流數據訂閱 —— 實時流計算模型—— 流數據寫出

流式模型,對流式數據進行邊流邊算

增量計算,對局部數據進行增量處理

事件觸發,實時上遊變化進行及時響應

流計算如何解決問題

流數據訂閱—— 流式計算—— 流數據寫出

持續、低時延、事件觸發

數據裝載—— 批量計算 ——數據請求

批量、高時延、主動發起

流計算環境搭建

用戶搭建環境遇到的問題

不想從頭搭建流計算係統

不想負責運維流計算集群

不想處理大量技術細節

不想固定計算容量,無法應對流量洪峰

不享手工對接上下遊諸多數據係統

不想黑屏化開發、黑屏化運維、工具零件化

流式處理係統構建難度太大,用戶希望直接提供一套成熟的方案

阿裏雲流計算

產品定位:輕量型流數據分析工具,提供給用戶在雲上進行流式數據實時化分析功能。

核心Feature:主打以SQL語義的流式數據分析能力(Stream SQL),降低流處理開發門檻

主打提供Exactly-Once的處理語義保證,保證業務精確一致

輔助提供一站式的流式開發運維平台,方便用戶快速上手

天然對接

日誌采集

1.    引用外部日誌服務源頭表

2.    引用外部RDS結果表

3.    編寫StreamSQL

4.    調試StreamSQL

5.    提交上線流式作業

15:30 - 16:15 數據可視化:構建實時動態運營數據分析大屏 鹿山 阿裏雲技術專家

 

33e7b433dcc9b138b3b81da536525959986dc77c

PS:中午提供了午餐,還是很開心的。


 

壹零:主論壇+分論壇

11日的主論壇門口,擠滿了圍觀馬爸爸的人,但是除了能進入主會場的VIP外,最終大家還是在直播視頻上見到的馬爸爸,見證了達摩院的公布。


此次大會有有上百場分論壇,從技術到經濟、從安全到醫療,方方麵麵,讓人眼花繚亂。在參會之前,其實有計劃好去聽哪些場次,但是到現場發現很多場次距離較遠,時間上會有衝突,人數也較多,所以在實際聽分論壇時做了一些取舍。

 

部分分論壇的簡略筆記如下:

 

20171012_阿裏媽媽數智營銷專場

論壇時間:1012日上午 論壇地點:B-3-1 論壇簡介:人工智能技術的發展,將為互聯網營銷帶來哪些深刻的變革?阿裏媽媽的人工智能技術有哪些亮點?在人工智能技術深刻營銷的大趨勢下,該如何適應潮流,創變未來?阿裏媽媽將從技術、業務雙重角度闡述在人工智能時代,阿裏媽媽如何實現智能營銷,為商家賦能。

09:00-09:45 人工智能技術開啟互聯網營銷未來 劉凱鵬 阿裏資深技術專家

阿裏媽媽營銷生態:

代理商賦能、開放第三方監測、阿裏數據賦能、阿裏電商、阿裏媒體、外部合作媒體

阿裏媽媽特有的數據優勢:

200+日均展示 6.3億用戶數據 95%網民覆蓋

5億真實人口屬性 5億真實消費意向 3億跨屏打通 5億跨設備延續

新零售下營銷新挑戰

數字化、個性化、全周期

深度學習

智能工具

全周期營銷:貨品生命全周期營銷支持

深度學習與營銷場景:認知計算

輸入(文本、圖片…… —— 感知(看、讀、…… —— 記憶(經驗、知識、…… —— 判斷(比較、推理、…… —— 輸出(點擊、購買、……

深度學習算法:深度認知網絡

阿裏大數據:閉環數據、真實行為、千億樣本

User —— Embedding Network ——》關係網絡——》關係網絡 ——》輸出

Query —— Embedding Network ——| ||

Ad ——Embedding Network ——| 寫入、讀取

Image ——Convolutional Neural Network ——| 記憶網絡:* Recurrent Procedure

表達學習 * Attentional Interface

輸入 感知網絡 * Structured Storage

+12%點擊率 +13% 轉化率

時序遞歸網絡

factor machine

1.該網絡由完全不同功能模塊組成的非常複雜的網絡,參數非常多,深度網絡對計算能力比線性多,架構設計如何支撐海量

2.各個模塊對數據要求不同,參數調整

測試場景是淘寶最為成熟的場景模塊

表明建模和深度學習對用戶行為的判斷能力有了質的飛躍

性能:對比TensorFlow提高60

Asynchronous Data-Pipeline

Async Sample Processing

Double Buffer for gradient

智能工具:

·         智能創意:創意製作輕鬆精美

裝飾:按需拚接

主圖:層次化緩存

文案:深度語義理解&個性化內容生成

特殊:Logo 按需替換

·         智能受眾:人群觸達精確高效

·         智能出價:流量獲取質優價廉 競爭是否激烈、質量如何

·         智能預算:預算使用聰明劃算

全周期營銷

MVB

新品 冷啟動 排序引入新品價值

商品累計信用對未來產生影響

付費推廣 定時推廣

未來:數營銷

數字媒體矩陣、海量用戶數據、人工智能拘束、智能營銷工具

技術如何運用到營銷管理中

09:45-10:30 智能設計-DT時代的新設計 Innovision 謝宣鬆 阿裏巴巴資深技術專家

雙十一預計3億以上圖片

視覺和設計:設計工作組成

像素 狀態空間

兩條主線:數據問題、問題定義清楚解決清楚

蒙特卡洛樹

數據增強:從已有元素或組合的自動變化出合理且多樣的元素或組合

基於知識的配色增強、基於數據的顏色增強、基於知識的顏色增強

預計今年雙11:超7Banner由智能設計生成,總計在3

10:30-11:15 深度學習在阿裏精準定向廣告的實踐及演化 朱小強 阿裏巴巴高級算法專家

電商場景下的精準定向廣告形態

Banner廣告:首聚場景廣告

Item廣告:導購場景

機器學習信號輸入:文本、圖片、ID體係

電商場景下的廣告CTRCVR預估問題及特點

用戶:Past——Behavior timeline——Now

行為結構體:文本描述、創意圖片、行為粒度(itemshopcate)、行為類型(clickcollectbuy)、行為時間、行為頻次

Candidateclick ——collect——buy

深度學習在廣告領域遭遇的挑戰

圖像 語音 廣告

CNN結構 RNN結構

能夠很好擬合數據規律:怎麼用智能力量理解數據規律,擬合的規律不能是強記憶的,應具有泛化能力

01

我們怎麼看深度學習技術:優勢一:模型設計組件化,優勢二:優化方法標準化,優勢三:模型設計和模型優化解耦

抽象問題後麵的模型

要回答的問題

1.適合互聯網尺度稀疏離散數據的神經網絡結構是什麼?經典的FCN/CNN/RNN結構是否足夠?

2.能否設計統一的模型架構,支持結構化信號(ID、圖像、文字等等)的通用建模?

3.怎麼保證百億

4.

基於深度學習的CTR/CVR

激活權重

第一代DNN模型:係數分組嵌入網絡GwEN

稀疏分組嵌入網絡[2016] https://arxiv.org/abs/1706.06978 Deep Interest Network for Click-Through Rate Prediction

第二代DNN模型:用戶興趣分布網絡DIN

深度興趣網絡[2017] https://arxiv.org/abs/1706.06978 Deep Interest Network for Click-Through Rate Prediction

激活權重分布可視化

PastAttention intensityUser Behavior Trace

第三代DNN模型:Cross-Media網絡

圖像泛化性

Tricks For Training Industrial Sparse Deep Nets

Mini-Batch Aware Regularization

Data

Rocket Training

無損壓縮

通用方法:用複雜模型作為老師,指導學生簡單

Rocket Training2017https://arxiv.org/abs/1708.04106 Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net

固定老師網絡的參數

11:15-12:00 XDL:工業級的深度學習框架 騰冥(孫鵬)阿裏巴巴高級技術專家

充分洞察用戶的興趣習慣,提供更好的個性化體驗

互聯網核心應用問題:搜索、推薦、廣告

XDL的初心:互聯網個性化應用領域的定製化、垂直解決方案(靈活賦能主流算法實現與創新)——

工業級深度學習框架

輸出不一定是0-1值,可能會是序列

算法創新驅動XDL框架設計:第一計算範式

工業級稀疏

算法創新驅動XDL框架設計:第二計算範式

查表查圖像CNN查表組合

分布式處理-模型計算-分布式處理

XDL架構:A Distributed View

IO/AMS/Backend Tensor Flow

XDL架構: A Local View

XDL Dev Stack

結構化IO

Advanced Model ServerAMS

AMS之異構計算

CPU隻做尋址,參數計算在GPU

 


壹壹:展會

       今年的參展商很多,展會上的一些新技術黑科技很多,遠超預期,很讚,不解釋,哈哈~


壹零貳肆:蝦米音樂節

11號的主會場無法見到馬爸爸,晚上的音樂節真是滿足了一個小迷妹的追星夢,不但聽到了馬爸爸的歌聲,還在馬爸爸退場的時候在距離馬爸爸兩米距離之處見到馬爸爸真人一秒鍾,還是很超值的,哈哈。對了,還見到了萌萌噠淘公仔哦~


貳零肆捌:雲棲1718

       對於2017雲棲大會,更多的是感動,感動與科技的進步,感動於大家對於技術的不懈追求,感動於我們所處的時代,處處是機遇,科技已經融入到我們生活的方方麵麵,同時也會在更多業務場景下,提供更多的應用服務。我們隻有不斷成長,技術不斷沉澱,才有希望跟上技術的發展與時代的步伐。

       對於2018雲棲大會,更多的是期待。期待雲棲不單單是開發者的盛會,更是全國乃至全世界人民了解科技的一扇大門。

最後更新:2017-10-19 15:03:43

  上一篇:go  意料之外,也是情理之中 - 我的自由職業之旅
  下一篇:go  經驗分享-20天輕鬆搞定一個6000的小項目