841
iPhone_iPad_Mac_手機_平板_蘋果apple
Flume MaxCompute Sink插件__數據入雲_數據集成-阿裏雲
Apache Flume是一個分布式的、可靠的、可用的係統,可用於從不同的數據源中高效地收集、聚合和移動海量日誌數據到集中式數據存儲係統。
ODPS Sink是基於ODPS DataHub Service開發的Flume插件,可以將Flume的Event數據導入到ODPS中。插件兼容Flume的原有功能特性,支持ODPS表自定義分區、且可以自動創建分區。
二、環境要求
三、插件部署
1、下載ODPS Sink插件並解壓:aliyun-odps-flume-plugin
2、部署ODPS Sink插件:將文件夾odps_sink移動到Apache Flume安裝目錄下:
$ mkdir {YOUR_APACHE_FLUME_DIR}/plugins.d
$mv odps_sink/ { YOUR_APACHE_FLUME_DIR }/plugins.d/
移動後,核驗ODPS Sink插件是否已經在相應目錄:
$ ls { YOUR_APACHE_FLUME_DIR}/plugins.d
odps_sink
部署完成後,隻需要在Flume的配置文件中將sink的type字段配置為:
com.aliyun.odps.flume.sink.OdpsSink
即可使用
四、配置示例
例:將日誌文件中的結構化數據進行解析,並上傳到ODPS表中
需要上傳的日誌文件格式如下(每行為一條記錄,字段之間逗號分隔):
#test_basic.log
some,log,line1
some,log,line2
...
第一步、在ODPS 的 project創建ODPS Datahub表
建表語句如下所示:
CREATE TABLE hub_table_basic (col1 STRING, col2 STRING)
PARTITIONED BY (pt STRING)
INTO 1 SHARDS
HUBLIFECYCLE 1;
第二步、創建Flume作業配置文件:
在Flume安裝目錄的conf/文件夾下創建名為odps_basic.conf的文件,並輸入內容如下:
# odps_basic.conf
# A single-node Flume configuration for ODPS
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = cat {YOUR_LOG_DIRECTORY}/test_basic.log
# Describe the sink
a1.sinks.k1.type = com.aliyun.odps.flume.sink.OdpsSink
a1.sinks.k1.accessID = {YOUR_ALIYUN_ODPS_ACCESS_ID}
a1.sinks.k1.accessKey = {YOUR_ALIYUN_ODPS_ACCESS_KEY}
a1.sinks.k1.odps.endPoint = https://service.odps.aliyun.com/api
a1.sinks.k1.odps.datahub.endPoint = https://dh.odps.aliyun.com
a1.sinks.k1.odps.project = {YOUR_ALIYUN_ODPS_PROJECT}
a1.sinks.k1.odps.table = hub_table_basic
a1.sinks.k1.odps.partition = 20150814
a1.sinks.k1.batchSize = 100
a1.sinks.k1.serializer = DELIMITED
a1.sinks.k1.serializer.delimiter = ,
a1.sinks.k1.serializer.fieldnames = col1,,col2
a1.sinks.k1.serializer.charset = UTF-8
a1.sinks.k1.shard.number = 1
a1.sinks.k1.shard.maxTimeOut = 60
a1.sinks.k1.autoCreatePartition = true
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
第三步:啟動Flume
啟動Flume並指定agent的名稱和配置文件路徑,-Dflume.root.logger=INFO,console選項可以將日誌實時輸出到控製台。
$ cd { YOUR_APACHE_FLUME_DIR}
$ bin/flume-ng agent -n a1 -c conf -f conf/odps_basic.conf -Dflume.root.logger=INFO,console
寫入成功,顯示日誌如下:
...
Write success. Event count: 2
...
在ODPS Datahub表中即可查到數據;
五、了解更多
ODPS Sink插件地址:aliyun-odps-flume-plugin
最後更新:2016-11-24 11:23:47
上一篇:
DataX__數據入雲_數據集成-阿裏雲
下一篇:
Fluentd MaxCompute插件__數據入雲_數據集成-阿裏雲
自適應方向__圖片旋轉_圖片處理指南_對象存儲 OSS-阿裏雲
設置回源HOST__配置操作接口_API 手冊_CDN-阿裏雲
耗資源用戶處理流程__網站訪問異常_技術分享_雲虛機主機-阿裏雲
Google Authenticator安裝及使用指導__附錄2: _用戶指南_訪問控製-阿裏雲
創建APP-您調用API的身份__快速入門(調用API)_API 網關-阿裏雲
雲計算市場潛力無限,阿裏雲居然能攬獲頭把交椅?
導入本地鏡像__鏡像_用戶指南_雲服務器 ECS-阿裏雲
運行SQL__快速開始_大數據計算服務-阿裏雲
檢測IP信息__輔助工具接口_API 手冊_CDN-阿裏雲
設置監控頻率__監控報警_用戶指南_雲數據庫 RDS 版-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲