MaxCompute UDF係列之判斷字符串中是否包含漢字
為了驗證字符串中是否包含中文漢字,今天為大家提供一個自動判斷中文字符UDF,下載地址見附件。
效果如下:
MaxCompute UDF代碼如下:
package com.yinlin.udf.dev;
import com.aliyun.odps.udf.UDF;
// 根據Unicode編碼完美的判斷中文漢字和符號
public class Han extends UDF {
public String evaluate(String inputHan){
if (inputHan == null) {return inputHan;}
char[] input = inputHan.trim().toCharArray();
for (int i = 0; i < input.length; i++) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(input[i]);
if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
|| ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
//System.out.println(input[i]);
return "1";
}
}
return "0";
}
}
使用方法:
1、通過Eclipse將Han.java編譯成Jar包,命名為han_udf.jar。
2、通過大數據開發套件,上傳資源han_udf.jar;
3、通過大數據開發套件,引用第二步上傳的han_udf.jar資源,注冊han函數;
4、通過大數據開發套件新建SQL腳本,輸入SQL函數進行測試。
--創建虛擬表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;
--根據Unicode編碼完美的判斷中文漢字和符號
select han('yinLin123%') from yinlin_demo.dual limit 1;
--根據Unicode編碼完美的判斷中文漢字和符號
select han('隱林yinLin123%') from yinlin_demo.dual limit 1;
到此為止,實驗完成。
常見問題
Q:無結果?
我們在創建虛擬dual表的時候,一定要保證表中有數據。
Q:無法找到han函數?
利用大數據開發套件注冊han函數的時候需要包名+類名,否則會找不到類。
阿裏巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/
---阿裏大數據博文,問答,社群,實踐,有朋自遠方來,不亦說乎……
最後更新:2017-08-13 22:21:39