MaxCompute UDF係列之拚音轉換
我們在MaxCompute開發中也會遇到此類問題,今天為大家提供一個拚音轉換的UDF,下載地址見附件。
效果如下:
MaxCompute UDF代碼如下:
package com.yinlin.udf.dev;
import com.aliyun.odps.udf.UDF;
import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;
public class pinyin extends UDF {
public String evaluate(String inputString,String xtype) {
HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
format.setToneType(HanyuPinyinToneType.WITHOUT_TONE );
format.setVCharType(HanyuPinyinVCharType.WITH_U_UNICODE);
if (inputString == null) inputString = "";
char[] input = inputString.trim().toCharArray();
StringBuffer output = new StringBuffer("");
try {
for (int i = 0; i < input.length; i++) {
if (Character.toString(input[i]).matches("[\u4E00-\u9FA5]+")) {
String[] temp = PinyinHelper.toHanyuPinyinStringArray(input[i], format);
if (temp != null & xtype.equals("1")){
output.append(temp[0]);
}
if (temp != null & xtype.equals("2")){
char[] ctemp=temp[0].toCharArray();
output.append(ctemp[0]);
}
//output.append(" ");
} else
output.append(Character.toString(input[i]));
}
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
return output.toString();
}
}
使用方法:
1、通過Eclipse將pinyin.java編譯成Jar包。
2、通過大數據開發套件,上傳資源pinyin4j.jar和pinyin_udf.jar;
3、通過大數據開發套件,引用第二步上傳的pinyin4j.jar和pinyin_udf.jar資源,注冊pinyin函數;
4、通過大數據開發套件新建SQL腳本,輸入SQL函數進行測試。
--創建虛擬表,插入一條記錄
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;
---pinyin 漢字轉拚音,參數'1'為全拚,參數'2'為首字母
select pinyin('隱林','2') from yinlin_demo.dual limit 1;
到此為止,實驗完成。
常見問題
Q:無結果?
我們在創建虛擬dual表的時候,一定要保證表中有數據。
Q:無法找到pinyin函數?
利用大數據開發套件注冊pinyin函數的時候需要包名+類名,否則會找不到類。
阿裏巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/
---阿裏大數據博文,問答,社群,實踐,有朋自遠方來,不亦說乎……
最後更新:2017-08-13 22:21:55