閱讀944 返回首頁    go 阿裏雲 go 技術社區[雲棲]


MaxCompute UDF係列之拚音轉換



我們在MaxCompute開發中也會遇到此類問題,今天為大家提供一個拚音轉換的UDF,下載地址見附件。


效果如下:

e367275e9550537409d5307b79b8ed2e2785900d

ba7c4ca53342963ed412b9e2a73a24aa0c0d644a



MaxCompute UDF代碼如下:


package com.yinlin.udf.dev;

import com.aliyun.odps.udf.UDF;
import net.sourceforge.pinyin4j.PinyinHelper;  
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;  
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;  
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;  
import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;  
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;  
  
public class pinyin extends UDF { 
      
    public String evaluate(String inputString,String xtype) {
          
        HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();  
        format.setCaseType(HanyuPinyinCaseType.LOWERCASE);  
        format.setToneType(HanyuPinyinToneType.WITHOUT_TONE );  
        format.setVCharType(HanyuPinyinVCharType.WITH_U_UNICODE);  

        if (inputString == null) inputString = "";
        char[] input = inputString.trim().toCharArray();  
        StringBuffer output = new StringBuffer("");  

        try {  
            for (int i = 0; i < input.length; i++) {  
                if (Character.toString(input[i]).matches("[\u4E00-\u9FA5]+")) {  
                    String[] temp = PinyinHelper.toHanyuPinyinStringArray(input[i], format);
                    if (temp != null & xtype.equals("1")){
                        output.append(temp[0]);
                    }
                    if (temp != null  & xtype.equals("2")){
                        char[] ctemp=temp[0].toCharArray();
                        output.append(ctemp[0]);
                    }
                    //output.append(" ");
                } else  
                    output.append(Character.toString(input[i]));  
            }  
        } catch (BadHanyuPinyinOutputFormatCombination e) {  
            e.printStackTrace();  
        }  
        return output.toString();  
    }
}  


注意:依賴拚音pinyin4j.jar;


使用方法:

1、通過Eclipse將pinyin.java編譯成Jar包。


2、通過大數據開發套件,上傳資源pinyin4j.jar和pinyin_udf.jar;

5727399b276ab2cbfbfaa4d7e4050ac27aa3e4f1



3、通過大數據開發套件,引用第二步上傳的pinyin4j.jar和pinyin_udf.jar資源,注冊pinyin函數;a04e688ed9d448b458e23ce06f3a0bbe7bc5d6ca


4、通過大數據開發套件新建SQL腳本,輸入SQL函數進行測試。


--創建虛擬表,插入一條記錄
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;


---pinyin 漢字轉拚音,參數'1'為全拚,參數'2'為首字母
select pinyin('隱林','2') from yinlin_demo.dual limit 1;



到此為止,實驗完成。


常見問題

Q:無結果?

我們在創建虛擬dual表的時候,一定要保證表中有數據。


Q:無法找到pinyin函數?

利用大數據開發套件注冊pinyin函數的時候需要包名+類名,否則會找不到類。


阿裏巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/

---阿裏大數據博文,問答,社群,實踐,有朋自遠方來,不亦說乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

最後更新:2017-08-13 22:21:55

  上一篇:go  雲服務器 ECS 安全 > ECS數據安全最佳實踐
  下一篇:go  10月12日下午杭州雲棲大會 - hbase技術專場歡迎同仁交流