阅读739 返回首页    go 微软 go windows


MaxCompute UDF系列之全角转半角

我们在做文本挖掘处理的时候,需要经常把全角字符转成半角处理今天为大家提供一个全角转半角的UDF,下载地址见附件。


效果如下:

a9d52a7552c299c8daa44d63f20c51f4b2e61e0f


MaxCompute UDF代码如下:


package com.yinlin.udf.dev;
import com.aliyun.odps.udf.UDF; 
//import org.apache.commons.lang.StringUtils;
/**
* 提供对字符串的全角->半角,半角->全角转换
*/
public class BCConvert extends UDF {
/**
* ASCII表中可见字符从!开始,偏移位值为33(Decimal)
*/
static final char DBC_CHAR_START = 33; // 半角!
/**
* ASCII表中可见字符到~结束,偏移位值为126(Decimal)
*/
static final char DBC_CHAR_END = 126; // 半角~
/**
* 全角对应于ASCII表的可见字符从!开始,偏移值为65281
*/
static final char SBC_CHAR_START = 65281; // 全角!
/**
* 全角对应于ASCII表的可见字符到~结束,偏移值为65374
*/
static final char SBC_CHAR_END = 65374; // 全角~
/**
* ASCII表中除空格外的可见字符与对应的全角字符的相对偏移
*/
static final int CONVERT_STEP = 65248; // 全角半角转换间隔
/**
* 全角空格的值,它没有遵从与ASCII的相对偏移,必须单独处理
*/
static final char SBC_SPACE = 12288; // 全角空格 12288
/**
* 半角空格的值,在ASCII中为32(Decimal)
*/
static final char DBC_SPACE = ' '; // 半角空格
/**
* 全角字符->半角字符转换
* 只处理全角的空格,全角!到全角~之间的字符,忽略其他
*/
public String evaluate(String src) {
  if (src == null) {return src;}
  StringBuilder buf = new StringBuilder(src.length());
  char[] ca = src.toCharArray();
  for (int i = 0; i < src.length(); i++) {
      if      (ca[i] >= SBC_CHAR_START && ca[i] <= SBC_CHAR_END) 
              {// 如果位于全角!到全角~区间内
               buf.append((char) (ca[i] - CONVERT_STEP));
              }
      else if (ca[i] == SBC_SPACE) 
              {// 如果是全角空格
               buf.append(DBC_SPACE);
              }
      else    { // 不处理全角空格,全角!到全角~区间外的字符
               buf.append(ca[i]);
              }
      }
  return buf.toString();
  }
}


使用方法:

1、通过Eclipse将BCConver.java编译成Jar包,命名为BCConver.jar。


2、通过大数据开发套件,上传资源BCConver.jar;


4f31453239189e60089329dd04e2b23a9ab5c16c


3、通过大数据开发套件,引用第二步上传的BCConver.jar资源,注册bcconver函数;

b79cd2016b0393ab760517f71d96312daeb66eff

4、通过大数据开发套件新建SQL脚本,输入SQL函数进行测试。


--创建虚拟表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;


--提供对字符串的全角->半角
select bcconvert('nihaohk |   nihehe ,。 78  7 ')  from yinlin_demo.dual limit 1;


到此为止,实验完成。


常见问题

Q:无结果?

我们在创建虚拟dual表的时候,一定要保证表中有数据。


Q:无法找到函数?

利用大数据开发套件注册函数的时候需要包名+类名,否则会找不到类。



阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

最后更新:2017-08-13 22:21:47

  上一篇:go  产品经理与项目经理的区别——汇新云
  下一篇:go  买新房全款好还是贷款好?先看看各自优劣势吧