1030
阿里云
字段类型描述__产品使用手册_开放搜索-阿里云
数据推送到OpenSearch后会先保存到离线数据表中,在此阶段,为了方便用户推送数据,数据表允许用户根据实际业务场景定义多个表(需要指定关联字段),并提供了数据处理的插件。数据处理完毕后会join成一张索引表,这种索引表主要定义搜索属性,供引擎构建索引及查询使用。
这里分别介绍下数据表与索引表的字段对应关系。
数据表字段
数据表主要为数据导入时使用,不同的数据处理插件对类型有不同的要求,这里只是初步类型选择,下一步将有更细化的类型。具体字段取值范围,请参见系统限制-字段相关部分说明。超过取值范围将溢出或者截断,请务必保证选择类型正确。
类型 | 说明 |
---|---|
INT | int64整型 |
INT_ARRAY | int64整型数组 |
FLOAT | 浮点型 |
FLOAT_ARRAY | 浮点型数组 |
DOUBLE | 浮点型 |
DOUBLE_ARRAY | 浮点型数组 |
LITERAL | 字符串常量,仅支持精确匹配 |
LITERAL_ARRAY | 字符串常量数组,单个元素仅支持精确匹配 |
SHORT_TEXT | 短文本,长度在100字节内,支持若干分词方式 |
TEXT | 长文本,支持若干分词方式 |
索引表字段
对于INT及FLOAT类型介绍这里不再累赘(限制详见系统限制),重点介绍下各字段类型。
主要类型介绍
搜索效果如何跟分词有很大的关系,分词方式直接影响最终的搜索效果展示,目前系统支持若干的分词方式,需要根据实际业务场景的需求选择合适的字段类型。
接下来,我们详细说明下各个字段的展现效果及适用场景,供大家参考。
不分词
不分词,适合一些需要精确匹配或者只展示不搜索的场景,如标签、关键词、url等。LITERAL、INT类型可选。
如文档字段内容为“菊花茶”,则只有搜索“菊花茶”的情况下可以召回。
中文基础分词
按照检索单元做分词,适合有语义的中文搜索场景,如标题、文本等。TEXT及SHORT_TEXT类型可选。
如文档字段内容为“菊花茶”,则搜索“菊花茶”、“菊花”、“茶”、“花茶”的情况下可以召回。
中文单字分词
按照单字/单词分词,适合非语义的中文搜索场景,如小说作者名称、店铺名等;TEXT及SHORT_TEXT类型可选。
如文档字段内容为“菊花茶”,则搜索“菊花茶”、“菊花”、“茶”、“花茶”、“菊”、“花”、“菊茶”的情况下可以召回。
模糊分词
仅适用于SHORT_TEXT短文本类型,支持拼音搜索、数字的前后缀搜索、单字或者单字母搜索。最多支持100个字节字段长度,更多介绍及注意事项参见模糊搜索使用说明
如文档字段内容为“菊花茶”,则搜索“菊花茶”、“菊花”、“茶”、“花茶”、“菊”、“花”、“菊茶”、“ju”、“juhua”、“juhuacha”、“j”、“jh”、“jhc”等情况下可以召回。
如文档字段内容为手机号“13812345678”,则通过“^138”来搜索以“138”开头的手机号,通过“5678$”搜索以“5678”结尾的手机号;
如文档字段内容为“OpenSearch”,则通过单个字母或者组合都可以检索到。
英文去词根分词
适合于英文语义搜索场景,对于分词后的每个英文单词默认会做去词根、单复数转化。TEXT及SHORT_TEXT类型可选。
如文档字段内容为“英文分词器 english analyzer”,则搜索“英文分词器”、“english”、“analyz”、“analyzer”、“analyzers”、“analyze”、“analyzed”、“analyzing”。
(注意:英文分词器中连续的中文会被分成一个词)
英文简单分词
适合于英文书名、人名等搜索场景,按照空格及标点符号做分词。TEXT及SHORT_TEXT类型可选。
如文档字段内容为“英文分词器 english analyzer”,则搜索“英文分词器”、“english”、“analyzer”。
(注意:英文分词器中连续的中文会被分成一个词)
自定义分词
自定义分词,适合特殊场景下系统自带无法解决的搜索场景,可以实现完全用户控制的效果。推送文档及搜索时使用制表符“t”对字段内容(或查询词)进行分隔,注意二者分词的一致性,否则会导致无法召回文档的情况。TEXT及SHORT_TEXT类型可选。
如字段内容为“菊t花茶thao”,则只有查询词“菊”、“花茶”、“菊t花茶”、“花茶thao”、“菊thao”、“菊t花茶thao”可以召回该文档。
适用场景
- 有语义环境的中文搜索,建议使用中文语义分词;
- 对于短文本或者非语义环境中文搜索(对排序没有太多要求),建议使用中文单字分词来扩大召回;
- 拼音搜索请使用模糊分词;
- 英文场景下请使用英文去词根分词;
- 某些场景下,中文语义分词及单字分词搭配使用,可以获得非常好的搜索效果。如查询query=title_index:’菊花茶’ OR sws_title_index:’菊花茶’,精排表达式为:text_relevance(title)*5+field_proximity(sws_title)。可以实现包含“xx菊xx花xx茶xx”的文档,且排序上“菊花茶”会排在前面。
注意事项
- 如果TEXT字段设置了搜索结果摘要,扩展检索单元部分词组(如上例中的“花茶”)将不会被添加飘红标签。
- 中文单字分词对于数字跟单词认为是一个词,如“hello word”,搜索“hello”可以召回,搜索“he”则无法召回,敬请注意。若需要做单词内召回,请选择模糊分词。
最后更新:2016-11-23 17:16:06
上一篇:
应用类型__产品使用手册_开放搜索-阿里云
下一篇:
系统限制__产品使用手册_开放搜索-阿里云
清理集群磁盘__集群管理_用户指南_容器服务-阿里云
SecurityPreference__数据类型_RAM API文档_访问控制-阿里云
Mysql数据源配置__数据源配置_数据同步手册_用户操作指南_大数据开发套件-阿里云
ImageType__数据类型_API 参考_云服务器 ECS-阿里云
安全管家服务能排查到安全事件原因吗?__常见问题_产品常见问题_安全管家服务-阿里云
新建文件夹__管理文件_控制台用户指南_对象存储 OSS-阿里云
服务__系统管理_用户指南(Linux)_数据管理-阿里云
HSF 特性使用__服务开发_开发者指南_企业级分布式应用服务 EDAS-阿里云
怎样为一个子用户授予RDS服务的完全管理权限___云数据库(RDS)授权问题_授权常见问题_访问控制-阿里云
操作事件(Event)结构定义__用户指南_操作审计-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云