百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

复盘:highlight+fvh+copy to+json顺序的复杂使用场景问题

qiyuwang 2024-10-31 15:51 9 浏览 0 评论

1、背景情况

业务使用的索引进行了一个切换,从老索引(老集群)切换到了新索引(新集群),更改了主分片数目,其他条件未修改。切换当天研发与测试人员都测试通过。

2、问题描述

索引切换的第二天,研发同学反馈查询使用报错:

经过初步调试,发现报错的内容是在 highlight 模块的 fvh 类型使用,这个操作主要查询了字段 a-name。

这里补充一下 highlight 的使用类型知识。

highlight 的高亮处理有三种 unified/plain/fvh,在大文本下比较合适的是 fvh

fvh Highlighter 会直接利用 index 的时候创建的 term vector 来得到高亮片段匹配的查询分词,这里就需要一个 mapping 的配置 "term_vector" : "with_positions_offsets"。

具体的 highlight type 属性可以参照官方文档

https://www.elastic.co/guide/en/elasticsearch/reference/current/highlighting.html)

同时,发现了 github 上这个报错的源码注释:

https://github.com/apache/lucene/blob/d5d6dc079395c47cd6d12dcce3bcfdd2c7d9dc63/lucene/highlighter/src/java/org/apache/lucene/search/vectorhighlight/FastVectorHighlighter.java

可以肯定的是 term vector 的计算导致了这个报错。

还好老索引还在,term vector 也可以使用 api 去查看存储的信息内容。

GET 索引名/_termvectors/id?fields=字段名 

新索引中的搜索关键字如下所示:

旧索引中的搜索关键字如下所示:

可以明显看到在新老索引里,存的position offset两个信息是完全不一样的

而尝试通过 termvector 去实时(on the fly https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html#docs-termvectors-api-generate-termvectors)计算,还是得到的同样的两个结果。

现在的问题:相同的文档信息出现了不同的 term vector 结果

3、排查方向

和研发同学沟通讨论后,主要进行了两方面的排查:

  • 1.在新老集群上进行索引配置的复制,首先排除集群环境的问题。
  • 2.索引有不少自定义的分词器和复杂的参数使用,对索引配置进行进一步分析。

新建测试索引后,我们发现老集群上的测试索引也有这样的错误。且测试索引的 termvector 信息与新索引信息一致。

因此可以排除集群环境的问题。

同时研发同学注意到,termvector 信息中出现了本身文档外的信息:

“text”:["某某科技公司"]
“term_vectors":["mou","ke","ji","gong","si","某","科技","公司"]

而多余的 term vector 信息则来自于另一个存储拼音的字段 b-name,该字段同时设置了 copy to 属性,把内容复制给了问题字段 a-name

这时,研发同学发现了问题:在新旧索引切换的过程中,客户端也进行了更换。之前是 nodejs JSON上传,nodejs的json是有序的,而切换后的客户端使用的是 golang,golang里面的jsoniter不会有序,排列随机。

因此不同排序的 json 字段在 copy to 的复杂使用下,产生了不同的 term vector。对此进行了测试索引的故障复现。测试数据如下:

{
"b-name" : "mou mou ke ji gong si",
"a-name" : "某某科技公司",
}

b-name 在 a-name 之前,term vector 如下:

字段进行调换后:

4、结论与复盘

实际过程中,我们排查的脑图如下:

图片建议放大查看

针对这个复杂的使用场景也是踩了不少坑。真的是魔鬼隐藏在细节里,json 字段顺序的问题也会导致这样晦涩难找的 bug

同时也遗留了个小问题:term vector 的 api (on the fly)并不能复现这个场景的问题,是因为计算的是已写入lucene文件的数据,还是模拟的数据写入?那是不是功能的bug,还是理解有差?

来源:铭毅天下Elasticsearch

相关推荐

windows开启telnet服务,检测远程服务端口是否可以连通

本文介绍windwos开启telnet服务,telnet服务一般可以用于检测远程主机的某个端口服务是否可以连通,在日常的工作中,我们经常会遇到在本地的windows检测远程服务端口是否可以连通。win...

仅在Web登录新华三交换机条件下启用设备Telnet登录方式

概述Web登录新华三交换机可以在“网络-服务”页面中启用设备Telnet服务或SSH服务,也可以在“设备-管理员”设置管理员用户的可用服务,然而,在设备Web页面中,无法设置lineVTY用户线【l...

思科交换机,路由器如何关闭telnet 开启ssh服务

SSH为建立在应用层基础上的安全协议。SSH是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效防止远程管理过程中的信息泄露问题。今天我们就来说说思科交换机,路...

智能化弱电行业常用的DOS命令,掌握了你也能成为...

前言在做智能化弱电项目时,前端摄像头设备安装结束后,我们会对网络摄像头进行调试,调试过程中会遇到前端摄像头没有图像或者图像出来了画面卡顿的现象。我们会采用ping命令来测试网络的连通性和网络承载能力。...

「干货」eNSP模拟器之配置Telnet登录

配置说明:配置Telnet,使R2(模拟PC)通过SW1登录到R1进行管理和配置。操作步骤:system-view##进入系统视图[Huawei]sysnameR1##改名为R1[R1]int...

win11开启telnet服务怎么操作 win11打开telent指令是什么

telnet服务是我们在进行远程连接的时候,必须要打开的一项功能。但是有不少用户们不清楚在windows11系统中怎么开启telnet服务。今天小编就使用详细的图文教程,来给大家说明一下打开telen...

华三(H3C)交换机Telnet的远程登陆

一,配置交换机管理IP[SW1]vlan20//创建管理vlan[SW1]interfacevlan20//进入vlan接口[SW1-Vlanif20]ipaddress192.168....

win10 telnet命令怎么查看端口是否打开

可能大家也会遇到这个问题,win10telnet命令查看端口是否打开的步骤是什么?具体方法如下:1、键盘输入快捷键WIN+R,打开运行窗口。2、输入cmd,点击确定按钮。3、弹出cmd命令行窗...

Windows 7如何打开Telnet功能(win7系统打开telnet)

Windows7默认安装后是没有开启telnet客户端功能的,例如,我们在开始菜单中输入cmd,然后使用telnet命令,会弹出下图提示:‘telnet’不是内部或外部命令,也不是可运行程序或批处理文...

为锐捷路由器交换机开启web和telnet,实现轻松管理

笔者上一篇文章写了关于锐捷二层交换机配置教程,那么接下来讲一下锐捷的路由交换设备配置web、telnet技巧。同样,今天的教程也是基于命令行,比较简单,适合新手小白进行学习。准备工作配置前准备:con...

一文学会telnet命令的用途和使用方法

Telnet是一个古老的远程登录协议,可以让本地计算机获得远程计算机的工作能力。它采用了TCP的可靠连接方式,可以连接任何网络互通的远程计算机。不过由于它采用了明文传输方式,存在安全风险,目前已经很少...

Telnet命令是什么?如何使用?(telnet命令在哪里开启)

telnet命令是一个常用的远程登陆工具,使用它,我们可以快捷地登陆远程服务器进行操作。那么如何使用telnet命令呢?首先,我们需要打开telnet功能,任何电脑默认是关闭此功能的,开启方式如下:打...

win11系统如何开启telnet服务(拷贝版本)

  我们要知道,Telnet协议是Internet远程登陆服务的标准协议,可以使用户在本地计算机上完成远程主机的工作,不过对于一些刚接触win11中文版系统的用户来说,可能还不知道telnet服务在哪...

如何开启telnet客户端(如何开启telnet服务)

Telnet协议是TCP/IP协议家族中的一员,是Internet远程登陆服务的标准协议和主要方式,Telnet是常用的远程控制Web服务器的方法。工作中经常用到telnet客户端,但在windows...

Telnet 是什么,如何启用它?(telnet有什么用)

对于Internet等TCP/IP网络,Telnet是一个终端仿真程序。Telnet软件在您的系统上运行并将您的个人计算机链接到网络服务器。它将所有数据转换为纯文本这一事实被认为是易受...

取消回复欢迎 发表评论: