Elasticsearch 完整格式的 URL 进行分词，有什么好的解决方案吗？

herramientas en línea

herramientas en línea

反馈

herramientas en línea

inicio tema

biblioteca biblioteca de código tienda

más

Elasticsearch 完整格式的 URL 进行分词，有什么好的解决方案吗？

出处：mp.weixin.qq.com

摘要

我想对完整格式的 url 进行分词，请问有什么好的解决方案吗？

比如：https://www.abc.com/any/path?param_1=so+me&param-2=other#title

看了官方的分词器，感觉没啥合适的?

预处理的话，又不知道该怎么处理更合适？

因为我们的数据量比较大，不太想用 pattern，感觉集群的压力会升高？

我看这个分词器会把识别的 url 当作一个token，但我想实现的是，对 url 尽可能保证精准的拆分。

阅读原文

xiaozi 于 2024-09-20 分享

5378

关联话题： #Elasticsearch

欢迎在评论区写下你对这篇文章的看法。