Elasticsearch 完整格式的 URL 进行分词,有什么好的解决方案吗?
摘要
我想对完整格式的 url 进行分词,请问有什么好的解决方案吗?
比如:https://www.abc.com/any/path?param_1=so+me¶m-2=other#title
看了官方的分词器,感觉没啥合适的?
预处理的话,又不知道该怎么处理更合适?
因为我们的数据量比较大,不太想用 pattern,感觉集群的压力会升高?
我看这个分词器会把识别的 url 当作一个token,但我想实现的是,对 url 尽可能保证精准的拆分。