格式化解密二维码
我想对完整格式的 url 进行分词,请问有什么好的解决方案吗? 比如:https://www.abc.com/any/path?param_1=so+me¶m-2=other#title 看了官方的分词器,感觉没啥合适的? 预处理的话,又不知道该怎么处理更合适? 因为我们的数据量比较大,不太想用 pattern,感觉集群的压力会升高? 我看这个分词器会把识别的 url 当作一个token,但我想实现的是,对 url 尽可能保证精准的拆分。
我想对完整格式的 url 进行分词,请问有什么好的解决方案吗?
比如:https://www.abc.com/any/path?param_1=so+me¶m-2=other#title
看了官方的分词器,感觉没啥合适的?
预处理的话,又不知道该怎么处理更合适?
因为我们的数据量比较大,不太想用 pattern,感觉集群的压力会升高?
我看这个分词器会把识别的 url 当作一个token,但我想实现的是,对 url 尽可能保证精准的拆分。
欢迎在评论区写下你对这篇文章的看法。
Home - Wiki Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-22 23:50 浙ICP备14020137号-1 $Map of visitor$