知鸦日报2024-06-23

2024-06-22 16:30:00 ~ 2024-06-23 16:30:00

技术

使用 MinHash 进行文本去重

摘要

本文的主要内容是介绍如何基于文章《BigCode 背后的大规模数据去重》提到的方法构建一个能够对中文文本进行去重的 MinHash 方案实现。

开发常见的Hash函数(三)-Minhash_Simhash

摘要

Simhash和Minhash是用于比较大文本相似性的算法。它们通过对特征向量集进行运算来判断文本的相似度。Simhash和Minhash都支持k-shingle的运算。对于相似性的定义,如果是纯粹的文字/内容相似,Minhash更适用;如果是打乱文字/句子顺序或者词重合度高的情况,Simhash更合适。Simhash和Minhash的结果不受特征输入顺序影响。图片相似计算的内容在下一篇文章中。

登录后可查看文章图片

七猫技术:读懂前端「性能优化」

摘要

HTTP/2引入了HPACK来压缩头信息,提高传输速度。在Nginx和Node服务端配置gzip压缩,使用Webpack插件对JavaScript、CSS、HTML进行压缩,以减小文件大小。此外,还可以采用代码优化措施,如减少全局变量的使用、避免频繁的DOM操作、使用事件缓存、使用节流和防抖函数来提高JavaScript性能。选择合适的数据结构以及避免使用eval()函数和不必要的递归也是优化JavaScript性能的方法。

登录后可查看文章图片

京东技术:大模型在推荐系统中的精准推荐策略与实践

摘要

本文将探讨大模型在推荐系统中的精准推荐策略与实际应用,并通过具体案例深入分析其在电商平台中的实践和效果。

58同城技术:配置化表单FormRender初尝试

摘要

这篇文章介绍了一个名为"schema 编辑器"的工具,它可以帮助用户快速生成表单。文章通过示例演示了如何使用该工具,展示了它的强大功能。同时,文章还提到了在开发一个复杂的自定义组件时遇到的问题,并给出了解决办法。总体来说,这个工具非常实用,可以满足一般表单的基本需求。文章还提供了一些相关资源链接,方便读者进一步了解该工具。

登录后可查看文章图片

唯品会技术:唯品会SPARK3.0升级之路

摘要

这篇文章介绍了我们升级SPARK过程中遇到的挑战和思考,希望能给大家带来启发。

登录后可查看文章图片

腾讯技术:图文并茂!推荐算法架构——粗排

摘要

探析算法架构之粗排~

登录后可查看文章图片

微信安全基于 Flink 实时特征开发平台实践

摘要

本文介绍了微信风控团队面临的挑战和业务安全风控的流程。团队需要解决人力不足、业务场景覆盖和对抗激烈等问题。业务安全风控流程包括分析、特征开发、策略和数据验证。特征开发在风控中至关重要,特征是策略的基石。团队经历了三个阶段建设了一站式的实时特征开发平台,提高了效率。数据质量对用户体验有直接影响,特征质量要高。平台架构采用了平台化方式,提供开箱即用的能力组件解决问题。

登录后可查看文章图片

科普

高考结束后,答题卡都去哪儿了

摘要

高考答卷,阅后即焚。

登录后可查看文章图片


‹ 2024-06-22 日报 2024-06-24 日报 ›

qrcode

关注公众号
接收推送