Optimal Feature Discovery: Better, Leaner Machine Learning Models Through Information Theory
摘要
假设你拥有一个已经运行得相当好的生产型ML模型。你知道在你的模型中添加相关的和不同的信号源是提高性能的一个可靠方法,但是找到能够真正提高性能的新功能可能是一个缓慢而乏味的试验和错误过程。
在搜索之初,你可能会寻求重新使用为其他项目开发的功能,或者你可能会选择你怀疑会对你的模型有益的新功能的原型。无论哪种情况,都可能有成百上千个潜在的新功能需要探索,其中许多是常见主题的轻微变化。根本的问题是,不清楚这些功能中的哪一个(如果有的话)会真正改善你的模型的性能。绝大多数的新功能将与已有的功能部分重叠(如果不是完全重叠的话)。
你可以尝试一次加入一个或一小组,以评估个别的影响,但这需要时间,而且这种方式很难发现不同功能之间的协同作用。
欢迎在评论区写下你对这篇文章的看法。