淘宝用户体验 VOC 标签体系
摘要
通过引入数据信息熵和计算每次重组方案的信息增益率,对标签结构进行全局优化。首先进行第一轮遍历,选择信息增益率最大的重组方案,并将对应的标签对移除。然后基于空标签继续进行遍历,直到所有遍历完成。最后计算标签结构的全局分布离散度作为目标函数,选择最优方案进行标签重组。最终,通过词典进行最后确认,降低工作量。该方法适用于构建带label的训练样本,基于分组训练多个多分类模型,以提高标签生产的质量与效率,并解决样本集不平衡问题。同时,在文本向量化计算中,根据不同场景选择不同方法进行文本表示,包括使用淘宝电商词典进行分词后,基于word2vec或tf-idf产出文本的词向量表示。
欢迎在评论区写下你对这篇文章的看法。