海拍客商品向量化探索与应用

出处：tech.hipac.cn

摘要

1986年，机器学习界一代大神Geoffrey Hinton提出embedding的概念，倡导采用机器学习方法进行人工智能研究，进而探索通过人脑运作方式来运作机器学习系统。而受人脑原理的启发，他与同僚们提出“人工神经网络” (artificial neural network)，成为现代机器学习的基石。现在大家耳熟能详的，在工业界上大放异彩的word2vec，就是这个思想下的产物（在本文中我们也会将此方法作为基础多次提及）。而这个思想中最核心的一点就是向量化，把事物编码成向量，方便计算机进行各种运算，这也成为了目前工业界比较主流的一种解决问题的方式。

向量化也有多种方法，最简单的方法就是one-hot编码，但对于后续的运算会产生一些问题。例如要把汉字表示成向量，假设我们只编码8万个汉字，一个汉字的表示就需要一个8万维度的向量，大家凭直觉也能理解后续的存储和计算都绝非易事。究其原因，核心点在于这样的思路下，向量表示是稀疏化的且彼此之间相对独立。那么我们就需要走与之相反的一条路，让产出的向量尽可能多地保留住信息（类似压缩和编码），输出的结果通常是稠密的向量。这样的方法在业界多被称之为embedding，通常是事物在低维空间的向量化表示，也是本文所想要向大家阐述的向量化思路（通常辅以特征化的信息表示）。一个常见的embedding的例子就是颜色的RGB表示。自然界的颜色有成千上万种，但我们知道，任何一种可见光都可以由红色、绿色、蓝色这三种颜色的光混合而成，因此我们只需要一个三维的向量就可以表示所有色彩。颜色的RGB值就是这个三维向量，每一维的取值范围是0到255，分别表示三种原色光的强度。同理，对于汉字，我们也可以把它拆成指定数量的特征维度，字典中的每一个词都可以用这些维度组成的向量来表示。

阅读原文

xiaozi 于 2024-08-30 分享

302

关联话题： #海拍客

欢迎在评论区写下你对这篇文章的看法。

海拍客商品向量化探索与应用

海拍客商品向量化探索与应用

摘要

评论

文库