海拍客商品向量化探索与应用
摘要
1986年,机器学习界一代大神Geoffrey Hinton提出embedding的概念,倡导采用机器学习方法进行人工智能研究,进而探索通过人脑运作方式来运作机器学习系统。而受人脑原理的启发,他与同僚们提出“人工神经网络” (artificial neural network),成为现代机器学习的基石。现在大家耳熟能详的,在工业界上大放异彩的word2vec,就是这个思想下的产物(在本文中我们也会将此方法作为基础多次提及)。而这个思想中最核心的一点就是向量化,把事物编码成向量,方便计算机进行各种运算,这也成为了目前工业界比较主流的一种解决问题的方式。
向量化也有多种方法,最简单的方法就是one-hot编码,但对于后续的运算会产生一些问题。例如要把汉字表示成向量,假设我们只编码8万个汉字,一个汉字的表示就需要一个8万维度的向量,大家凭直觉也能理解后续的存储和计算都绝非易事。究其原因,核心点在于这样的思路下,向量表示是稀疏化的且彼此之间相对独立。那么我们就需要走与之相反的一条路,让产出的向量尽可能多地保留住信息(类似压缩和编码),输出的结果通常是稠密的向量。这样的方法在业界多被称之为embedding,通常是事物在低维空间的向量化表示,也是本文所想要向大家阐述的向量化思路(通常辅以特征化的信息表示)。一个常见的embedding的例子就是颜色的RGB表示。自然界的颜色有成千上万种,但我们知道,任何一种可见光都可以由红色、绿色、蓝色这三种颜色的光混合而成,因此我们只需要一个三维的向量就可以表示所有色彩。颜色的RGB值就是这个三维向量,每一维的取值范围是0到255,分别表示三种原色光的强度。同理,对于汉字,我们也可以把它拆成指定数量的特征维度,字典中的每一个词都可以用这些维度组成的向量来表示。
欢迎在评论区写下你对这篇文章的看法。