博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
word2vec原理
阅读量:4977 次
发布时间:2019-06-12

本文共 921 字,大约阅读时间需要 3 分钟。

word2vec是将词转化为向量的一个强大的工具,它是google在2013年推出的,其特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系。

word2vec一般分为CBOW与Skip-Gram两种模型,下面会分别对两种模型进行具体的介绍。

本文参考的内容会在文章的下方列出。

一. CBOW

CBOW模型是根据中心词周围的n个词来预测中心词。

CBOW的模型结构图如下:

模型由输入层、隐藏层和输出层组成。

模型最终要求出的其实是输入层和隐藏层之间的权重矩阵,下面会详细说明模型的具体步骤:

这里假设上下文的单词个数为N,单词向量空间dim为M,也就是词典的大小

  1. 输入时上下文的one-hot向量
  2. 输入层和隐藏层之间的权重为W(M*N,N为自己设定的个数)对权重初始化,所得的向量进行相加求平均操作,size为1*N
  3. 隐藏层和输出层的权重为W‘(N*M),2得到的结果乗W‘,得到1*M的向量
  4. 得到的向量与true label的one-hot做比较,误差越小越好

流程举例:

现在有一句话:I drink coffee everyday

要预测coffee这个词的词向量,我们选取的窗口大小为2,也就是根据“I”,“drink”,“everyday”来预测预测一个单词,并且希望最终的结果是“coffee”

 

 

 

 

二. Skip-Gram

Skip-Gram模型是根据当前词预测上下文。

Skip-Gram的模型结构如下图所示:

该结构和CBOW模型相反,但是同样都是输入层隐藏层和输出层。

输入层:单词的one-hot向量

隐藏层:对隐藏层权重矩阵的学习,首先初始化权重矩阵,权重矩阵通过梯度下降法来更新。

输出层:实际上是一个概率分布(即一堆浮点数的组合,而不是一个one-hot向量)

 

总结

以上内容对CBOW和Skip-Grap两个模型的原理进行了介绍,之后会从word2vec的两种改进方法进行讲述,一种是基于Hierarchical Softmax的,另一种是基于Negative Sampling的。

参考内容:

转载于:https://www.cnblogs.com/r0825/p/10920274.html

你可能感兴趣的文章
在Visual Studio 2005中调试SQL Server 2005的存储过程
查看>>
浅析C#基于TCP协议的SCOKET通信
查看>>
文件资源使用Texture管理cocosBuilder项目资源:纹理文件使用(TexturePacker)
查看>>
Java Web应用CAS Client端的配置详解
查看>>
MapGIS计算瓦片数据集
查看>>
你最美好的年华
查看>>
中兴MF667S WCDMA猫Linux拨号笔记
查看>>
jQuery
查看>>
探究绑定事件的this指向以及event传参的小问题
查看>>
BOM window对象 localtion navigator
查看>>
Linux的.pid文件
查看>>
unity性能优化-CPU
查看>>
使用ssh正向连接、反向连接、做socks代理的方法
查看>>
IOS AppStore介绍图的尺寸大小(还有一些自己被拒的分享...)
查看>>
Android 实现在线程中联网
查看>>
Akka(30): Http:High-Level-Api,Routing DSL
查看>>
第八章:FTP publisher plugin插件下载(支持绝对路径)
查看>>
HDU5779 Tower Defence (BestCoder Round #85 D) 计数dp
查看>>
storm学习笔记
查看>>
进程与线程杂谈
查看>>