当前位置: 首页 > news >正文

广东网站推广策略/seo门户网价格是多少钱

广东网站推广策略,seo门户网价格是多少钱,电脑怎做单页网站,网站建设的销售好做吗转自:http://baijiahao.baidu.com/s?id1591743538838829040&wfrspider&forpc机器不学习 jqbxx.com -机器学习、深度学习好网站word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语…

转自:http://baijiahao.baidu.com/s?id=1591743538838829040&wfr=spider&for=pc

机器不学习 jqbxx.com -机器学习、深度学习好网站

word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词处理。这个过程其他的答案已经梳理过了不再赘述。得到你想要的processed corpus之后,将他们的one-hot向量作为word2vec的输入,通过word2vec训练低维词向量(word embedding)就ok了。不得不说word2vec是个很棒的工具,目前有两种训练模型(CBOW和Skip-gram),两种加速算法(Negative Sample与Hierarchical Softmax)。本答旨在阐述word2vec如何将corpus的one-hot向量(模型的输入)转换成低维词向量(模型的中间产物,更具体来说是输入权重矩阵),真真切切感受到向量的变化,不涉及加速算法。如果读者有要求有空再补上。

1 Word2Vec两种模型的大致印象

刚才也提到了,Word2Vec包含了两种词训练模型:CBOW模型和Skip-gram模型。

CBOW模型根据中心词W(t)周围的词来预测中心词

Skip-gram模型则根据中心词W(t)来预测周围词

抛开两个模型的优缺点不说,它们的结构仅仅是输入层和输出层不同。请看:

CBOW模型

Skip-gram模型

这两张结构图其实是被简化了的,读者只需要对两个模型的区别有个大致的判断和认知就ok了。接下来我们具体分析一下CBOW模型的构造,以及词向量是如何产生的。理解了CBOW模型,Skip-gram模型也就不在话下啦。

2 CBOW模型的理解

其实数学基础及英文好的同学可以参照斯坦福大学Deep Learning for NLP课堂笔记。

当然,懒省事儿的童鞋们就跟随我的脚步慢慢来吧。

先来看着这个结构图,用自然语言描述一下CBOW模型的流程:

CBOW模型结构图

NOTE:花括号内{}为解释内容.

输入层:上下文单词的onehot. {假设单词向量空间dim为V,上下文单词个数为C}

所有onehot分别乘以共享的输入权重矩阵W. {V*N矩阵,N为自己设定的数,初始化权重矩阵W}

所得的向量 {因为是onehot所以为向量} 相加求平均作为隐层向量, size为1*N.

乘以输出权重矩阵W' {N*V}

得到向量 {1*V} 激活函数处理得到V-dim概率分布 {PS: 因为是onehot嘛,其中的每一维斗代表着一个单词},概率最大的index所指示的单词为预测出的中间词(target word)

与true label的onehot做比较,误差越小越好

所以,需要定义loss function(一般为交叉熵代价函数),采用梯度下降算法更新W和W'。训练完毕后,输入层的每个单词与矩阵W相乘得到的向量的就是我们想要的词向量(word embedding),这个矩阵(所有单词的word embedding)也叫做look up table(其实聪明的你已经看出来了,其实这个look up table就是矩阵W自身),也就是说,任何一个单词的onehot乘以这个矩阵都将得到自己的词向量。有了look up table就可以免去训练过程直接查表得到单词的词向量了。

这回就能解释题主的疑问了!如果还是觉得我木有说明白,别着急!跟我来随着栗子走一趟CBOW模型的流程!

3 CBOW模型流程举例

假设我们现在的Corpus是这一个简单的只有四个单词的document:

{I drink coffee everyday}

我们选coffee作为中心词,window size设为2

也就是说,我们要根据单词"I","drink"和"everyday"来预测一个单词,并且我们希望这个单词是coffee。

假设我们此时得到的概率分布已经达到了设定的迭代次数,那么现在我们训练出来的look up table应该为矩阵W。即,任何一个单词的one-hot表示乘以这个矩阵都将得到自己的word embedding。

http://www.jmfq.cn/news/4953439.html

相关文章:

  • 甘肃最新消息今天/如何优化搜索引擎的准确性
  • 网站内页全是404/关键词代发排名首页
  • 织梦系统 子网站/百度快速收录权限域名
  • 中投中原建设有限公司网站/鹤壁网络推广哪家好
  • php网站开发工具有哪些/重庆放心seo整站优化
  • 一款可做引流的网站源码/关键词是网站seo的核心工作
  • 动易网站模板下载/苏州seo网站系统
  • 美食网站建设的意义/360网站推广客服电话
  • 简单的报价表模板/上海优化网站seo公司
  • 网站子目录怎么做反向代理设置/2345网址导航设置
  • 怎么搜做传奇私服网站总出来/营销型企业网站诊断
  • 安徽禹尧工程建设有限公司网站/seo优化培训课程
  • wordpress工业产品企业网站主题/百度下载安装免费
  • 做短链的网站/2023年8月新冠又来了
  • 网站备案每年一次/网络广告营销的概念
  • sql注入网站建设百度云/凡科建站模板
  • wordpress指定id文章/南京seo关键词排名
  • .net制作网站开发教程/网络营销组织的概念
  • 如何传图片做网站/网站推广做什么
  • 专门做学校政府的网站/百度站点
  • 精品影视资源推荐入口/宁波seo外包服务商
  • 网站流量是怎么赚钱的/天津抖音seo
  • 聊城做网站的公司效果/网络营销平台名词解释
  • html网页设计表格代码范文/宁波seo快速优化平台
  • 广州企业自助建站/网站里的友情链接
  • 单页面网站制作/外链交换平台
  • 建设机械网站方案设计/2022新闻热点事件简短30条
  • 全国做网站最好的公司/流量神器
  • 赌球网站怎么做/什么是seo
  • 网站需要做实名认证如何做/自己怎么搭建网站