当前位置: 首页 > news >正文

天润网站建设/win10优化工具

天润网站建设,win10优化工具,oa信息管理系统,大兴安岭网站建设1 问题 通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。 from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件) word2vec_model KeyedV…

1 问题

通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。

from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件)
word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)

2 解决方案

(1)方案一
第一次加载后保存为能够快速加载的文件,第二次加载就能快读读取。

file_path = "word2vec/train_bio_word"
if os.path.exists(file_path):word2vec_model = KeyedVectors.load(file_path,mmap='r')
else:# 读取中文词向量模型(需要提前下载对应的词向量模型文件)word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)word2vec_model.init_sims(replace=True)word2vec_model.save(file_path)

(2)方案二
第一次加载后,只将使用到的词向量以表格的形式保存到本地,第二次读取就不需要加载全部word2vec的,只加载表格中的词向量。

file_path = "word2vec/train_vocabulary_vector.csv"
if os.path.exists(file_path):# 读取词汇-向量字典,csv转字典vocabulary_vector = dict(pd.read_csv(file_path))# 此时需要将字典中的词向量np.array型数据还原为原始类型,方便以后使用for key,value in vocabulary_vector.items():vocabulary_vector[key] = np.array(value)else:# 所有文本构建词汇表,words_cut 为分词后的list,每个元素为以空格分隔的str.vocabulary = list(set([word for item in text_data1 for word in item]))# 构建词汇-向量字典vocabulary_vector = {}for word in vocabulary:if word in word2vec_model:vocabulary_vector[word] = word2vec_model[word]# 储存词汇-向量字典,由于json文件不能很好的保存numpy词向量,故使用csv保存pd.DataFrame(vocabulary_vector).to_csv(file_path)

(3)方案三
不使用word2vec的原训练权重,使用Embedding工具库。自动下载权重文件后,高效使用。
参考:https://github.com/vzhong/embeddings
安装库

pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github
from embeddings import GloveEmbedding, FastTextEmbedding, KazumaCharEmbedding, ConcatEmbeddingg = GloveEmbedding('common_crawl_840', d_emb=300, show_progress=True)
f = FastTextEmbedding()
k = KazumaCharEmbedding()
c = ConcatEmbedding([g, f, k])
for w in ['canada', 'vancouver', 'toronto']:print('embedding {}'.format(w))print(g.emb(w))print(f.emb(w))print(k.emb(w))print(c.emb(w))
http://www.jmfq.cn/news/5313115.html

相关文章:

  • 公司网站建设需要哪些/怎么开发自己的小程序
  • 500网站建设/最新军事新闻今日最新消息
  • 松江泖港网站建设/今日新闻
  • 网站建设 数据上传 查询/谷歌搜索引擎为什么打不开
  • 北京棋森建设有限公司网站/新闻发布系统
  • 集团网站怎么建设/网站seo推广平台
  • 政协网站建设要求/网络营销专业是干什么的
  • 政法委网站建设方案/seo发帖网站
  • 呼图壁网站建设/怎么在百度上做广告
  • 校园网站建设硬件采购/小红书kol推广
  • 中山 网站建设一条龙全包/合肥网站排名提升
  • 济源市工程建设监理所网站/排名函数rank怎么用
  • 游学旅行网站建设策划书/石家庄线上推广平台
  • 安徽省建设厅网站个人怎么注册/网店网络推广方案
  • 石家庄市建设南大街小学网站/工具站seo
  • 建设部招投标网站/打开百度一下搜索
  • 哔哩哔哩网站建设分析/长沙市最新疫情
  • 外贸网站建设soho/视频号广告推广
  • 企业网站建设制作多少钱/百度推广助手app
  • 北京经济技术开发区建设局网站/推广策略有哪些方法
  • 网站建设捌金手指专业7/软件推广赚钱
  • 东莞++网站建设/近期国际新闻热点大事件
  • 历下网站建设/优化网站性能监测
  • 成都网站建设找亮帅/班级优化大师下载安装最新版
  • 新钥匙石家庄网站建设/营销推广seo
  • 现在建设公司网站用什么软件/怎么样自己创建网站
  • 北京 工业网站建设公司/友情链接怎么购买
  • 购物网站的文化建设问题/中国搜索引擎份额排行
  • 忻府网站建设/长春网站制作推广
  • 织梦网站建设过程/网络营销渠道有哪三类