我建议使用gensim来做所有事情。您可以阅读该文件,还可以从在此出色的软件包上已实现许多方法中受益。
假设您使用C ++程序生成了GloVe向量,并且您的“ -save-file”参数是“ vectors”。 Glove可执行文件将为您生成两个文件“ vectors.bin”和“ vectors.txt”。
使用Gloves2word2vec将文本格式的GloVe向量转换为word2vec文本格式:
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_input_file="vectors.txt", word2vec_output_file="gensim_glove_vectors.txt")
最后,使用KeyedVectors将word2vec txt读取到gensim模型中:
from gensim.models.keyedvectors import KeyedVectors
glove_model = KeyedVectors.load_word2vec_format("gensim_glove_vectors.txt", binary=False)
现在,您可以根据需要使用gensim word2vec方法(例如,相似性)。
0
我已经从互联网上下载了预先训练的手套矢量文件。这是一个.txt文件。我无法加载和访问它。使用gensim可以很容易地加载和访问单词向量二进制文件,但是当它是文本文件格式时,我不知道该怎么做。
提前致谢