词嵌入(Word Embedding)
将词语映射为数值
从0开始词嵌入(Word embedding)
one-hot:只编码了词汇,无语义信息
bag of words:只有词的频率信息,无其他语义信息
N-gram:大小为N的滑动窗口,每个片段称为gram,但会有零概率问题
n-gram语言模型原理到实践
bag of words 和 N-gram 都是基于词频统计的模型,而一些高词频的词不一定有用,比如 "我"、"你" 等,称为停用词(stop words)在构建词汇表的时候可以抛弃这些词
TF-IDF:统计词频来估计词汇的重要程度
词袋模型(bag of words,BOW)
TF-IDF
4分钟TF-IDF原理讲解与简单实现!基础看这一篇就够啦
机器学习:生动理解TF-IDF算法
用于评估一个词语在特定文档中相对于整个文档集合的重要程度,通过计算每个词语的TF-IDF值,可以确定哪些词语最具代表性或者最能区分当前文档与其他文档。可以自动过滤停用词
TF是衡量在文本中有多频繁,IDF是衡量在文本中有多重要
Word2vec
理解 Word2Vec 之 Skip-Gram 模型
图学习【参考资料1】词向量word2vec
简述Word2vec模型