【NLP】词嵌入

发布于 2023-04-24 | 标签: DL 、 NLP | 2分钟 | 373字数

词嵌入（Word Embedding）

将词语映射为数值
从0开始词嵌入（Word embedding）
one-hot：只编码了词汇，无语义信息
bag of words：只有词的频率信息，无其他语义信息
N-gram：大小为N的滑动窗口，每个片段称为gram，但会有零概率问题
n-gram语言模型原理到实践
bag of words 和 N-gram 都是基于词频统计的模型，而一些高词频的词不一定有用，比如 "我"、"你" 等，称为停用词（stop words）在构建词汇表的时候可以抛弃这些词
TF-IDF：统计词频来估计词汇的重要程度

词袋模型（bag of words，BOW）

传统NLP之Bag of Words（词袋模型）

TF-IDF

4分钟TF-IDF原理讲解与简单实现！基础看这一篇就够啦
 机器学习：生动理解TF-IDF算法
用于评估一个词语在特定文档中相对于整个文档集合的重要程度，通过计算每个词语的TF-IDF值，可以确定哪些词语最具代表性或者最能区分当前文档与其他文档。可以自动过滤停用词
TF是衡量在文本中有多频繁，IDF是衡量在文本中有多重要

Word2vec

理解 Word2Vec 之 Skip-Gram 模型
 图学习【参考资料1】词向量word2vec

简述Word2vec模型

GloVe

（十五）通俗易懂理解——Glove算法原理
 GloVe算法原理及简单使用

赞赏