词袋模型 Bag-of-words model
(重定向自Bag of words)
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文档这样的文本可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。
词袋模型被广泛应用在文档分类,词出现的频率可以用来当作训练分类器的特征。
关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。