余弦相似度

编辑:评估网互动百科 时间:2020-07-09 07:03:54
编辑 锁定
余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。
中文名
余弦相似度
外文名
Cosine similarity

目录

  1. 1 定义
  2. 概念
  3. 计算
  4. 2 性质
  5. 3 应用

余弦相似度定义

编辑

余弦相似度概念

将向量根据坐标值,绘制到向量空间中。如最常见的二维空间。
  求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

余弦相似度计算

对于二维空间,根据向量点积公式[1]  ,显然可以得知:
假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:
设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推广到多维:

余弦相似度性质

编辑
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致。相应的相似度也越高。

余弦相似度应用

编辑
最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本在统计学方法中他们的相似度情况。实践证明,这是一个非常有效的方法。[2] 
参考资料
词条标签:
非自然 自然学科 科技术语 科技 科学 理学