应用场景
注意⚠️
Node请使用>=18.0.0
版本。
# 应用场景
- 相似性搜索:快速检索与给定向量最相似的项。
- 推荐系统:根据用户行为和偏好推荐相关内容。
- 图像检索:在大规模图像库中找到与查询图像最相似的图像。
- 自然语言处理:将文本转换为向量并执行语义搜索。
- 生物信息学:分析和比较生物序列,如蛋白质和基因组数据。
# 索引与度量类型详解
# 索引类型(IndexType)
- INVALID:无效索引类型,仅用于内部标记。
- FLAT:暴力搜索,适用于小规模数据集。
- IVF_FLAT:倒排索引平面模式,适用于中等规模数据集。
- IVF_SQ8:倒排索引量化模式,适用于大规模数据集,牺牲精度提升速度。
- IVF_PQ:倒排索引产品量化模式,适用于大规模高维数据集,平衡速度和精度。
- HNSW:分层导航小世界图,提供快速搜索,适用于大规模数据集。
- DISKANN:基于磁盘的近似最近邻搜索,适用于存储在磁盘上的大规模数据集。
- AUTOINDEX:自动选择最优索引类型。
- SCANN:使用扫描和树结构加速搜索。
- GPU_IVF_FLAT、GPU_IVF_PQ:GPU 加速索引,适用于 GPU 环境。
- BIN_FLAT、BIN_IVF_FLAT:二进制向量专用索引。
- TRIE:适用于字符串类型的字典树索引。
- STL_SORT:适用于标量字段的排序索引。
# 度量类型(MetricType)
- INVALID:无效度量类型,仅用于内部标记。
- L2:欧几里得距离,适用于浮点向量。
- IP:内积,用于计算余弦相似度。
- COSINE:余弦相似度,适用于文本和图像搜索。
- HAMMING:汉明距离,适用于二进制向量。
- JACCARD:杰卡德相似系数,适用于集合相似度计算。 :::
上次更新: 2024/06/12, 19:12:46