使用Annoy进行高效向量检索与存储

最新推荐文章于 2025-12-06 09:34:47 发布

原创最新推荐文章于 2025-12-06 09:34:47 发布 · 536 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

技术背景介绍

Annoy（Approximate Nearest Neighbors Oh Yeah）是一个用于寻找空间中与给定查询点接近的点的C++库，并提供Python绑定。它能够创建大型的只读文件数据结构，并将这些数据结构映射到内存，以便多个进程可以共享同一数据。Annoy非常适合处理大规模数据集的近似最近邻搜索，此特性使其在推荐系统、特征匹配等领域中得到应用。然而需要注意的是，一旦建立索引后，Annoy是不可更改的，也就是说无法动态添加新的嵌入。

核心原理解析

Annoy通过构建多个随机投影树来进行近似最近邻搜索。这种方法能够在空间复杂度和查询时间上提供一个合理的折中。通过调整树的数量（n_trees），能够优化搜索精度和速度。每棵树将数据集划分成多个子空间，并在每个子空间内进行局部搜索，以找到和查询点距离最近的向量。

代码实现演示

下面的代码示例展示了如何使用Annoy库创建向量存储并进行向量检索：

# 安装必要的库
%pip install --upgrade --quiet annoy langchain-community

# 导入Annoy和相关模块
from langchain_community.vectorstores import Annoy
from langchain_huggingface import HuggingFaceEmbeddings

# 创建嵌入功能
embeddings_func = HuggingFaceEmbeddings()

# 示例文本数据
texts = ["pizza is great", "I love salad", "my car", "a dog"]

# 使用默认参数创建向量存储
vector_store = Annoy.from_texts(texts, embeddings_func)

# 使用自定义参数创建向量存储
vector_store_v2 = Annoy.from_texts(
    texts, embeddings_func, metric="dot", n_trees=100, n_jobs=1
)

# 进行相似度搜索
result = vector_store.similarity_search("food", k=3)
print(result)

# 进行相似度搜索并返回得分
result_with_score = vector_store.similarity_search_with_score("food", k=3)
print(result_with_score)