使用大语言模型创建自然语言接口查询 Kùzu 图数据库

最新推荐文章于 2026-07-02 10:43:35 发布

原创最新推荐文章于 2026-07-02 10:43:35 发布 · 1.1k 阅读

16 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

1. 技术背景介绍

Kùzu 是一个内嵌式图数据库，专注于处理大规模属性图并保持高效查询性能。它支持 Cypher，一种声明性的图查询语言，为复杂数据查询提供灵活表达。由于其无服务器设计，Kùzu 特别适合嵌入式应用程序。

在这篇文章中，我们将介绍如何使用大语言模型（LLMs）结合 Kùzu 数据库，实现自然语言到 Cypher 查询的转换，从而帮助开发者通过自然语言生成高效的图数据库查询。

2. 核心原理解析

自然语言查询的核心在于将用户的“问题”翻译成数据库可执行的 Cypher 查询，再把查询结果加工为自然语言答案。以下是实现的核心步骤：

嵌入式图数据库：Kùzu 通过 Python API 提供强大的本地查询能力。
图模式解析：大语言模型需要了解数据库的节点、边和属性等模式信息。
Cypher 生成：将自然语言问题解析成 Cypher 查询。
答案生成：基于查询返回的结果生成自然语言答案。

3. 代码实现演示

下面是一个完整的示例，包括数据库的创建、数据的插入以及自然语言接口的实现。

安装 Kùzu

pip install kuzu

数据库准备

创建数据库和连接

import kuzu

# 创建本地数据库
db = kuzu.Database("test_db")
conn = kuzu.Connection(db)

定义图数据库模式（Schema）

我们创建一个简单的电影图数据库，其中包括 Person 和 Movie 两种节点，以及它们之间的 ActedIn 关系。

# 创建节点表和关系表
conn.execute("CREATE NODE TABLE Movie (name STRING, PRIMARY KEY(name))")
conn.execute("CREATE NODE TABLE Person (name STRING, birthDate STRING, PRIMARY KEY(name))")
conn.execute("CREATE REL TABLE ActedIn (FROM Person TO Movie)")

插入测试数据

创建一些样本数据，包括演员和电影的信息，以及演员参与的电影。

conn.execute("CREATE (:Person {name: 'Al Pacino', birthDate: '1940-04-25'})")
conn.execute("CREATE (:Person {name: 'Robert De Niro', birthDate: '1943-08-17'})")
conn.execute("CREATE (:Movie {name: 'The Godfather'})")
conn.execute("CREATE (:Movie {name: 'The Godfather: Part II'})")
conn.execute("CREATE (:Movie {name: 'The Godfather Coda: The Death of Michael Corleone'})")

# 建立关系
conn.execute("MATCH (p:Person), (m:Movie) WHERE p.name = 'Al Pacino' AND m.name = 'The Godfather' CREATE (p)-[:ActedIn]->(m)")
conn.execute("MATCH (p:Person), (m:Movie) WHERE p.name = 'Al Pacino' AND m.name = 'The Godfather: Part II' CREATE (p)-[:ActedIn]->(m)")
conn.execute("MATCH (p:Person), (m:Movie) WHERE p.name = 'Robert De Niro' AND m.name = 'The Godfather: Part II' CREATE (p)-[:ActedIn]->(m)")

使用大语言模型构建自然语言接口

使用 LangChain 提供的工具将自然语言映射到 Cypher 查询。

设置 Kùzu 图和查询链

from langchain.chains import KuzuQAChain
from langchain_community.graphs import KuzuGraph
from langchain_openai import ChatOpenAI

# 创建图对象
graph = KuzuGraph(db)

# 创建查询链
chain = KuzuQAChain.from_llm(
    llm=ChatOpenAI(temperature=0, model="gpt-3.5-turbo-16k"),
    graph=graph,
    verbose=True,
)

刷新图模式信息

如果数据库模式发生变化，可以刷新模式信息：

graph.refresh_schema()
print(graph.get_schema)

执行自然语言查询

我们可以通过调用链直接用自然语言进行查询。以下是一些示例：

查询出演《教父：第二部》的演员

response = chain.invoke("Who acted in The Godfather: Part II?")
print(response)

输出：

{'query': 'Who acted in The Godfather: Part II?',
 'result': 'Al Pacino, Robert De Niro acted in The Godfather: Part II.'}

查询 Robert De Niro 出演的电影

response = chain.invoke("Robert De Niro played in which movies?")
print(response)

输出：

{'query': 'Robert De Niro played in which movies?',
 'result': 'Robert De Niro played in The Godfather: Part II.'}

查询《教父：第二部》中最年长的演员

response = chain.invoke("Who is the oldest actor who played in The Godfather: Part II?")
print(response)

输出：

{'query': 'Who is the oldest actor who played in The Godfather: Part II?',
 'result': 'Al Pacino is the oldest actor who played in The Godfather: Part II.'}