SPL 处理多层 JSON 数据比 DuckDB 方便多了

简介: esProc SPL 处理多层 JSON 数据比 DuckDB 更便捷,尤其在保留 JSON 层次与复杂计算时优势明显。DuckDB 虽能通过 `read_json_auto()` 将 JSON 解析为表格结构,但面对深层次或复杂运算时,SQL 需频繁使用 UNNEST、子查询等结构,逻辑易变得繁琐。而 SPL 以集合运算方式直接处理子表,代码更简洁直观,无需复杂关联或 Lambda 语法,同时保持 JSON 原始结构。esProc SPL 开源免费,适合复杂 JSON 场景,欢迎至乾学院探索!

esProc SPL 处理多层 JSON 数据要比 DuckDB 方便很多,尤其需要保留 JSON 层次以及进行复杂计算时。

DuckDB 的 JSON 处理能力还是不错的,read_json_auto() 能直接把 JSON 解析成表格结构,直接对着多层数据操作就行:

SELECT order_id, order_date, json_extract(customer, '$.name') AS cusName,json_extract(customer, '$.city') AS cusCity FROM read_json_auto('orders.json')

SPL 做这种基本运算会更简单:

json(file("orders.json").read()).new(order_id, order_date,customer.name:cusname,customer.city:cuscity)

直接用点(.)取子层级数据,很直观。

稍复杂的运算,比如要计算某个订单数据里的 Electronics 分类的销售金额。用 DuckDB 需要展开 order_details,再筛选 category=‘Electronics’,然后求个 SUM(price * quantity)。

SELECT sum(od.quantity*od.price) amount
FROM read_json_auto('orders.json') AS o,
LATERAL UNNEST(o.order_details) AS t(od),
LATERAL UNNEST([od.product]) AS t(p)
WHERE p.category = 'Electronics'

为了完成这样的计算,SQL 要把子表和主表关联起来做内接连来实现过滤,已经有点绕了,但还是不算非常复杂。

SPL 则可以直接将子表当集合运算:

json(file("order3.json").read()).conj(order_details).select(product.category=="Electronics").sum(quantity*price)

一句写完, 不需要做关联,逻辑简单,比 DuckDB 的优势就更明显了。

情况再复杂点,比如要先筛选 Electronics 类的订单明细,再剔除订单金额低于 200 的订单,DuckDB 的 SQL 就开始变得难写了。展开 order_details 之后要再聚合计算订单金额,然后再基于这个结果筛选符合条件的订单,再做嵌套查询或者用 CTE 才能保持数据结构的完整性,SQL 一长,调试起来就不太友好了。用 lambda 语法能简单一些,但和传统 SQL 形式大相径庭了。

SELECT
    o.order_id, 
    LIST_FILTER(o.order_details, x -> x.product.category = 'Electronics') AS order_details
FROM read_json_auto(orders.json') AS o
WHERE 
    ARRAY_LENGTH(LIST_FILTER(o.order_details, x -> x.product.category = 'Electronics')) > 0
    AND SUM(
        LIST_FILTER(o.order_details, x -> x.product.category = 'Electronics') -> 
            (x -> x.price * x.quantity)
    ) > 200;

SPL 代码依然很自然:

=A2.select(order_details.select@1(product.category=="Electronics") && order_details.sum(price*quantity)>200)

还是一句,将子表作为集合处理就行了。不涉及烧脑的子查询和 Lambda 语法,不管多少层直接引用,过滤、聚合直接整就完了。而且 SPL 还能保持 JSON 的多层结构,不需要折腾 GROUP BY 和 LATERAL UNNEST 之类的复杂 SQL。

DuckDB 确实对 JSON 处理得不错,但写起来还是要倒腾 UNNEST 之类的 SQL 结构,层次一多就显得麻烦。而 SPL 直接按 JSON 的多层结构处理,既能方便筛选、聚合,又能保持数据的原始层次,显然更适合应对复杂 JSON 计算场景。

esProc SPL是开源免费的,欢迎前往乾学院了解更多!

相关文章
|
5月前
|
JSON API 数据安全/隐私保护
深度分析淘宝卖家订单详情API接口,用json返回数据
淘宝卖家订单详情API(taobao.trade.fullinfo.get)是淘宝开放平台提供的重要接口,用于获取单个订单的完整信息,包括订单状态、买家信息、商品明细、支付与物流信息等,支撑订单管理、ERP对接及售后处理。需通过appkey、appsecret和session认证,并遵守调用频率与数据权限限制。本文详解其使用方法并附Python调用示例。
|
3月前
|
JSON API 数据格式
淘宝拍立淘按图搜索API系列,json数据返回
淘宝拍立淘按图搜索API系列通过图像识别技术实现商品搜索功能,调用后返回的JSON数据包含商品标题、图片链接、价格、销量、相似度评分等核心字段,支持分页和详细商品信息展示。以下是该API接口返回的JSON数据示例及详细解析:
|
3月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
4月前
|
机器学习/深度学习 JSON 监控
淘宝拍立淘按图搜索与商品详情API的JSON数据返回详解
通过调用taobao.item.get接口,获取商品标题、价格、销量、SKU、图片、属性、促销信息等全量数据。
|
3月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
4月前
|
JSON 缓存 自然语言处理
多语言实时数据微店商品详情API:技术实现与JSON数据解析指南
通过以上技术实现与解析指南,开发者可高效构建支持多语言的实时商品详情系统,满足全球化电商场景需求。
|
4月前
|
JSON API 数据格式
干货满满!淘宝商品详情数据,淘宝API(json数据返回)
淘宝商品详情 API 接口(如 taobao.item.get)的 JSON 数据返回示例如下
|
5月前
|
JSON 算法 安全
淘宝商品详情API接口系列,json数据返回
淘宝开放平台提供了多种API接口用于获取商品详情信息,主要通过 淘宝开放平台(Taobao Open Platform, TOP) 的 taobao.tbk.item.info.get(淘宝客商品详情)或 taobao.item.get(标准商品API)等接口实现。以下是关键信息及JSON返回示例:
|
3月前
|
JSON 中间件 Java
【GoGin】(3)Gin的数据渲染和中间件的使用:数据渲染、返回JSON、浅.JSON()源码、中间件、Next()方法
我们在正常注册中间件时,会打断原有的运行流程,但是你可以在中间件函数内部添加Next()方法,这样可以让原有的运行流程继续执行,当原有的运行流程结束后再回来执行中间件内部的内容。​ c.Writer.WriteHeaderNow()还会写入文本流中。可以看到使用next后,正常执行流程中并没有获得到中间件设置的值。接口还提供了一个可以修改ContentType的方法。判断了传入的状态码是否符合正确的状态码,并返回。在内部封装时,只是标注了不同的render类型。再看一下其他返回的类型;
195 3
|
3月前
|
JSON Java Go
【GoGin】(2)数据解析和绑定:结构体分析,包括JSON解析、form解析、URL解析,区分绑定的Bind方法
bind或bindXXX函数(后文中我们统一都叫bind函数)的作用就是将,以方便后续业务逻辑的处理。
291 3