回答了问题4 月 4 日
这个用 duckdb 来解决很方便(开源免费跨平台,单文件绿色程序,下载解压即用)SQL {代码...} 结果 {代码...}
回答了问题2024-09-23
js 代码 {代码...} 使用 {代码...}
回答了问题2024-07-12
来个偏门做法:如果你愿意引入 7 MB (gzip) 的 duckdb 模块,你可以将这 240 MB 数据,转成 50 MB 的数据库,前端花 0.5 s,将任意时间范围、时间间隔,降采样数据后,再展示出来。转换方法(约 8 秒。若用 csv 会更快,也支持 stdin 流式读取) {代码...} 前端查询截图
回答了问题2024-07-07
650 KB 的 BusyBox for Windows可以处理中文,但实际上不认识 Unicode,全部当 ascii 看待。所以正则 [] 里,无法使用 Unicode 字符,只能用 16 个分支的形式,匹配有点慢。如果源文件是 UTF-8,正则也需要转成 UTF-8。
回答了问题2024-07-07
用 xpath 匹配,香很多啊? {代码...} 结果: {代码...}
回答了问题2024-07-02
{代码...}
回答了问题2024-06-20
布隆过滤器?
回答了问题2024-06-15
代码 {代码...} 结果 {代码...}
回答了问题2024-06-04
之前写过,在一亿设备推送记录里(每分钟一次,长达两年),找哪些设备超过一天没反应。里面有用到类似你说的,《不断找 24 小时内最早记录,找不到则 24 小时外最晚记录》。效率上,浏览器里都能 0.2 秒,查 7W+ 次。本机只需 0.1 秒。你可以参考下,可能有帮助。
回答了问题2024-04-30
我在浏览器里,用 DuckDB 试了一下(在线重现(可能消耗 500 MB 内存)),用了 3 种方式实时生成 time_intervals 表,可在 1 秒内分组统计完 10,000,000 条数据,并在缺失处补 0。
回答了问题2024-04-30
js 代码 {代码...} 结果 {代码...}
赞了回答2024-04-17
{代码...}
赞了回答2023-07-31
{代码...}
赞了回答2023-07-22
只需要把 comment 声明为 局部 变量就行,bash 默认会让变量是全局的,local 可以显式声明局部变量会在函数执行完毕后自动清除 {代码...}
回答了问题2023-07-21
{代码...}
回答了问题2023-07-21
以下 SQL 用 SQLite 测试通过: {代码...}
回答了问题2023-07-21
{代码...}
回答了问题2023-07-19
{代码...}
回答了问题2023-07-15
{代码...}
回答了问题2023-07-14
{代码...}