zhangnew

回答了问题2023-06-01
上百万的数据做实时统计，怎样优化1s之内返回结果？
zhangnew
可以用 Clickhouse 的 MySQL 后端，也可以直接同步到 Clickhouse 内部，取决于你的实时性；实时性最高的方案是，插入 MySQL 的时候，把行数用 Redis 缓存起来，来一条数据就+1，只统计行数的话，这样速度最快；
回答了问题2022-12-27
二进制文件或者视频、音频、文档文件如何写入数据湖，如何使用？
zhangnew
目前 hudi、iceberg 等数据湖方案，都是基于 HDFS 或者对象存储实现的，这些底层存储天然就支持二进制文件的读写，只需要当成一个文件系统去用就好了；
赞了回答2022-09-28
xxl-job的xxl是什么意思，是什么的缩写呢？
陟上晴明
啊这...OP你的截图里面不是说了么，XXL就是作者名字首字母的缩写啊？😂
赞了文章2022-09-20
AI数字绘画 stable-diffusion 保姆级教程
 程序员秋风
简介————————近段时间来，你可能在不少地方都看到了非常多这样的好看的画。比如这样的赛博朋克风prompt: Cyberpunk, 8k resolution, castle, the rose sea, dream水墨画风格prompt: a watercolor ink painting of a fallen angel with a broken halo wielding a jagg...
回答了问题2022-09-20
hadoop没有分区的文件放到哪里？
zhangnew
你说的对，不过实际的还取决于你用的什么计算引擎，如果是 hive、原生 Spark，是的直接在表目录下；如果是一些数据湖引擎，比如 iceberg 或 hudi，就会有额外的目录；
回答了问题2022-09-20
spark的查询速度慢如何优化？
zhangnew
如果表很大，可以做分区，少查询一些数据；如果数据不大，可以排查一下为什么慢，磁盘、网络、CPU 等，以及 Spark WebUI 看看 task 执行情况；
回答了问题2022-09-20
spark 用伪分布式部署 worker 只能启动一个吗？
zhangnew
在 spark/conf/spark-env.sh 里面配置环境变量 SPARK_WORKER_INSTANCES=4 就是启动 4 个 worker，详见文档：[链接]
回答了问题2022-09-20
spark UI是不是能设置页面菜单显示
 zhangnew
因为你看错了，你看的是 Master 的页面，是没有菜单的，点开一个 App 去看就有你说的菜单了，比如 4040 端口
回答了问题2022-09-20
有关hadoop的端口疑问?
zhangnew
参考官方文档：[链接]根据自己实际情况修改链接中间的版本号，比如我发的是 2.10.0 版本的
回答了问题2022-09-20
在使用spark2.4.0的版本时候出现了数据重复的现象该如何解决？
zhangnew
首先解决 OOM 问题，对任务做一些优化，或者加大内存；其次解决输出的幂等问题，比如根据数据库主键做 upsert；
回答了问题2022-09-20
Hadoop 和 BI 如何结合？
zhangnew
Alluxio 官方问出这种问题？首先 hive 做 BI 也太慢了吧。其次：做 BI 前端有很多，比如 superset、dataease
回答了问题2022-09-20
spark sql 更改返回的datafram指定字段数据为随机字典值？
zhangnew
用 org.apache.spark.sql.functions.rand 做随机，比如： {代码...}
赞了文章2021-08-03
js脚本改变输入框值触发input事件
 joga
使用js模拟用户输入数据，改变input的value值，在提交的时候无效果，在一番寻找下，原来就因为没有触发绑定的input事件，使用原生js代码完美解决
回答了问题2020-08-07
python 中去除字典列表中的重复字典
 zhangnew
你把它分解来看就好了, 第一步把 dict 列表转成 tuple 列表, {代码...} 然后外面加个 set() 去重, 最后把去重后的 tuple set 转成 dict list
赞了文章2020-06-12
树莓派学习手记——制作一个空调遥控器（红外接收、发射的实现）
Keif
使用树莓派搭配红外管，进行接收、发射红外信号是很方便的，同时红外信号也有很广泛的用途。这次我们将总结使用树莓派制作一个空调红外遥控器的过程。
发布了文章2020-04-11
百度飞桨 paddlepaddle 初体验
 zhangnew
这几天报名参加了百度的免费培训深度学习7日入门-CV疫情特辑，学到了好多东西，本来是有 Python 基础的，但是对算法不熟，磕磕绊绊的也都学了下来，感觉百度的 PaddlePaddle、PaddleHub、AI Studio 都还不错。
回答了问题2019-11-14
hexo有没有像hexo官方api那样的主题?
zhangnew
[链接] Hexo 官网的代码，自己随便改就行了
回答了问题2019-09-06
SparkSql调用hive Insert语句执行超级慢
 zhangnew
你可以把数据保存成 parquet 或者 orc 格式，作为 hive 的外部表加载，这样很快。
赞了文章2019-03-04
高效 Mac 人士必备：实现工作/家庭间网络环境切换的自动化
 JeffMa
不知在看本文的你是否正处于如下情形：自带的Mac 设备（特指MacBook/Air/Pro 等苹果笔记本）在公司跟家里，因为使用的网络环境不同常常需要来回修改。就Jeff 本身来说，在公司的时候我会连接到公司的办公WiFi，打开内部通讯工具，Proxifier 等工作专用APP，甚至要将...
回答了问题2019-02-26
怎么在ubuntu集成开发环境里开始写spark代码？
zhangnew
2019年了，就不要用 eclipse 了，用 IDEA 吧，学学 sbt，在命令行也能写

加载更多