发布了文章7 月 4 日
01 概述火山引擎存储技术团队驱动 AI 自主完成用户体验走查 / 可用性测试的执行与评价,帮助业务改善交互体验。立项“故事走查”的背景诉求和 AI 机遇如何搭建“AI 评价”能力,精准识别交互问题让交互体验故事走查变为技术产品,讲解系统设计,包括流程、User Story 维...
发布了文章7 月 3 日
[链接][链接]抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用 256 块显卡,在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。该...
发布了文章6 月 17 日
本文介绍NeurIPS 2024录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个OCR领域的大一统多模态文字理解与生成大模型,即TextHarmony。TextHarmony不仅精通视觉文本的感知(文字检测识别等)、理解(KIE、VQA等)和生成...
发布了文章4 月 25 日
最近大家都在聊 MCP,发现有个最重要的点被忽略了 『通过标准化协议,将工具提供方与应用研发者解耦』 ,这一点带来的将是 AI Agent 应用研发范式的转移(类似 Web 应用研发的前后端分离)。 本文以开发 Agent TARS 应用为例,尽可能详细地介绍 MCP 在『开发范式』、...
发布了文章4 月 15 日
在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。传统的重调度框架主要集中在识别异常节点或任务,并通过迁移或删除来解决。然而,这些框架往往只能解决局部问题,无法提供全局最优的调度方案,且容易出现多重调度策略冲突...
发布了文章4 月 3 日
在大模型时代到来之前,开源合规一直是开源领域备受关注的重要话题。如今,随着大模型的蓬勃发展,开源合规的重要性愈发凸显,成为不容忽视的关键问题。例如,不同大模型采用了多种不同的开源协议。有的模型采用传统的开源协议,如 MIT 协议,这种协议通常允许用户自...
发布了文章4 月 2 日
然而,当企业业务规模突破百万节点大关,大规模集群联邦的弊端也开始凸显:复杂业务场景下,资源调度与负载均衡复杂度激增,发布与运维成本增加,容灾能力因故障域扩大而削弱,与此同时,异构环境兼容性、安全治理及成本优化等问题也进一步加剧了大规模集群联邦的稳...
发布了文章3 月 28 日
虚拟索引技术(virtual index,也称为 hypothetical index)在数据库系统的查询优化、索引推荐等场景中扮演着关键角色。简单来说,虚拟索引可以理解为数据库的'沙盘推演'系统——无需真实构建索引,仅基于统计信息即可精准模拟不同索引方案对查询计划的优化效果。由于...
发布了文章3 月 20 日
Midscene.js 是由字节跳动 Web Infra 团队全新开源的 UI 自动化工具。通过引入多模态 AI 推理能力,Midscene.js 将帮助开发者打破传统 UI 自动化难于编写和维护的困境。本文由字节跳动 Web Infra Al 负责人茅晓锋于阿里巴巴第十九届 D2 终端技术大会演讲实录整理而成。
发布了文章3 月 18 日
本文详细介绍了如何通过 AIBrix 分布式推理平台实现 DeepSeek-R1 671B 的多节点部署。DeepSeek-R1 通过渐进式训练框架展现出优秀的逻辑推理能力 —— 在 6710 亿总参数量中,其动态激活的 370 亿参数与 128k 上下文窗口,使其在复杂任务处理中表现卓越。然而,如此庞大...
发布了文章3 月 17 日
FlowGram 是一套基于节点编辑的流程搭建引擎,帮助开发者快速创建固定布局或自由连线布局的流程,并提供一套交互的最佳实践, 很适合有明确输入和输出的可视化工作流。Github: [链接]官网:[链接]
发布了文章3 月 10 日
vArmor 是字节跳动开源的云原生容器沙箱系统,它借助 Linux 的 AppArmor LSM,BPF LSM 和 Seccomp 技术进行容器加固。用户可以通过 vArmor 的 CRD API 在 Kubernetes 集群中管理安全策略,对指定工作负载的容器进行加固。vArmor 旨在降低利用现有技术加固容器的门槛...
发布了文章3 月 7 日
AIBrix 项目目前已经开源,本文为AIBrix 技术解析。详见: 🔗 vLLM 博客:_[链接] 🔗 代码仓库:_[链接] 🔗 技术详解博客:_[链接]01前言随着 LLaMA、DeepSeek、Qwen 等开源大模型的快速崛起,企业在模型部署的灵活性、成本与自主可控性方面迎来了新的机遇。然而,仅靠...
发布了文章2 月 26 日
2025 年开年,DeepSeek 开源模型以“低成本、高性能”成功掀起 AI 平价化浪潮,并以惊人的速度渗透至各个领域。在 AI 平价化浪潮的推动下,微服务架构正迎来前所未有的变革机遇。微服务架构通过将系统拆解为多个小型、独立的服务,每个服务运行在自己的进程中,负责特...
发布了文章2024-08-30
8 月 31 日 13:30,Apache Doris x 字节跳动开源联合 Meetup 北京站即将开启。多位来自抖音集团的数据工程师,将聚焦电商场景、PB级实时场景,带来数据技术实战分享。现场参会名额有限,感兴趣的同学抓紧报名占位!本次活动报名席位有限,我们将基于提交的报名信息进...
发布了文章2024-02-21
ByConity 是字节跳动开源的云原生数据仓库,在满足数仓用户对资源弹性扩缩容,读写分离,资源隔离,数据强一致性等多种需求的同时,并提供优异的查询,写入性能。
发布了文章2024-01-12
新年伊始,我们想在这里感谢一群 ByConity 社区的小伙伴们。正是因为有社区的开发者的支持,截止到 2023 年底,ByConity GitHub 获得 1409 Star,595 pull request,累计 61 位 Contributor 共建者参与代码贡献,社区主办活动超过 10 场,来自知乎、MetaApp、天翼云...
发布了文章2023-12-22
各位的社区小伙伴们大家好,ByConity 0.3.0 版本于 12 月 18 日正式发布了,此版本提供了倒排索引,基于共享存储的选主方式等多项新特性,对冷读性能进行了进一步的优化,对 ELT 能力也进行了进一步的迭代,同时修复了若干已知问题,进一步提升了系统的性能和稳定性...
发布了文章2023-09-22
谈到数据仓库, 一定离不开使用Extract-Transform-Load (ETL)或 Extract-Load-Transform (ELT)。 将来源不同、格式各异的数据提取到数据仓库中,并进行处理加工。传统的数据转换过程一般采用Extract-Transform-Load (ETL)来将业务数据转换为适合数仓的数据模型,然而...
发布了文章2023-09-19
各位的社区小伙伴们大家好,我们很高兴的宣布,ByConity 0.2.0 版本正式发布了,这个版本提供多项有用的新特性,同时修复了若干已知的问题,进一步提升了系统的性能和稳定性。