Skip to content

Releases: linyqh/NarratoAI

v0.8.4

Choose a tag to compare

@linyqh linyqh released this 02 Jul 03:42
23591de

版本 0.8.4 发布

更新内容

  • Merge pull request #260 from linyqh/codex/doubao-tts-v084
  • feat: support Doubao TTS API key auth
  • Merge pull request #259 from LauraGPT/codex/funasr-openai-transcriptions
  • Support FunASR OpenAI transcription endpoint
  • Merge pull request #258 from mohit-twelvelabs/feat/twelvelabs-integration
  • feat(llm): 新增 TwelveLabs Pegasus 视频理解视觉提供商(可选)
  • Merge pull request #256 from kiritoxjf/main
  • 腾讯云TTS音色列表更新
  • 更新版本号
  • feat(short_drama_editing): 添加强短剧混剪剪辑脚本生成完整功能
  • chore(app/utils): 移除两个废弃的Gemini视觉分析工具文件
  • feat: 添加LLM驱动的字幕翻译功能
  • Merge pull request #251 from linyqh/develop

v0.8.3

Choose a tag to compare

@linyqh linyqh released this 14 Jun 17:34

版本 0.8.3 发布

更新内容

  • 更新版本号
  • feat(short_drama_editing): 添加强短剧混剪剪辑脚本生成完整功能
  • chore(app/utils): 移除两个废弃的Gemini视觉分析工具文件
  • feat: 添加LLM驱动的字幕翻译功能
  • Merge pull request #251 from linyqh/develop
  • feat(subtitle, ui): 新增字幕安全区预览,优化字体与字幕配置
  • Merge pull request #250 from linyqh/develop
  • feat: 更新文档
  • feat(webui, jianying): 添加自动字幕匹配功能并修复webui状态问题
  • feat: 新增视频生成进度追踪与WebUI展示,优化剪映导出功能
  • feat(ffmpeg,webui): 新增 FFmpeg 引擎管理与检测功能
  • feat: 新增原片字幕支持并优化视频合并流程
  • perf(clip_video): 优化FFmpeg剪辑命令为快速搜索模式,添加单元测试

v0.8.2

Choose a tag to compare

@linyqh linyqh released this 10 Jun 04:16
b9f07a6

v0.8.2

本版本主要优化字幕配置与预览体验,新增字幕安全区预览功能,方便在生成前检查字幕在横屏、竖屏画面中的显示位置和视觉效果。

新增

  • 新增字幕安全区预览,支持竖屏与横屏两种比例
  • 新增实时字幕样式预览,可查看字号、颜色、描边和位置效果
  • 新增竖屏、横屏安全区参考图资源

优化

  • 优化字幕位置设置交互,横屏和竖屏可分别调整
  • 字号上限提升至 160,适配更大字幕展示需求
  • 优化默认字幕字体配置,提升跨环境渲染稳定性
  • 优化字体资源初始化逻辑,检测到已有内置字体时跳过重复下载
  • 补充并更新中英文界面文案

其他

  • 项目版本更新至 0.8.2

v0.8.1

Choose a tag to compare

@linyqh linyqh released this 09 Jun 16:08
2fd397e

NarratoAI v0.8.1 发布

v0.8.1 是一次围绕“AI 解说视频工作台”的大版本更新。本版本将短剧解说、影视解说、字幕转录、多视频剪辑、AI 配音、字幕遮罩、生成进度展示和剪映草稿导出串成了更完整的内容生产流程。

主要更新

AI 解说工作流

  • 新增短剧解说完整流程,支持剧情分析、解说文案生成、脚本审核编辑、画面时间戳匹配和 JSON 脚本生成
  • 新增影视解说类型,适配电影、电视剧、短剧等更通用的视频解说场景
  • 支持 LLM 流式生成、通用生成参数配置和提示词体系优化
  • 支持联网搜索辅助识别剧情、人物关系和背景信息

字幕与 ASR

  • 新增阿里百炼 Fun-ASR 在线转录支持
  • 新增本地 FunASR 和 FireRedASR2 ASR 后端支持
  • 支持字幕上传、预览、校准和自动转录
  • 新增原片字幕处理与字幕遮罩能力,减少新旧字幕重叠
  • 支持横屏、竖屏分别配置字幕位置和遮罩区域

多视频剪辑

  • 支持多视频、多字幕素材处理
  • 脚本中保留 video_idvideo_name 等来源信息
  • 优化多视频时间戳匹配与剪辑流程,减少素材来源错位问题

配音能力

  • 新增和完善 IndexTTS2、OmniVoice 等 TTS 引擎支持
  • 支持参考音频选择、上传和预览
  • 优化 TTS 参数配置和 WebUI 使用体验

视频生成与剪映导出

  • 新增视频生成进度追踪和 WebUI 阶段展示
  • 优化视频合成、字幕处理和 FFmpeg 剪辑流程
  • 新增 FFmpeg / FFprobe 引擎检测与管理能力
  • 优化剪映草稿导出流程
  • 新增自动字幕匹配能力,减少剪映草稿导出后的手动处理成本

文档

  • 更新 0.8 系列功能说明文档
  • 新增 NarratoAI 0.8 微信文章和配套图片素材

修复与优化

  • 修复部分 WebUI 状态展示异常
  • 优化视频生成进度展示和页面视频预览
  • 优化 FFmpeg 剪辑命令,提升部分场景下的处理速度
  • 改进本地模型、字幕、视频生成和剪映导出相关体验

相关 Issues

本版本处理和关联以下问题:

#249 #248 #244 #243 #241 #234 #233 #232 #231 #230 #229 #228 #223 #215

v0.7.9

Choose a tag to compare

@linyqh linyqh released this 27 Apr 14:23

版本 0.7.9 发布说明

新功能

  1. 阿里百炼 Fun-ASR 字幕转录
    新增了对阿里百炼 Fun-ASR 音视频字幕转录功能的支持,为用户提供更强大的字幕生成能力。

  2. 剪映草稿导出
    新增了剪映(JianYing)草稿导出功能,方便用户将项目导出到剪映进行进一步编辑。

  3. 豆包TTS文本转语音
    新增了豆包(DouBao)文本转语音(TTS)功能,为用户提供更多语音合成选项。

改进

  1. 文档分析流程重构
    对纪录片(doucmentary)框架分析流程进行了重构,提高了处理效率和可靠性。

  2. README优化
    更新了项目版本至0.7.9,并对README文档内容进行了优化和完善。

Bug修复

  1. 剪映草稿导出问题
    修复了因音频时长浮点精度问题导致的剪映草稿导出失败的问题。

  2. 纪录片处理改进

    • 修复了流式进度值(streamlit progress)标准化问题
    • 修复了旁白解析和显式视觉覆盖的问题
    • 恢复了旁白修复和显式视觉覆盖功能
    • 修复了处理畸形旁白数据包时的问题

其他变更

  1. 项目版本号从0.7.8更新至0.7.9

本次更新带来了多项新功能和改进,特别是在字幕转录和视频编辑工具集成方面有了显著增强。同时修复了多个影响用户体验和功能稳定性的问题,建议所有用户升级到此版本。

v0.7.8

Choose a tag to compare

@linyqh linyqh released this 03 Apr 05:16
be653c5

版本 0.7.8 发布说明

新功能

  • 纪录片处理增强: 新增了失败批次的保留功能,并增加了视觉处理的并发能力
  • 性能优化: 实现了快速帧提取功能,并改进了缓存键机制

改进

  • 文档分析流水线重构: 通过共享分析服务路由适配器
  • 脚本生成优化: 将最终脚本生成集中到共享服务中
  • 缓存机制增强: 加固了快速路径回退机制和缓存键前缀

Bug修复

  • 进度显示问题: 修复了Streamlit进度值的规范化问题
  • 旁白解析问题: 修正了纪录片旁白解析和显式视觉覆盖的问题
  • 无效负载处理: 修复了对格式错误旁白负载的处理失败问题
  • 帧丢失问题: 解决了当批处理摘要缺失时丢失帧的问题
  • 响应验证: 在标记成功前验证批处理响应契约
  • 旁白修复: 恢复了旁白修复和显式视觉覆盖功能

性能

  • 新增了快速帧提取功能
  • 优化了缓存键机制以提高性能

这次更新主要针对纪录片处理功能进行了全面优化和修复,增强了系统的稳定性和处理能力。

v0.7.7

Choose a tag to compare

@linyqh linyqh released this 27 Mar 16:36

发布说明 v0.7.7

新功能

  1. OpenAI兼容接口迁移

    • 出于安全考虑,已移除LiteLLM依赖,统一使用OpenAI兼容请求链路
    • 完整迁移至OpenAI兼容接口,提高系统稳定性
  2. 语音功能增强

    • 添加对代理服务器的支持
    • 改进edge-tts字幕处理功能
  3. 短剧混剪功能优化

    • 添加字幕文本处理模块
    • 优化字幕读取和规范化逻辑

改进

  1. 配置系统重构

    • 重构配置系统以支持默认值设置
    • 实现模型名称规范化处理
  2. 短剧混剪功能增强

    • 优化字幕上传逻辑,与短剧解说功能保持一致
    • 优化短剧混剪提示词
    • 整体提升短剧混剪使用体验
  3. 文档更新

    • 在README文件中添加Speclip推荐说明
    • 更新项目文档

Bug修复

  1. 短剧混剪相关修复

    • 修复Windows环境下短剧混剪报错问题
    • 修复Windows环境下字幕加载失败问题
    • 修复AttributeError: 'NoneType' object has no attribute 'lower'错误
  2. 代码优化

    • 优化代码注释
    • 清理冗余代码

v0.7.6

Choose a tag to compare

@linyqh linyqh released this 24 Dec 05:50

版本 0.7.6 发布说明

🚀 新功能

  • 新增 IndexTTS2 零样本语音克隆引擎支持:为用户提供了更先进的语音克隆技术选项
  • 新增基础设置项:完善了软件的基础配置功能,并提供完整的中文翻译支持
  • 显示字幕引擎支持提示:增强了对字幕功能的支持提示

✨ 改进与优化

  • 短剧混剪功能优化
    • 优化了短剧混剪的提示词系统
    • 提升了短剧混剪的整体使用体验
  • 界面优化
    • 优化了标题样式,提升视觉一致性
    • 优化了代码注释的清晰度和完整性
  • 国际化支持
    • 更新了示例配置文件
    • 移除了日文README文件(坚决拥护中国🇨🇳领土主权🔥)

🐛 Bug修复

  • 修复了短剧混剪中出现的 AttributeError: 'NoneType' object has no attribute 'lower' 报错
  • 移除了开发调试过程中遗留的代码残留
  • 清空了服务端日志,确保用户隐私安全
  • 移除了未使用的 logger 导入
  • 移除了未使用的 tkinter 导入

⚠️ 重要提示

  • 建议所有用户重置 Key:由于安全更新,为确保最佳使用体验,建议用户重置密钥
  • 版本号更新:当前版本号已更新至 0.7.5

本次更新聚焦于语音克隆功能的增强、用户体验的优化以及各种稳定性修复,建议所有用户及时升级以获得最佳体验。

v0.7.5

Choose a tag to compare

@linyqh linyqh released this 19 Nov 16:03

版本 0.7.5 发布说明

新功能

  • 新增语音克隆引擎支持:集成 IndexTTS2 零样本语音克隆引擎
  • 字幕引擎提示功能:现在会显示当前使用的字幕引擎提示信息
  • 基础设置项:新增了基础设置面板并提供完整中文翻译支持
  • WebUI界面更新:改进了用户界面以支持新添加的功能
  • LLM服务配置优化:改进了大型语言模型服务的配置与迁移适配能力,同步更新了相关UI设置

改进

  • LiteLLM提供商增强:优化了LiteLLM供应商的配置选项
  • 设置界面国际化:基础设置界面现已提供完整中文翻译
  • 提示词优化:将"荒野建造"提示词修改为更通用的版本
  • 模型供应商管理:改用litellm统一管理模型供应商

Bug修复

  • 版本号更新:修正并同步了项目版本号为0.7.5
  • UI样式问题:优化了标题显示样式

其他变更

  • 合并了来自linyqh/pr-199分支的代码更新
  • 同步了origin/main分支的最新变更

这个版本主要带来了多项功能增强,特别是在语音克隆和字幕支持方面,同时改进了设置界面的用户体验和国际化支持。建议所有用户升级到此版本以获取最佳体验。

v0.7.4

Choose a tag to compare

@linyqh linyqh released this 21 Oct 03:50
5dcf2c4

发布说明 - 版本 0.7.4

新功能

  • 新增 qwen3 TTS 服务支持

改进

  • 使用 litellm 统一管理模型供应商
  • 优化 TTS 引擎选项,移除 SoulVoice 引擎相关设置
  • 修改荒野建造提示词为更加通用的提示词,提升适用性

Bug 修复

  • 修复 Tencent 云 TTS 音色设置在视频生成功能中无效的问题
  • 修复试听 TTS 功能的 bug
  • 修复 docker-compose.yml 中对于 resource 目录的只读权限问题
  • 更新版本号至 0.7.4

注意事项

建议所有用户升级到此版本以获得更稳定的 TTS 服务和改进的功能体验。