Releases: linyqh/NarratoAI
Release list
v0.8.4
版本 0.8.4 发布
更新内容
- Merge pull request #260 from linyqh/codex/doubao-tts-v084
- feat: support Doubao TTS API key auth
- Merge pull request #259 from LauraGPT/codex/funasr-openai-transcriptions
- Support FunASR OpenAI transcription endpoint
- Merge pull request #258 from mohit-twelvelabs/feat/twelvelabs-integration
- feat(llm): 新增 TwelveLabs Pegasus 视频理解视觉提供商(可选)
- Merge pull request #256 from kiritoxjf/main
- 腾讯云TTS音色列表更新
- 更新版本号
- feat(short_drama_editing): 添加强短剧混剪剪辑脚本生成完整功能
- chore(app/utils): 移除两个废弃的Gemini视觉分析工具文件
- feat: 添加LLM驱动的字幕翻译功能
- Merge pull request #251 from linyqh/develop
v0.8.3
版本 0.8.3 发布
更新内容
- 更新版本号
- feat(short_drama_editing): 添加强短剧混剪剪辑脚本生成完整功能
- chore(app/utils): 移除两个废弃的Gemini视觉分析工具文件
- feat: 添加LLM驱动的字幕翻译功能
- Merge pull request #251 from linyqh/develop
- feat(subtitle, ui): 新增字幕安全区预览,优化字体与字幕配置
- Merge pull request #250 from linyqh/develop
- feat: 更新文档
- feat(webui, jianying): 添加自动字幕匹配功能并修复webui状态问题
- feat: 新增视频生成进度追踪与WebUI展示,优化剪映导出功能
- feat(ffmpeg,webui): 新增 FFmpeg 引擎管理与检测功能
- feat: 新增原片字幕支持并优化视频合并流程
- perf(clip_video): 优化FFmpeg剪辑命令为快速搜索模式,添加单元测试
v0.8.2
v0.8.2
本版本主要优化字幕配置与预览体验,新增字幕安全区预览功能,方便在生成前检查字幕在横屏、竖屏画面中的显示位置和视觉效果。
新增
- 新增字幕安全区预览,支持竖屏与横屏两种比例
- 新增实时字幕样式预览,可查看字号、颜色、描边和位置效果
- 新增竖屏、横屏安全区参考图资源
优化
- 优化字幕位置设置交互,横屏和竖屏可分别调整
- 字号上限提升至 160,适配更大字幕展示需求
- 优化默认字幕字体配置,提升跨环境渲染稳定性
- 优化字体资源初始化逻辑,检测到已有内置字体时跳过重复下载
- 补充并更新中英文界面文案
其他
- 项目版本更新至
0.8.2
v0.8.1
NarratoAI v0.8.1 发布
v0.8.1 是一次围绕“AI 解说视频工作台”的大版本更新。本版本将短剧解说、影视解说、字幕转录、多视频剪辑、AI 配音、字幕遮罩、生成进度展示和剪映草稿导出串成了更完整的内容生产流程。
主要更新
AI 解说工作流
- 新增短剧解说完整流程,支持剧情分析、解说文案生成、脚本审核编辑、画面时间戳匹配和 JSON 脚本生成
- 新增影视解说类型,适配电影、电视剧、短剧等更通用的视频解说场景
- 支持 LLM 流式生成、通用生成参数配置和提示词体系优化
- 支持联网搜索辅助识别剧情、人物关系和背景信息
字幕与 ASR
- 新增阿里百炼 Fun-ASR 在线转录支持
- 新增本地 FunASR 和 FireRedASR2 ASR 后端支持
- 支持字幕上传、预览、校准和自动转录
- 新增原片字幕处理与字幕遮罩能力,减少新旧字幕重叠
- 支持横屏、竖屏分别配置字幕位置和遮罩区域
多视频剪辑
- 支持多视频、多字幕素材处理
- 脚本中保留
video_id、video_name等来源信息 - 优化多视频时间戳匹配与剪辑流程,减少素材来源错位问题
配音能力
- 新增和完善 IndexTTS2、OmniVoice 等 TTS 引擎支持
- 支持参考音频选择、上传和预览
- 优化 TTS 参数配置和 WebUI 使用体验
视频生成与剪映导出
- 新增视频生成进度追踪和 WebUI 阶段展示
- 优化视频合成、字幕处理和 FFmpeg 剪辑流程
- 新增 FFmpeg / FFprobe 引擎检测与管理能力
- 优化剪映草稿导出流程
- 新增自动字幕匹配能力,减少剪映草稿导出后的手动处理成本
文档
- 更新 0.8 系列功能说明文档
- 新增 NarratoAI 0.8 微信文章和配套图片素材
修复与优化
- 修复部分 WebUI 状态展示异常
- 优化视频生成进度展示和页面视频预览
- 优化 FFmpeg 剪辑命令,提升部分场景下的处理速度
- 改进本地模型、字幕、视频生成和剪映导出相关体验
相关 Issues
本版本处理和关联以下问题:
#249 #248 #244 #243 #241 #234 #233 #232 #231 #230 #229 #228 #223 #215
v0.7.9
版本 0.7.9 发布说明
新功能
-
阿里百炼 Fun-ASR 字幕转录
新增了对阿里百炼 Fun-ASR 音视频字幕转录功能的支持,为用户提供更强大的字幕生成能力。 -
剪映草稿导出
新增了剪映(JianYing)草稿导出功能,方便用户将项目导出到剪映进行进一步编辑。 -
豆包TTS文本转语音
新增了豆包(DouBao)文本转语音(TTS)功能,为用户提供更多语音合成选项。
改进
-
文档分析流程重构
对纪录片(doucmentary)框架分析流程进行了重构,提高了处理效率和可靠性。 -
README优化
更新了项目版本至0.7.9,并对README文档内容进行了优化和完善。
Bug修复
-
剪映草稿导出问题
修复了因音频时长浮点精度问题导致的剪映草稿导出失败的问题。 -
纪录片处理改进
- 修复了流式进度值(streamlit progress)标准化问题
- 修复了旁白解析和显式视觉覆盖的问题
- 恢复了旁白修复和显式视觉覆盖功能
- 修复了处理畸形旁白数据包时的问题
其他变更
- 项目版本号从0.7.8更新至0.7.9
本次更新带来了多项新功能和改进,特别是在字幕转录和视频编辑工具集成方面有了显著增强。同时修复了多个影响用户体验和功能稳定性的问题,建议所有用户升级到此版本。
v0.7.8
版本 0.7.8 发布说明
新功能
- 纪录片处理增强: 新增了失败批次的保留功能,并增加了视觉处理的并发能力
- 性能优化: 实现了快速帧提取功能,并改进了缓存键机制
改进
- 文档分析流水线重构: 通过共享分析服务路由适配器
- 脚本生成优化: 将最终脚本生成集中到共享服务中
- 缓存机制增强: 加固了快速路径回退机制和缓存键前缀
Bug修复
- 进度显示问题: 修复了Streamlit进度值的规范化问题
- 旁白解析问题: 修正了纪录片旁白解析和显式视觉覆盖的问题
- 无效负载处理: 修复了对格式错误旁白负载的处理失败问题
- 帧丢失问题: 解决了当批处理摘要缺失时丢失帧的问题
- 响应验证: 在标记成功前验证批处理响应契约
- 旁白修复: 恢复了旁白修复和显式视觉覆盖功能
性能
- 新增了快速帧提取功能
- 优化了缓存键机制以提高性能
这次更新主要针对纪录片处理功能进行了全面优化和修复,增强了系统的稳定性和处理能力。
v0.7.7
发布说明 v0.7.7
新功能
-
OpenAI兼容接口迁移
- 出于安全考虑,已移除LiteLLM依赖,统一使用OpenAI兼容请求链路
- 完整迁移至OpenAI兼容接口,提高系统稳定性
-
语音功能增强
- 添加对代理服务器的支持
- 改进edge-tts字幕处理功能
-
短剧混剪功能优化
- 添加字幕文本处理模块
- 优化字幕读取和规范化逻辑
改进
-
配置系统重构
- 重构配置系统以支持默认值设置
- 实现模型名称规范化处理
-
短剧混剪功能增强
- 优化字幕上传逻辑,与短剧解说功能保持一致
- 优化短剧混剪提示词
- 整体提升短剧混剪使用体验
-
文档更新
- 在README文件中添加Speclip推荐说明
- 更新项目文档
Bug修复
-
短剧混剪相关修复
- 修复Windows环境下短剧混剪报错问题
- 修复Windows环境下字幕加载失败问题
- 修复
AttributeError: 'NoneType' object has no attribute 'lower'错误
-
代码优化
- 优化代码注释
- 清理冗余代码
v0.7.6
版本 0.7.6 发布说明
🚀 新功能
- 新增 IndexTTS2 零样本语音克隆引擎支持:为用户提供了更先进的语音克隆技术选项
- 新增基础设置项:完善了软件的基础配置功能,并提供完整的中文翻译支持
- 显示字幕引擎支持提示:增强了对字幕功能的支持提示
✨ 改进与优化
- 短剧混剪功能优化:
- 优化了短剧混剪的提示词系统
- 提升了短剧混剪的整体使用体验
- 界面优化:
- 优化了标题样式,提升视觉一致性
- 优化了代码注释的清晰度和完整性
- 国际化支持:
- 更新了示例配置文件
- 移除了日文README文件(坚决拥护中国🇨🇳领土主权🔥)
🐛 Bug修复
- 修复了短剧混剪中出现的
AttributeError: 'NoneType' object has no attribute 'lower'报错 - 移除了开发调试过程中遗留的代码残留
- 清空了服务端日志,确保用户隐私安全
- 移除了未使用的 logger 导入
- 移除了未使用的 tkinter 导入
⚠️ 重要提示
- 建议所有用户重置 Key:由于安全更新,为确保最佳使用体验,建议用户重置密钥
- 版本号更新:当前版本号已更新至 0.7.5
本次更新聚焦于语音克隆功能的增强、用户体验的优化以及各种稳定性修复,建议所有用户及时升级以获得最佳体验。
v0.7.5
版本 0.7.5 发布说明
新功能
- 新增语音克隆引擎支持:集成 IndexTTS2 零样本语音克隆引擎
- 字幕引擎提示功能:现在会显示当前使用的字幕引擎提示信息
- 基础设置项:新增了基础设置面板并提供完整中文翻译支持
- WebUI界面更新:改进了用户界面以支持新添加的功能
- LLM服务配置优化:改进了大型语言模型服务的配置与迁移适配能力,同步更新了相关UI设置
改进
- LiteLLM提供商增强:优化了LiteLLM供应商的配置选项
- 设置界面国际化:基础设置界面现已提供完整中文翻译
- 提示词优化:将"荒野建造"提示词修改为更通用的版本
- 模型供应商管理:改用litellm统一管理模型供应商
Bug修复
- 版本号更新:修正并同步了项目版本号为0.7.5
- UI样式问题:优化了标题显示样式
其他变更
- 合并了来自linyqh/pr-199分支的代码更新
- 同步了origin/main分支的最新变更
这个版本主要带来了多项功能增强,特别是在语音克隆和字幕支持方面,同时改进了设置界面的用户体验和国际化支持。建议所有用户升级到此版本以获取最佳体验。
v0.7.4
发布说明 - 版本 0.7.4
新功能
- 新增 qwen3 TTS 服务支持
改进
- 使用 litellm 统一管理模型供应商
- 优化 TTS 引擎选项,移除 SoulVoice 引擎相关设置
- 修改荒野建造提示词为更加通用的提示词,提升适用性
Bug 修复
- 修复 Tencent 云 TTS 音色设置在视频生成功能中无效的问题
- 修复试听 TTS 功能的 bug
- 修复 docker-compose.yml 中对于 resource 目录的只读权限问题
- 更新版本号至 0.7.4
注意事项
建议所有用户升级到此版本以获得更稳定的 TTS 服务和改进的功能体验。