【第十三届“*泰迪杯*”数据挖掘挑战赛】【2025泰迪杯C题】【快速实现教程】【开源掀桌版】

OpenDataLab MinerU 智能文档理解

OpenDataLab MinerU 智能文档理解

图文对话
图像识别

基于OpenDataLab/MinerU2.5-1.2B模型,提供智能文档与图表理解服务,支持OCR文字提取与学术论文解析

【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯C题】【快速实现教程】【开源掀桌版】

写在前面

  • 之前承诺要做C题,现在来不及了,具体实现与优化、还有写论文的创新点相关内容网址都一并写在下面
  • C题本身就是开源框架+自己优化数据结构化方式+提升知识库检索技巧;不多搞了,直接掀桌!!、答案摆你面前,抄吧
  • 题目说了,只有18个竞赛手册PDF文件,所以数据量不大,完全可以动手实现,不需要代码!!

实现流程

一、快速实现langchain-chatchatv2版本

​ v3版面多了一些工具,但会多很多调试,一不注意就会报错,v2版本是LLM对话和知识库对话,完全够用C题。

1、autodl平台找开源镜像

https://www.codewithgpu.com/image?search=Langchain-Chatchat

选择v2版本,进去根据镜像创建实例即可,然后根据教程,命令行启动该框架即可。这样一个知识库对话应用界面就出来了。
在这里插入图片描述
在这里插入图片描述

实例开机后,直接命令行终端:输入bash run.sh
在这里插入图片描述

启动后,通过隧道工具,去自定义服务里下载隧道工具软件包,填入ssh指令与代码,映射出本地访问网址,直接进入应用界面:

在这里插入图片描述

进入后选择知识库对话:

以及上传知识库文件。

在这里插入图片描述

这样,就快速实现了。它本身就是有检索知识库回答,只是检索用的是相似度检索,不是rerank重排序。 不过不影响,只要知识库制作的结构化好,问题也能准确回答。

二、知识库处理与管理

在知识库的上传之前,可以先直接什么都不做,直接上传赛题PDF文件

在这里插入图片描述

通过查看它自带的test.TXT文件,你就会发现,它本身内容是对这个项目的github的问题回答,如下:

它会有一定的结构性,类似于markdown文档的标题结构、具有一级二级三级。

所以我们也可以对pdf文档做预处理,处理为md文档,然后转为txt,上传知识库

在这里插入图片描述

PDF预处理:

这本来最开始是自己写代码开发,利用PDF库文件和VL大模型进行理解PDF结构格式,转为MD文档。后面发现了一个很好用的、免费的、开源的工具。并且具有实例网站。 MinerU

https://huggingface.co/spaces/opendatalab/MinerU

上传文档,点击转换,下载转换文件zip即可,里面有json与md文档,如预览的一样。
在这里插入图片描述

然后将MD文档,上传至知识库即可。即可进行回答问题,至于赛题的问题一、三。完全可以自己手动去问答,获取回答整理为result的excel

在这里插入图片描述

三、至于论文相关写作辅助

以下是我整理的一些链接,相信你读完后,会知道怎么写,会明白这个知识库问答是个什么。其创新点、优化提示方式都在链接文章中:

https://www.53ai.com/news/RAG/2025031378932.html

https://www.51cto.com/aigc/2959.html

https://zhuanlan.zhihu.com/p/1888226234275709019

https://blog.csdn.net/a2875254060/article/details/139322362

https://blog.csdn.net/wshzd/article/details/136779760

https://blog.csdn.net/qq_41739364/article/details/136129551#:~:text=1%20%E6%96%87%E6%A1%A3%E8%A7%A3%E6%9E%90%E4%B8%8E%E5%88%86%E5%9D%97%EF%BC%9A%E5%B0%86PDF%E6%96%87%E6%A1%A3%E5%86%85%E5%AE%B9%E8%A7%A3%E6%9E%90%E4%B8%BA%E7%BB%93%E6%9E%84%E5%8C%96%E7%9A%84%E5%BD%A2%E5%BC%8F%EF%BC%8C%E5%A6%82%E6%AE%B5%E8%90%BD%E3%80%81%E6%A0%87%E9%A2%98%E3%80%81%E8%A1%A8%E6%A0%BC%E5%92%8C%E5%9B%BE%E5%83%8F%E7%AD%89%EF%BC%8C%E5%B9%B6%E8%BF%9B%E4%B8%80%E6%AD%A5%E5%B0%86%E8%BF%99%E4%BA%9B%E5%86%85%E5%AE%B9%E5%88%86%E6%88%90%E6%9B%B4%E5%B0%8F%E7%9A%84%E5%9D%97%EF%BC%88Chunks%EF%BC%89%E3%80%82%20%E6%AF%8F%E7%AF%87%E5%8C%BB%E5%AD%A6%E8%AE%BA%E6%96%87%E9%83%BD%E8%A2%AB%E8%A7%A3%E6%9E%90%E6%88%90%E7%BB%93%E6%9E%84%E5%8C%96%E5%86%85%E5%AE%B9%EF%BC%8C%E5%85%B6%E4%B8%AD%E6%AE%B5%E8%90%BD%E3%80%81%E6%A0%87%E9%A2%98%E3%80%81%E8%A1%A8%E6%A0%BC%E5%92%8C%E5%9B%BE%E5%83%8F%E7%AD%89%E8%A2%AB%E8%AF%86%E5%88%AB%E5%87%BA%E6%9D%A5%E3%80%82%20%E8%BF%99%E4%BA%9B%E5%86%85%E5%AE%B9%E8%BF%9B%E4%B8%80%E6%AD%A5%E8%A2%AB%E5%88%86%E5%9D%97%EF%BC%8C%E4%BE%8B%E5%A6%82%EF%BC%8C%E4%B8%80%E7%AF%87%E8%AE%BA%E6%96%87%E4%B8%AD%E8%AE%A8%E8%AE%BA%E9%AB%98%E8%A1%80%E5%8E%8B%E8%8D%AF%E7%89%A9%E6%B2%BB%E7%96%97%E7%9A%84%E9%82%A3%E4%B8%AA%E6%AE%B5%E8%90%BD%E8%A2%AB%E6%A0%87%E8%AF%86%E4%B8%BA%E4%B8%80%E4%B8%AA%E5%8D%95%E7%8B%AC%E7%9A%84%E5%9D%97%E3%80%82,2%20%E5%B5%8C%E5%85%A5%E5%AD%98%E5%82%A8%EF%BC%9A%E6%8E%A5%E4%B8%8B%E6%9D%A5%EF%BC%8C%E5%B0%86%E8%BF%99%E4%BA%9B%E5%86%85%E5%AE%B9%E5%9D%97%E8%BD%AC%E6%8D%A2%E4%B8%BA%E5%AE%9E%E5%80%BC%E5%90%91%E9%87%8F%EF%BC%88%E5%8D%B3%E5%B5%8C%E5%85%A5%EF%BC%89%EF%BC%8C%E7%84%B6%E5%90%8E%E5%B0%86%E5%AE%83%E4%BB%AC%E5%AD%98%E5%82%A8%E5%9C%A8%E4%B8%80%E4%B8%AA%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%AD%EF%BC%8C%E4%BB%A5%E4%BE%BF%E5%90%8E%E7%BB%AD%E8%BF%9B%E8%A1%8C%E7%9B%B8%E4%BC%BC%E6%80%A7%E6%90%9C%E7%B4%A2%E5%92%8C%E6%A3%80%E7%B4%A2%E3%80%82%20%E6%8E%A5%E4%B8%8B%E6%9D%A5%EF%BC%8C%E8%BF%99%E4%BA%9B%E5%86%85%E5%AE%B9%E5%9D%97%E8%A2%AB%E8%BD%AC%E6%8D%A2%E6%88%90%E5%AE%9E%E5%80%BC%E5%90%91%E9%87%8F%EF%BC%8C%E4%B9%9F%E5%B0%B1%E6%98%AF%E5%B5%8C%E5%85%A5%EF%BC%8C%E8%BF%99%E4%BA%9B%E5%B5%8C%E5%85%A5%E5%8F%8D%E6%98%A0%E4%BA%86%E5%90%84%E8%87%AA%E5%86%85%E5%AE%B9%E5%9D%97%E7%9A%84%E8%AF%AD%E4%B9%89%E4%BF%A1%E6%81%AF%E3%80%82%20%E4%B9%8B%E5%90%8E%EF%BC%8C%E5%AE%83%E4%BB%AC%E8%A2%AB%E5%AD%98%E5%82%A8%E5%9C%A8%E4%B8%80%E4%B8%AA%E5%8F%AF%E4%BB%A5%E8%BF%9B%E8%A1%8C%E5%BF%AB%E9%80%9F%E7%9B%B8%E4%BC%BC%E6%80%A7%E6%90%9C%E7%B4%A2%E7%9A%84%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%AD%E3%80%82

https://www.51cto.com/article/812171.html

https://blog.csdn.net/2301_76168381/article/details/145991136

http://mp.weixin.qq.com/s?__biz=MzIwMjcwMTQzMA==&mid=2247485176&idx=1&sn=275b024aceb014d78959044b3474934e&chksm=9763f9a04172683cbd78b53664232934a2e654d8952a5317e4e936052c3059d8f874cd9a5df7&mpshare=1&scene=24&srcid=0409oknt5lK8gcXX50CKkTNz&sharer_shareinfo=8bb541bf00fd11186da1d4023dc3300b&sharer_shareinfo_first=8bb541bf00fd11186da1d4023dc3300b#rd

arer_shareinfo=8bb541bf00fd11186da1d4023dc3300b&sharer_shareinfo_first=8bb541bf00fd11186da1d4023dc3300b#rd

您可能感兴趣的与本文相关的镜像

OpenDataLab MinerU 智能文档理解

OpenDataLab MinerU 智能文档理解

图文对话
图像识别

基于OpenDataLab/MinerU2.5-1.2B模型,提供智能文档与图表理解服务,支持OCR文字提取与学术论文解析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

葡萄成熟时_

谢谢您,祝您生活愉快,所想及得

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值