基于PaddleOCR的体检报告识别（一）

2022-10-20 858

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 面对飞速发展互联网医疗时代，医疗信息化建设已经成为医疗行业发展的趋势。经调研，约80%的医学病历是处于非结构化状态的，难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本，医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此，针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。

基于PaddleOCR的体检报告识别

一、项目背景与意义

面对飞速发展互联网医疗时代，医疗信息化建设已经成为医疗行业发展的趋势。经调研，约80%的医学病历是处于非结构化状态的，难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本，医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此，针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。

体检报告识别可以帮助医务服务人员自动识别录入用户征信信息，节约人力成本、提升服务效率，实现降本增效，具有重要实际意义。基于PaddleOCR已在文字识别领域取得优秀成果，本项目基于PaddleOCR实现体检报告检测与识别，对数据进行结构化处理，结合CV+NLP技术达到一定识别精度，未来推广应用场景可以基于识别信息做个性化疾病预测与健康推荐。

二、项目链接

PaddleOCR体检报告识别 - 飞桨AI Studio

三、项目流程

PaddleOCR是百度开源的超轻量级OCR模型库，本文使用其框架进行体检报告识别，本次项目具体流程包括：

PaddleOCR环境安装与快速预测

体检报告检测模型训练det

体检报告识别模型训练rec

四、技术介绍

针对PaddleOCR提供的算法模型，本次选择基础模型用于体检报告识别与检测，流程如下：

1.检测：DB算法

文字检测参考这篇：

OCR文字识别技术总结（三）__文本检测算法总结

2.识别：CRNN+CTC

CRNN可参考这篇文章：

CRNN文字识别_GoAI的博客-CSDN博客_crnn

基于PaddleOCR的体检报告识别（一）

基于PaddleOCR的体检报告识别

一、项目背景与意义

二、项目链接

三、项目流程

四、技术介绍

1.检测：DB算法

2.识别：CRNN+CTC

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

基于PaddleOCR的体检报告识别（一）

基于PaddleOCR的体检报告识别

一、项目背景与意义

二、项目链接

三、项目流程

四、技术介绍

1.检测：DB算法

2.识别：CRNN+CTC

热门文章

最新文章

相关电子书