文字识别的搜索结果_文章-阿里云开发者社区

机器人行业眼

|

1天前

|

博文

|

来自：视觉智能

智慧政务大厅的数字化转型：关键技术架构与终端解决方案评测

智慧政务大厅正迈向智能化，通过边缘计算、AI与物联网技术融合，构建“感知—认知—行动”闭环。依托大模型、OCR、生物识别等技术，实现语义理解、智能导办与设备协同，推动服务从“能办”到“好办、主动办”升级。

# 文字识别 # 自然语言处理 # 算法 # 机器人 # 物联网

Pennny

|

2天前

|

博文

从读图到懂图，AI+金融理解力新升级

OCR要落伍了？多模态大模型凭借端到端的图像识别与语义理解能力，正在颠覆传统 OCR 的应用逻辑，预示着图像识别与理解正迈向新一代的技术范式。

# 人工智能 # JSON # 文字识别 # 自然语言处理 # 数据格式

aliyun3816472094

|

3天前

|

博文

|

来自：大数据与机器学习

实用代码工具：Python打造PDF选区OCR / 截图批量处理工具（支持手动/全自动模式）

一款基于Python的PDF区域OCR与截图工具，支持精准框选、文字识别、图片截取及Excel一键导出。内置手动审核与全自动批量处理模式，结合PyMuPDF、easyocr等技术，实现高效、可视化的PDF数据提取，适用于发票、报表等场景，显著提升办公效率。

# 存储 # 文字识别 # 数据可视化 # 计算机视觉 # Python

AI大王Alex

|

5天前

|

博文

基于 YOLOv8 的智能车牌定位检测系统设计与实现—从模型训练到 PyQt 可视化落地的完整实战方案

本项目基于YOLOv8实现智能车牌定位检测，涵盖数据处理、模型训练、评估优化及PyQt5可视化界面开发，支持图片、视频、摄像头实时检测。系统精度高、响应快，提供完整代码与预训练模型，适合毕设、课程设计及二次开发，助力智慧交通应用落地。（238字）

# 文字识别 # 数据可视化 # 算法 # 计算机视觉 # Python

1623789125455094

|

6天前

|

博文

|

来自：物联网

NFC护照识读鉴伪解决方案-小程序/app端护照鉴伪

随着全球数字化加速，电子护照普及带来身份核验新挑战。本方案融合NFC芯片读取、OCR识别与ICAO PKD数字验签，支持178国护照及多类证件，实现真伪鉴别、人脸提取与数据自动录入，适用于边检、酒店、金融等场景，提供安全、高效、可信的多端身份验证服务。

# 文字识别 # 小程序 # 安全 # 物联网 # 芯片

Deephub

|

7天前

|

博文

Scikit-image 实战指南：10 个让 CV 模型更稳健的预处理技巧

在计算机视觉落地中，模型性能下降常源于预处理缺陷。本文基于scikit-image总结十大工程化模式：统一数据类型、显式颜色空间、抗锯齿缩放、CLAHE增强、去噪选择、去偏斜、背景去除、智能二值化、形态学清理与几何归一化，系统化提升输入质量，让模型真正发挥效能。

# 文字识别 # 监控 # 算法 # API # 计算机视觉

聊聊RPA丨实在智能

|

9天前

|

博文

别再手动对账了！rpa财务机器人软件如何实现“易用、实用、好用”？

RPA财务机器人软件正重塑财务工作，通过自动化处理重复、规则明确的任务，如对账、报税、报销审核等，大幅提升效率与准确性。它非物理机器人，而是一套模拟人工操作的程序，可7×24小时运行，助力财务从“手工时代”迈向“智能时代”。尤其适合高频、稳定、标准化流程，已成为企业降本增效的核心工具。

# 机器人流程自动化 # 人工智能 # 自然语言处理 # 文字识别 # Cloud Native # 机器人

数眼智能AI

|

9天前

|

博文

还在研究部署PaddleOCR？数眼智能OCR文档解析API上线：免费使用！

数眼智能推出新一代OCR文档解析API，突破传统OCR局限，融合多模态识别与深度学习，精准还原PDF、扫描件中的文字、表格、公式等结构，直接输出带层级的Markdown与JSON数据。实现标题、段落、表格自动分离，助力大模型知识库构建、金融报表分析、学术文献处理等场景，10秒内高效响应，让纸质文档秒变智能数据资产。

# 机器学习/深度学习 # JSON # 文字识别 # API # 数据格式

阿里云-分析师关系团队

|

11天前

|

博文

蝉联六冠，阿里云金融云市场第一

国际数据公司（IDC）《中国金融云市场（2025上半年）跟踪》最新报告，2025上半年阿里云凭借金融全栈AI云领跑市场，以20.4%的份额再次夺冠，增速高达32%。自2019H1以来，阿里云已连续6年蝉联中国金融云整体市场第一。

# 人工智能 # 自然语言处理 # 运维 # 文字识别 # 安全

bailiantest1

|

16天前

|

博文

|

来自：通义大模型

Qwen3-Omni新升级:声形意合，令出智随！

Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型，支持文本、图像、音频、视频输入，实现自然语音与文本同步输出。全面优化音视频理解与生成，支持多轮流畅对话、自定义人设与系统指令，提升多语言及跨模态交互准确性，语音更拟人，图像视频理解更深入，打造“声形意合”的智能交互体验。（239字）

# 大模型服务平台百炼 # 人工智能 # 自然语言处理 # 文字识别 # 语音技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别