微调 Gemma 4 识别腾讯天御全系列验证码【解决方案-一个模型识别 滑块|文字点选|图标点选|空间点选】

教程

只要数据集多,就能微调出效果不错的多模态大模型。

这里使用unsloth工具,微调 Gemma4,官方教程地址:https://unsloth.ai/docs/zh/mo-xing/gemma-4/train

这里主要说数据集的组成格式:
流程:图片 + 指令 → 多模态模型 → 直接输出 JSON

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image",
          "image": "captcha_001.png"
        },
        {
          "type": "text",
          "text": "请识别该验证码任务,并输出需要点击的矩形框位置。"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "type": "text",
          "text": "{\"task\":\"text_click\",\"targets\":[{\"text\":\"春\",\"click_rect_point\":[56,84,126,178],\"order\":1}]}"
        }
      ]
    }
  ]
}

测试效果

进入【无限识别 hypercalc】官网进行对接识别。https://www.hypercalc.cn

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值