Midscene.js 谷歌浏览器插件使用指南

该文章已生成可运行项目,

一、安装步骤

1. 安装插件

打开 Chrome 浏览器,访问 Chrome 应用商店,搜索 "Midscene",点击添加到 Chrome 即可。

插件地址(直接访问):

https://chromewebstore.google.com/detail/midscene/gbldofcpkknbggpkmbdaefngejllnief

2. 启动插件

安装后扩展默认折叠在 Chrome 扩展列表中,点击展开,在浏览器右侧会看到名为 "Midscene" 的侧边栏。

二、配置 AI 模型

启动插件后,需要配置使用的 AI 模型服务。有两种配置方式:

方式一:环境变量配置

在系统环境变量中写入以下配置(以千问模型为例):

MIDSCENE_MODEL_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
MIDSCENE_MODEL_API_KEY="sk-xxx"
MIDSCENE_MODEL_NAME="qwen3.5-plus"
MIDSCENE_MODEL_FAMILY="qwen3.5" 

配置后可以点下的Save and Verify Model按钮验证模型配置正确性,如均显示OK则表示配置正确。

方式二:插件内直接配置

在 Midscene 侧边栏中粘贴 Key=Value 格式配置:

OPENAI_BASE_URL=https://xxx

OPENAI_API_KEY=sk-xxxxx

MIDSCENE_MODEL_NAME=xxx

推荐模型

模型

特点

GPT-4o

能力强,支持全面

Qwen 3.x(千问)

性价比高,支持视觉理解

UI-TARS

专为 UI 自动化优化

豆包 Seed

字节自研,针对视觉理解优化

三、使用场景

场景 1:零代码快速体验(适合普通用户)

直接在浏览器中操作:

  1. 打开任意网页

  2. 点击 Midscene 侧边栏

  3. 在输入框用自然语言描述操作,例如:

  • "在搜索框输入 '耳机'"

  • "点击登录按钮"

  • "滚动到页面底部"

  4.AI 自动执行对应操作

场景 2:桥接模式(Bridge Mode,适合开发者)

通过插件连接外部脚本,实现更复杂的自动化控制:

第一步:在插件中切换到 "Bridge Mode" 标签页,点击 "Allow connection"

第二步:编写脚本,如 demo-new-tab.ts:

import { AgentOverChromeBridge } from "@midscene/web/bridge-mode";

const agent = new AgentOverChromeBridge();

await agent.connectNewTabWithUrl("http://localhost:8000/login.html");

await agent.ai('在"用户名"输入框里面输入"admin"');

await agent.ai('在"密码"输入框里面输入"1234"');

await agent.ai('点击"登录"按钮');

await agent.aiAssert("跳转'列表'页面");

第三步:运行脚本

场景 3:YAML 自动化脚本(适合团队协作)

无需写代码,团队任何成员都能编写测试脚本:

# sauce-demo.yaml

url: https://www.saucedemo.com

tasks:

- name: 登录并提取信息

steps:

- ai: '输入用户名 "standard_user"'

- ai: '输入密码 "secret_sauce"'

- ai: '点击登录按钮'

- aiQuery:

name: 商品信息

content: '提取所有商品名称和价格,以 JSON 格式输出'

- aiAssert:

content: '页面显示商品列表'

运行命令:

npm i -g @midscene/cli

midscene ./sauce-demo.yaml --headed # 有界面模式

midscene ./sauce-demo.yaml # 无头模式

场景 4:数据提取与断言

提取数据为 JSON:

const data = await agent.aiQuery('提取页面上所有商品名称和价格,以 JSON 格式');

console.log(data);

// 输出:{ "products": [{ "name": "商品A", "price": 99.9 }, ...] }


断言验证:

await agent.aiAssert('页面显示"登录成功"提示');

await agent.aiAssert('URL 跳转到 /dashboard');

四、典型操作示例

操作

自然语言描述

输入文本

"在搜索框输入 '笔记本电脑'"

点击按钮

"点击'立即购买'按钮"

滚动页面

"向下滚动页面"

悬停元素

"鼠标悬停在菜单上"

提取数据

"提取所有商品价格"

断言验证

"验证页面显示登录成功"

五、注意事项

  1. 执行速度:因为需要 AI 推理,每次操作需要几秒钟

  2. 敏感信息:用户名密码等需在提示词中传递,无法隐藏

  3. 网络要求:需要网络访问 AI 模型服务

  4. 复杂操作:滑块验证码等复杂行为可能无法通过自然语言完美模拟

总结:Chrome 插件方式最适合快速体验和零代码自动化场景,配置好 AI 模型后,直接用自然语言控制浏览器即可。开发者则可通过桥接模式或 YAML 脚本做更复杂的集成。

本文章已经生成可运行项目
内容概要:本文出自罗兰贝格关于工业4.0现状的报告,系统分析了制造业在数字化转型过程中的实际进展与挑战。报告指出,尽管“工业4.0”概念提出已逾十年,但多数企业仍未实现预期的智能化、自组织生产目标,主要受限于技术复杂性、组织孤岛、投资回报周期长及人才短缺等问题。通过对领先制造企业的研究,报告提炼出三大成功要素:一是制定基于现实的工业4.0愿景与全面战略,明确用例优先级;二是建立“中心辐射式”组织架构,设立专职数字化制造部门,推动跨职能协作与规模化落地;三是构建统一的IT/OT目标架构,强化数据生态与系统互操作性。报告特别强调,高价值用例如预测性维护、实时参数优化、视觉检测等已在汽车与半导体行业显现显著成效,企业应聚焦可量化回报的场景,结合资源现实,分阶段推进转型。; 适合人群:制造业企业管理者、数字化转型负责人、工业互联网从业者及政策制定者; 使用场景及目标:①帮助企业评估自身工业4.0成熟度并制定务实发展战略;②为制造企业设计组织架构与IT/OT技术路线图提供参考;③指导资源优先配置于高价值数字化用例,提升投资回报率; 阅读建议:建议结合企业实际生产场景阅读,重点关注“中心辐射式”运营模式与六大高价值用例的适用性分析,同时参考报告中的汽车行业案例,因地制宜地规划数字化路径。
内容概要:本文围绕基于蚁狮优化算法(ALO)在复杂三维动态环境下求解多无人机动态避障路径规划问题展开研究,并提供了完整的Matlab代码实现。该研究旨在解决多无人机系统在存在障碍物和动态变化环境中的高效、安全路径规划挑战,通过引入ALO算法优化飞行轨迹,有效规避障碍并实现路径最优。研究不仅关注算法层面的实现,还涵盖了目标函数设计、约束条件处理、环境建模等关键技术环节,确保路径规划结果兼具可行性与鲁棒性。此外,文档附带丰富的相关科研资源,涵盖路径规划、智能优化算法、机器学习、电力系统等多个领域,为后续拓展研究提供坚实支撑。; 适合人群:具备一定编程基础,熟悉Matlab工具,从事无人机路径规划、智能优化算法或智能系统研究的科研人员及研究生。; 使用场景及目标:①研究复杂三维动态环境下多无人机的协同避障路径规划问题;②掌握蚁狮优化算法(ALO)在路径规划中的应用与实现机制;③为智能交通、无人系统控制、自动化调度等相关课题提供算法参考与代码支持; 阅读建议:建议结合Matlab代码深入理解ALO算法的具体实现流程,重点关注目标函数构建、动态障碍建模与避障策略设计等关键模块,同时可参照文中提及的其他智能优化算法(如PSO、GWO等)进行对比实验,进一步提升算法性能分析与工程应用能力。
代码下载地址: https://pan.quark.cn/s/a4b39357ea24 Git在全球范围内被公认为最为流行的分布式版本控制系统,其在软件开发行业中占据着不可或缺的地位。Git-2.21.0-64-bit 以及 TortoiseGit-2.8.0.0-64bit 是两款专门为Windows操作系统设计的Git相关软件。Git-2.21.0-64-bit 代表了Git的命令行版本,而TortoiseGit则是一个图形化界面工具,它为用户呈现了一种更为直观的操作体验。 Git的主要优势体现在其分布式架构上。每一个通过Git克隆得到的仓库都是一个自给自足的、完整的文件库,其中包含了所有的历史版本记录以及修订追踪详情。因此,即便在缺乏网络连接的环境下,开发者依然能够在本地执行版本控制任务,例如进行提交、切换分支以及合并代码等操作。这种架构设计显著提升了开发效率,特别是在处理大型项目或进行团队协作时更为明显。 Git的分支管理功能是其另一项突出的能力。开发者借助简单的指令即可迅速完成分支的创建、切换和合并,这一特性对于并行开发、试验新功能或解决bug等问题提供了极大的便利。例如,开发者可以开辟一个新分支来实施新功能,在开发完成后将其整合回主分支,而不会对其他团队成员的工作造成干扰。 TortoiseGit是Git的一个补充工具,它将Git的操作指令无缝嵌入到Windows资源管理器中,使得Git的使用体验类似于常规的文件管理操作。TortoiseGit-2.8.0.0-64bit.msi 文件正是这个图形化界面的安装包,它提供了右键菜单的快捷方式,让用户能够更加便捷地进行版本控制活动。与此同时,TortoiseGit-LanguagePack-2.8.0.0...
内容概要:本文系统阐述了物理信息神经网络(PINNs)在求解布洛赫-托雷(Bloch-Torrey)方程中的具体应用,结合PyTorch框架提供了完整的Python代码实现案例。通过将物理定律作为先验知识嵌入神经网络的损失函数中,PINNs能够在缺乏大量标注数据的条件下,高效求解描述磁共振成像中自旋粒子扩散行为的偏微分方程。文章详细剖析了网络架构设计、物理约束的数学表达、边界与初始条件的处理方法以及模型的训练优化流程,充分展现了PINNs在科学计算与工程仿真领域的强大潜力与独特优势。; 适合人群:具备深度学习基础、偏微分方程知识,以及Python编程能力,从事计算物理学、医学影像、生物医学工程或科学机器学习等相关领域的研究人员、高校研究生及工程师。; 使用场景及目标:① 掌握利用PINNs求解复杂物理系统的基本方法与技术路线;② 学习如何将物理守恒律、本构关系等先验知识有效融入神经网络模型以提升泛化能力和求解精度;③ 应用于磁共振成像(MRI)的微结构建模、扩散过程仿真及其他涉及偏微分方程求解的科学研究与工程问题。; 阅读建议:建议读者结合所提供的代码进行动手实践,重点理解物理残差项在损失函数中的构建逻辑及其对训练过程的影响,并尝试将该方法迁移至其他类型的偏微分方程(如热传导方程、Navier-Stokes方程等),以深入掌握PINNs的核心思想与工程实现技巧。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值