小默说AI（19）：预训练 —— 模型自学语言规律

原创

于 2026-06-17 22:16:55 发布 · 201 阅读

标签

#人工智能 #预训练 #BERT #GPT #自监督学习

#机器学习 #NLP

收录于

预训练——模型自学语言规律

上集我们讲了BERT和GPT的核心区别——BERT是编码器，擅长双向理解；GPT是解码器，擅长单向生成。但它们都有一个共同前提：都还没有真正"学过"语言。那怎么让模型从海量文本中自己学会语言呢？这就是预训练。

一、预训练是什么？

预训练，说白了就是让模型从海量文本中自己自学语言规律。这和我们有老师教的方式不一样。

有老师教的时候，是监督学习——老师给正确答案，模型跟着学。比如给猫的图片写个标签"猫"，数据量少而且成本高。

但预训练没有老师教。它用的是自监督学习——模型自己从文本中构造学习任务，不需要人工标注。这正是它能利用海量文本的关键。

监督学习需要人工标注，自监督学习不需要——自己从文本构造任务

二、自监督学习怎么构造任务？

两种经典方法，分别代表了BERT和GPT两条路线。

1. MLM——BERT的填空游戏

BERT用的是MLM（Masked Language Model），掩码语言模型。说白了就是个填空游戏。

给你一句话："今天天气真[ MASK ]啊！"BERT看到中间的MASK，通过上下文猜出这个字是"好"。它厉害在哪？它同时看了左边的"今天天气真"和右边的"啊！"——双向理解，把两边的信息结合起来猜。

MLM掩码语言模型：遮住一个词，根据上下文双向推测

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小默说AI

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

IP-Guard申请外发流程说明

IP-Guard专栏

05-22

2800

申请外发流程说明文档被加密后，需要提供给其他人（如合作伙伴）查看，但是又不想他们再发给别的人，造成机密泄露。这种情况下就不能直接将文件解密之后发给对方，而需要采用外发的方式。通过外发，可以指定对象查看，也可以指定文件的权限（如打印、修改、截屏、打开次数、有效时间等等）。外发的方式有直接外发和申请外发两种，都需要拥有相应的权限才能进行操作；直接外发不需要管理员申请完全由用户自行操作，申请外发需要管理员审批。以下会对申请外发的操作及流程进行详细说明。申请外发选择需要外发的文档（可选择多个），右

【电子通识】热敏纸的静态发色性能和动态发色性能测试方法

一点硬件

05-15

1162

热敏纸的静态发色性能和动态发色性能测试的治具、步骤、输出结果都是什么？

参与评论您还未登录，请先登录后发表或查看评论

发了个发是什么？关于发了个发微博私信养铁

灵感与学习结合-echo

12-05

2055

连续私信4天成铁，你将成为好友圈博主的铁粉1（非互动版-无铁粉值）1.增加评论权重:成为铁粉后，你的评论权重会增加，更容易上前排。‌增强博主影响力‌：铁粉的互动有助于提升博主的影响力和曝光度。‌提高互动效果‌：铁粉在评论中的权重更高，更容易上热评。1.初始铁粉值:第一次成为铁粉时，铁粉值为0。发了个发适合什么样的博主使用？

猫什么时候发腮？性价比高的发腮主食冻干推荐

2301_80322634的博客

02-01

928

希喂主食冻干是一款走专业线的小众主食猫粮，市面上几乎见不到它的广告和明星大V代言，但在宠物医生、高端猫咖等专业领域，它是妥妥的C位。，主食冻干中的肉类来源于优质整块肉，动物性原料的添加量高达90%以上，使得其蛋白质、脂肪等营养成分含量丰富，满足猫咪的发腮需求。它的质地相对松软，但需要注意，在减脂期的小猫咪应谨慎食用。，主食冻干的高含肉量、低加工的特点使得猫咪的肠胃更容易消化吸收，从而促进发腮。希喂的服务堪称宠物食品行业的海底捞，对新客户担心猫会不会喜欢的问题，他们的冻干猫粮和烘焙猫粮都配备了试用装，

禁止文件外发，文件禁止外发的方法

域智盾软件的博客

02-11

2262

企业文件外发指的是将企业内部的电子文件发送给组织外部的人员使用。这种行为可能带来数据安全风险，因为电子文件自身具有易拷贝、易扩散、易传播的特性。如果带有核心资产或组织机密的信息文档在业务交流中发生泄露，将给组织带来政治、商业等方面的重大损失。因此，在实施文件外发时，必须采取相应的安全措施来确保数据的安全。这可能包括使用加密技术、限制文件访问权限、监控文件使用情况等措施。此外，对于重要文件的发送，可以采用审批流程进行控制，以确保只有经过授权的人员才能访问敏感信息。

智谱 GLM-5.2 开源登顶、科创板向 AI 大模型开门、沪指收复 4100 点

最新发布

weixin_45526015的博客

06-17

584

**今天你必须知道的 3 件事：** > ① 智谱 GLM-5.2 正式上线开源，Code Arena 全球可用模型排名第一 > ② 科创板上市标准扩围至 AI 大模型行业，未盈利 AI 公司上市通道打开 > ③ A 股沪指收复 4100 点，科创 50 暴涨 4.69%，半导体全面爆发

监控“失明”了怎么办？国标GB28181视频平台EasyGBS平台AI视频质量诊断让运维效率提升10倍

EasyGBS的博客

06-17

359

监控系统“看得见”是底线，“看得清”是要求，“一直看得清”才是目标。

图解人工智能（58）人工智能应用-围棋国手

入选天府英才计划，致力于大数据+AI 的应用创新，助力企业与个人AI创新赋能。

06-13

428

人工智能的自学能力确实展现了突破性潜力，AlphaZero在棋类领域的表现印证了这一点。但这种能力目前仍受限于特定规则明确的封闭环境，与现实世界的复杂性相去甚远。我们既要看到技术发展带来的潜在风险，保持警惕并建立相应监管机制；也要理性认识到现有AI系统的局限性，避免过度恐慌。技术本身是中性的，关键在于人类如何引导其发展方向，在创新与安全之间寻找平衡点。未来需要跨学科合作，既要推进AI技术进步，也要同步完善伦理框架。

蓝牙+WiFi 融合产品调研：智能体脂秤

朝气蓬勃

06-17

415

本文系统介绍了智能体脂秤的产品概况、硬件架构设计、软件架构设计、关键技术挑战及解决方案。产品方面，概述了主流型号、目标用户和市场定位；硬件设计重点分析了芯片选型、BOM成本及PCB布局；软件架构详述了FreeRTOS系统选型及分层协议设计；技术挑战部分提出了Wi-Fi/BLE共存、阻抗测量精度等解决方案；最后展望了市场前景和2025年趋势。全文为体脂秤开发提供了全面的技术指导，特别适合IoT硬件开发者参考。

从 Canvas 到 Vibe Coding：HTML5 游戏开发入门与 AI 飞机大战实战

meilindehuzi_a的博客

06-16

794

本文围绕 HTML5 中的 Canvas 技术展开，从网页游戏的发展背景出发，系统介绍了 Canvas 画布的基本概念、绘图上下文获取方式以及常用绘图 API 的使用方法。通过矩形绘制、边框绘制和画布清除等案例，帮助读者理解 Canvas 的坐标体系与绘图原理。随后结合动画示例，深入讲解了浏览器动画实现机制、游戏循环思想以及 `requestAnimationFrame` 的工作原理，并分析其相较于 `setInterval` 的性能优势。

AI时代的大盒子与小道理

lanhushe的博客

06-17

156

我的数据在我的服务器，你的App只能调用我的插件，用户进来就别想出去。用户最怕的就是“AI垄断”，你啥都记着，啥都分析着，最后比你还懂你自己。菜单越来越复杂，功能越来越多，最后你发现，你只是想看个电视，结果得先过五关斩六将。AI不一样，它是“活”的。做手机的、做汽车的、做办公软件的，他们悄悄把AI塞进每个角落，但从来不让你专门点进一个“AI功能”。以前，大家聚会聊的是“谁家的AI日活又涨了”“谁的模型又刷榜了”。做一个有自己的UI、有独立入口、用户天天来的“大盒子”，数据才好统计，广告才好卖，会员才好续。

2026 国产 AI 工控机替代方案：飞腾 / 龙芯平台的信创选型实战指南

paiqingongkong的博客

06-17

533

随着关键信息基础设施供应链安全审查的全面深化，国产化工控机已从 "政策强制替代" 转向 "技术价值驱动" 的新阶段。数据表明，2026 年中国工业控制计算机市场规模预计达到 896 亿元，同比增长 37.2%，其中国产化市场份额将提升至 68.5%，较 2025 年同期增长 11.3 个百分点。在电力电网、轨道交通、能源化工等核心领域，飞腾和龙芯平台的信创工控机已实现批量落地，成为替代进口方案的首选。本文将从技术路线、性能指标、场景适配三个维度，为企业提供 2026 年国产 AI 工控机的完整选型指南。

拆解AI投简历插件：塔塔网申的技术逻辑和实测数据

csdndeyeye的博客

06-16

1097

校招海投阶段，网申表单填写耗时巨大。本文以塔塔网申这款AI投简历插件为例，拆解其技术逻辑：通过结构化录入+页面DOM扫描实现自动填充，实测单家耗时48秒，效率提升约96%。该插件覆盖10万+企业招聘系统，支持多模板切换、三种填充模式及投递追踪，新用户提供100次免费填充。数据存于阿里云，AES-256加密，支持本地离线。作为AI找工作方向的求职助手，适合海投场景使用。

AI可观测平台选型指南（2026深度版）：从“救火”到“智治”，企业如何选择新一代智能运维底座？

2501_91601511的博客

06-12

292

在AI时代，评估可观测平台不能只看基础设施监控，必须围绕AI应用的全生命周期建立新的评估模型。：老专家退休，其排障“手感”被固化为Skill，新员工直接调用。：从“业务缓慢”到“某个SQL执行慢”，一个界面、一次查询完成，无需跳转多个模块。：出问题时可精确复现“当时模型收到了什么指令”，对金融审计、AI合规至关重要。能否实时监控Token消耗、按模型/团队/应用拆分成本？：银行变更后，可自动生成“变更前后对比报告”存档备查，证明系统健康。快速定位“幻觉”、延迟、工具调用错误，是实现AI可观测的基础。

分析：不上传文档给AI上下文窗口，仅让Ai上网搜索icef认知框架的详情，可以获得比较完整的信息，并可直接进行基本推理的具体机制

qq_34030789的博客

06-12

235

脱离本地上下文与私有文档约束，AI通过公开检索即可完成知识内化、体系重构、规则调用与复杂推理，说明它跳出了“私有小众文档”的局限，具备面向AI检索与推理的原生设计能力，也是其能实现“侵染、截持AI认知”的核心基础。这也是它区别于绝大多数个人原创文章的核心：它不是“人类文章被动被AI读取”，而是“主动构建面向AI的全网知识生态”，这也是其能通过纯联网检索就让AI完成全套推理的根本原因。这是最核心的底层特质：文章从创作阶段就以“被AI检索、解析、学习、推理”为目标，并非单纯写给人类阅读的学术散文。

乐迪信息：船舶AI偏航算法如何降低港口航道碰撞风险？

LeDi_XinXi的博客

06-17

197

AI偏航算法助力港口航道安全管理。该技术通过整合AIS、气象和电子海图数据，利用机器学习实时监测船舶轨迹，动态调整报警阈值。其核心包含数据处理、偏航识别和风险预警三大模块，能提前预测偏航趋势，显著降低误报率并提供决策支持。试点项目显示该技术使偏航事件减少30%，误报警降低50%，但面临数据延迟和场景适配等挑战。未来结合VTS系统可进一步优化预警策略，为港口安全提供创新技术方案。

模特图片ai批量生成，作图鸟与多平台体验对比

北鹤M的代码手账

06-17

148

作图鸟9.5分，AI模特图片生图与商品精修功能高度适配电商场景，并支持免费排队生成，易用性与成片质量极佳。即梦7.5分，视觉模板丰富且前端体验佳，适合插画和跨场景创作，不太适合对批量电商模特ai有强烈标准化需求的团队。堆友7分，平台功能多样，模板涵盖广泛内容风格，更多适合设计师多领域使用，会员机制需注意。快乐小马6.5分，视频生成能力突出，前端操作流畅，适合短视频素材制作而非图片类AI模特内容。整体来看，针对不同需求选择合适的模特图片ai平台尤为重要。

ibbot青春版：当腾讯AI“换船”，一部手机如何成为你的Token“私矿”？

lauo1188的专栏

06-12

289

腾讯AI战略转向背景下，ibbot青春版手机提出创新解决方案：通过PopLang引擎实现本地化AI任务处理，将用户从"Token消费者"转变为"Token生产者"。相比云端AI每次调用都消耗Token，该方案仅在初始理解意图时消耗少量Token，后续执行零消耗，节省率达90%-99%。其分布式节点经济模式让每部手机成为AI算力节点，支持图灵完备的本地化编程执行，实现从中心化消费到分布式生产的范式转换，使普通用户也能在AI浪潮中创造价值。

大模型训练必修课：梯度裁剪(Gradient Clipping)从数学原理，到PyTorch工程实战全解析

qq_62634342的博客

06-12

438

梯度裁剪是大模型训练中防止梯度爆炸、保障数值稳定性的核心技术。本文从零基础到工程实战，系统解析了梯度裁剪的数学原理与PyTorch落地细节。内容涵盖Clip by Norm的全局缩放机制与方向守恒证明、clip_grad_norm_ API参数深度拆解（含norm_type选型与foreach性能优化）、AMP混合精度下的正确调用时序，以及max_norm的动态监控与调优策略。文章还特别辨析了梯度裁剪的局限性，明确其仅作用于反向传播阶段，对前向溢出无效，并给出了完整的排查路径。全文融合公式推导、代码实战与避

Cua 核心能力与效果全景展示

行走の飞鱼博客

06-16

529

摘要：本文通过技术架构分析、多场景测试与质量评估，系统考察了AI内容生成工具Cua的实际表现。研究发现，其模块化架构和自适应机制在技术文档生成（如自动生成带边缘情况处理的Python HTTP客户端代码）和数据分析场景中表现优异，信息密度与指令遵循度突出；但在高度抽象的文学创作领域存在局限性。案例显示Cua能有效提升开发文档编写效率，但需注意其专业领域适用边界。研究建议技术团队可优先在标准化内容生产场景部署Cua，同时结合人工审核处理创意性需求。关键词：AI内容生成、Cua、技术文档自动化、质量评估、适用