耐住寂寞沉下心去求真务实是成功的不二捷径
2022年ChatGPT的横空出世,掀起一波生成式人工智能(AIGC)的浪潮,基于Transformer基础模型的竞争由于Openai的解码器,微调,强化学习工程实践的涌现特征,超越了人工语言处理领域同样基于Transformer的在学术圈声名鹊起的谷歌BERT模型,meta llama,谷歌Gemini,国内chatglm,百度文心一言,阿里qwen等你方唱罢我登场好不热闹,也把阴差阳错游戏转型人工智能的英伟达GPU大放异彩。 2023年的大模型百模大战,耗费了不少的能源,算力,虽然也促进了工程在scaling of law领域的验证,也为个人对话应用的新奇感赚足了眼球,但幻觉问题,应用商业化问题,仍存在局限。 2024年被号称应用元年,也被称之为Agent元年,希望通过RAG增强查询,Agent工作流,Prompt工程实现大模型应用场景的突破。虽然在人类语言理解,互动和沟通领域长足的发展摆脱了人工智能客服智障的刻板印象,但应用的爆发仍只见楼梯响不见下人来。当然,生成式模型的优势在设计领域的应用已经比较广泛,尤其在多模态模型成为基础模型下一个竞争方向之后。 只不过,2024年年底,深度求索的deepseek通过moe多专家模式智能路由工程技术实践,以及思维链cot模式实现推理模型,并降低了训练成本,思路上突破算力绑架,让基础模型的范式又一次改变。这一次虽然openai迅速跟进,x推出了grox,但范式的转变仍是逼的大厂手忙脚乱,尤其是百度李厂长关于开源闭源的观点以及零一万物李开复教父基础模型市场稳定转型专注应用均被呯呯打脸,实在是看的人目不暇接。 这里面就有几个感悟可以分享: 1、人工智能是个历史延续的工程问题,无数数学人才投入其中,不断的发现问题,分解问题,利用数学算法解决问题,并组合算法形成框架,结果通过测试集实践验证。因此,在问题仍然有优化解决空间的时候,迭代永远不会停止,虽然改进有大有小,但范式变化总会在看似稳定时出人意外。 2、工程问题的关键是方法论和复现,是类似科研的实验室科学,掌握了工艺问题就可以实现领先,但这个领先永远是暂时的,因为工程方法的论文是开放的,甚至数据集,代码,训练参数都是开源的,即使你闭源,也会有团队独立发现甚至超越,就像openai和deepseek,所以,这个领域的保密,闭源优势是短暂的。从另外一个角度上而言,中美人工智能也没有像政客想象的那样容易被割裂和断链。 3、应用问题的解决和基础模型的训练是两个领域,应用关注的场景问题的分解,算法与工程化,大模型如何助力,无论是理解场景,分解问题,对细颗粒问题的求解放发的设计和代码实现都可能存在价值,关键是场景理解,问题分解,问题求解结果实践的工程化应用以及应用场景应用配套问题的体系化解决,例如物理的工具设备,人相关的流程,机制,人与人工智能的协作与协同,这个领域可能还涉及社会问题,不是个单纯工程问题。 回归到这本书,这本书从Transformer的历史讲起,对人工智能在自然语言处理,神经网络和机器学习的原理与实践进行了阐述,展示,然后对openai的gpt1-4模型的训练工程实践的关键改进算法的原理以及tensflow和Huggingface上如何复刻给出了实践方法,接下来谈了chatglm,微调,强化学习,以及自建私有模型的工程实践,可以说是一本非常好的基础教材。 大学的教材出版周期在工程和应用领域可能越来越难以跟上时代,传统领域科研成果转换教材至少5-7年,而大模型领域一日千里,所以对从事人工智能的研究生来说,以此作为循序渐进学习,实验的样本应该是不错的起点。 生成式人工智能繁花渐俞迷人眼,通用人工智能浅草才能没马蹄,与其是喧嚣之中临渊羡鱼,不如静下心来退而结网,关键在于耐得住寂寞,具有时刻精进的务实精神例如deepseek,相信成功不会吝啬。