《沉默的荣耀》播完,不少人没急着点下一集,去了北京西山国家森林公园,还有福田公墓,那里有四座雕像,陈宝仓,朱枫,吴石,聂曦,都是真的人,不是编出来的,...
2025-10-19 0
MIT最近整出个大动静,他们搞的SEAL框架,居然让大模型学会自己迭代自己了。
以前AI想更新知识、适应新任务,都得靠人手动喂数据、调参数,现在SEAL一出来,模型自己就能生成微调数据和指令,甚至能自己优化权重,完全不用人工插手。
这事儿在AI圈里不算小突破,毕竟以前咱们总说“AI再强也得靠人管”,现在看来,这话可能要改改了。
本来想先掰扯SEAL的原理,但后来发现光说原理太干,不如先看看它在实验里的表现,毕竟好不好用,数据说了算。
SEAL主要测了俩任务,一个是“记新知识”的知识注入,另一个是“学新技能”的小样本学习,结果都挺出人意料的。
先说说知识注入实验,研究者用了Qwen2.5-7B模型,还有SQuAD数据集里的段落和问题。
简单说就是给模型一段新文字,不告诉它答案,让它自己生成训练数据、自己微调,最后再考它答题。
一开始我以为,模型自己瞎琢磨肯定不如用现成数据,结果还真不是。
原来Qwen模型直接答也就3成多准确率,用原文微调也就高一点,就算用GPT-4.1生成的高质量数据,也就4成多。
可SEAL一上,准确率直接冲到47%,比GPT-4.1的还高。
更厉害的是,用200段长文本测试时,SEAL准确率居然有58.2%,这说明它不光能处理短文本,大规模数据也能hold住。
再看小样本学习实验,这次用的是LLaMA-3.2-1B-Instruct模型,测的是ARC任务,简单说就是给模型几个图形变换的例子,让它自己找规律,再预测新图形。
本来想这任务没人教方法,模型肯定懵,结果SEAL让模型先自己定训练方案,再微调。
最后成功率居然有72.5%,要知道直接给固定提示,模型准确率是0,随机试的话也就20%。
虽说没到人工设计最优方案的100%,但对一个能自己摸出门道的模型来说,这成绩已经很能打了。
看完SEAL在实验里的表现,估计有人好奇了:这玩意儿到底是咋运作的?能让模型从“等着喂”变成“自己吃”。
其实SEAL的逻辑不算复杂,有点像咱们自己学习的过程,先想清楚怎么学,再动手学,学完还得复盘调整。
它分内外两层循环,外层是“定计划”,模型拿到新信息比如一段文本、几个任务例子,会先生成一个“自我编辑指令”。
这指令不是代码,就是普通自然语言,比如“要提取这段里的关键知识点,生成5个问答对,用0.001的学习率调3轮”。
内层就是“执行计划”,模型照着指令生成训练数据,可能是问答对,也可能是信息重述,然后用LoRA技术微调参数。
调完之后马上做题测试,得分高低会反过来优化下次的“学习计划”。
这里得提一嘴它用的ReSTEM算法,跟常见的强化学习不一样。
它不直接算梯度,而是先让模型生成好几个“学习计划”,每个计划都试一遍,只留下能提分的。
然后用这些好用的计划再训练模型,让模型下次更会定计划。
这种“试错筛选”的思路挺实在,比硬算梯度稳定多了,也更适合大模型。
SEAL自己本事不小,但AI圈里也不是就它一个在搞自主进化。
谷歌有个ReasoningBank,能让模型记成功经验,但得靠人设计“该记啥”,Meta的LLaMA3参数量大,还能处理多模态,可更新知识还是得人工微调。
这么一对比就看出来了,SEAL的优势就是“全自主”,不用人帮着定方向、喂素材,自己就能把事儿办了。
这“全自主”的能力,往医疗、金融领域一放,价值就显出来了。
比如医疗指南更新快,以前模型得等人工整理数据再微调,等调好可能都过去好几个月了,现在SEAL能实时学新指南,自己更参数,医生用的时候拿到的就是最新的建议。
金融领域也一样,新合规政策出来,SEAL能自己解析政策,生成训练数据,帮银行调风控模型,省不少人工成本。
但话说回来,SEAL也不是没缺点。
第一个坎就是“忘事”,学了新东西容易把老知识忘了,目前十轮学习后遗忘率控制在14%,简单领域还行,复杂领域比如法律、医疗,这点遗忘可能就出问题。
搞不清以后会不会借鉴人脑“睡眠巩固记忆”的机制来改进,不过现在能做到这个水平,已经算不错了。
第二个坎是伦理风险,模型自己生成训练数据,万一生成了错误信息甚至恶意内容咋办?很显然,得加道“双审核”,AI先筛一遍,人再盯一遍。
而且欧盟已经把这种自主进化的AI归为“高风险”,要求必须记更新日志,出了问题能追溯。
这也能理解,毕竟AI自己说了算,没人盯着总怕出岔子。
如此看来,SEAL确实标志着大模型从“被动工具”变成了“主动学习者”。
以前咱们总说AI“智能”,更多是指它算得快、记得多,现在它能自己规划学习路径、优化能力,这才是真的往“自主智能”靠了。
虽说还有遗忘、伦理这些问题要解决,但MIT这一步算是走对了。
以后再结合OpenAI的“蒙特利尔计划”这些项目,说不定真能迎来一个AI自己进化、自己适应世界的新时代。
SEAL不是终点,但它确实给AI的未来指了个新方向,与其总想着“人怎么教AI”,不如想想“怎么让AI自己学”。
这思路要是走通了,以后的AI可能真就不是咱们印象里“等着喂饭”的样子了。
相关文章
《沉默的荣耀》播完,不少人没急着点下一集,去了北京西山国家森林公园,还有福田公墓,那里有四座雕像,陈宝仓,朱枫,吴石,聂曦,都是真的人,不是编出来的,...
2025-10-19 0
郭德纲这个人,本来是说相声的,现在天天在台上唱京剧。就因为这事,网上吵得不行。有的人说他好,有的人骂他,挺热闹的。他那个德云社,现在是真厉害,说相声的...
2025-10-19 0
今天给各位分享离广州最近的海滩景点的知识,其中也会对离广州最近的海滩景点有哪些进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!离...
2025-10-19 0
本篇文章给大家谈谈“团购平台有哪些,以及旅游团购平台有哪些”对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 买菜的团购平台有哪些 盒马鲜生 简...
2025-10-19 1
今天给各位分享乐山峨眉山自驾游攻略的知识,其中也会对乐山峨眉一日游攻略进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!四川乐山峨...
2025-10-19 1
本篇文章给大家谈谈“张家界旅游景点大全,以及张家界旅游景点大全开放时间”对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 张家界旅游都有哪些景点...
2025-10-19 1
前阵子刷到部2025年9月刚播的韩剧,开场就把我看懵了。电影节颁奖礼上,千商燕拿了大奖,对着直播镜头突然喊了柳訚重的名字,说自己能有今天全靠她。这俩人...
2025-10-19 2
今天给各位分享上海周边一日游的知识,其中也会对上海周边一日游好去处进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!上海周边一日游...
2025-10-19 3
发表评论