我们的车正变得越来越“聪明”。这些智能功能背后,是整个汽车架构的升级。ADI组建OpenGMSL协会,就是在为这些海量数据修一条更宽、更快的“路”。1...
2025-10-06 0
香港大学和香港中文大学的研究团队,最近搞出了个叫TreeSynth的东西,这玩意儿专门解决AI训练的大难题,没数据的时候咋提升模型表现,或者现有数据质量不行、分布不均的问题。
现在AI模型,越来越“挑食”,没好数据根本跑不起来,之前那些数据合成方案,我瞅着就像没规划的农夫瞎撒种,要么好地没种上,要么贫瘠地种一堆,纯属白费功夫。
他们把整个数据空间当成一棵大树的根,一层一层往下分分支,最后每个小分支(也就是叶节点)都对应一个独一无二的小数据区域,这些小区域不重叠,还能把整个数据空间都盖住,这个思路真的绝,之前没人这么干过。
本来想,数据合成不就是让模型多造点样本,后来发现根本不是这么回事,关键是得“规划”,不然造出来的全是重复的没用的东西。
TreeSynth干活分两步,先分割数据空间,再在小空间里造数据,第一步分割的时候,先让大语言模型(LLM)造点“标杆样本”,再让另一个LLM分析这些样本,定个分割标准,比如要造数学题数据,就先造几十道题,分析出“运算类型”是个好标准,然后按加减法、乘除法这些分。
但光有标杆样本不够,有些数据区域可能没覆盖到,无奈之下,团队又让模型补了些潜在的属性值,确保所有数据区域都能分到,这一步就像画地图,得把所有地方都标出来,不能漏一块。
分割完就到第二步,在每个小区域里造数据,这时候会把从根到这个小区域的路径描述告诉LLM,比如“GSM8K数学题-加减法-两步运算”,让模型照着这个约束造样本。
这样看来,这就像填色游戏,每个小区域填对应的颜色,既不会乱,又能填满整个图,我认为这招比传统方案聪明多了,传统方案就是瞎填,填哪儿算哪儿,最后一半地方是空的,一半地方颜色堆太厚。
有些数据集本来分布就不均,比如手写数字数据集里,0和1的样本多到用不完,8的样本少得可怜,TreeSynth能给这些数据建分割树,把每个样本分到对应的小区域里,多的区域就随机删掉点样本,少的区域就用它补点样本,最后数据就均衡了。
这对企业太实用了,能省不少人工标注的钱,毕竟标注数据可是个费钱费力的活儿,实战见真章!TreeSynth在数学、代码上都赢了,光说不练假把式,团队拿TreeSynth做了不少实验,数学推理、代码生成、心理学任务都试了。
就说GSM8K数学题生成吧,从“GSM8K风格数学题”这个根开始分,先按运算类型分成加减法、乘除法这些,再按难度分一步、两步、多步运算,最后造出来的题,每种类型都有,还很均匀。
之前,传统方案造1000道题,加减法能占六成,开方题可能就五成,多步骤混合运算更是直接漏了,但TreeSynth造的题,每种运算类型占比都差不多,多步骤的题也有,这才叫全面。
我觉得这对训练数学推理模型太重要了,模型见的题越全,做题能力才越强
TreeSynth在所有任务里表现都更好,有些任务甚至超过了人工标注数据,更厉害的是,数据规模越大,它表现越好,不像其他方案,数据多了反而重复率高、性能上不去,这说明TreeSynth在大规模数据合成上特别稳。
数据多样性也提升不少,有些测试里提升了快一半,用t-SNE可视化一看,TreeSynth造的数据在图上散得很均匀,其他方案的都堆在一块,这就能看出来,TreeSynth是真的解决了数据重复、分布不均的问题,不是瞎吹的。
总的来说,TreeSynth不光是给数据合成提供了个新方案,更重要的是换了个思路,从瞎造变成有规划地造,以后AI训练没数据、数据差的问题,怕是能靠它解决不少。
本来以为,它只能在文本、代码这些领域用,后来发现要是拓展到多模态数据,比如图片加文字,用处肯定更大,对AI研发团队来说,这玩意儿可不是简单的工具,更像是给模型训练“喂饱饭”的关键,能让模型跑得更快、更稳。
相关文章
我们的车正变得越来越“聪明”。这些智能功能背后,是整个汽车架构的升级。ADI组建OpenGMSL协会,就是在为这些海量数据修一条更宽、更快的“路”。1...
2025-10-06 0
印象1金石滩国家旅游度假区:指尖触碰8亿年的地质情书站在恐龙探海的崖边,风裹着咸湿的海味扑在脸上。那尊由震旦纪岩层雕琢的“恐龙”,脖颈探向大海,背上覆...
2025-10-06 0
王曼昱低头擦了擦球拍,下一秒,一记爆拧直线得分,球速快得连镜头都差点没跟上。北京大满贯女单1/8决赛现场,裁判的警告声突然打断比赛——王曼昱的发球被认...
2025-10-06 1
极目新闻消息,近日,河南多地出现隐翅虫。在洛阳一建筑工地打工的卢先生告诉极目新闻记者,工地上四五十米高、几十米长的纱网以及脚手架上爬满了隐翅虫。此外,...
2025-10-06 1
香港大学和香港中文大学的研究团队,最近搞出了个叫TreeSynth的东西,这玩意儿专门解决AI训练的大难题,没数据的时候咋提升模型表现,或者现有数据质...
2025-10-06 1
菲律宾国内动荡之际,老杜突然在狱中倒下,这是不是马科斯在警告老杜家族不要轻举妄动?如果动荡加剧,马科斯控不控得住场子?80岁的菲前总统杜特尔特在海牙的...
2025-10-06 1
据报道,在过去的几个月里,菲律宾的政治风暴已经超出了任何人的预期。国内的反腐抗议风起云涌,几乎所有的政治聚焦点都集中在政府的腐败问题上。与此同时,国际...
2025-10-06 1
关于“人工智能与我们的生活有多远?”,最准确的回答是:它不是“有多远”的问题,而是它“早已无处不在”,并且正以惊人的速度与我们融合得更深。我们可以从两...
2025-10-06 1
发表评论