港大TreeSynth破局！数据合成从“乱撒种”到“精准填色”

热点资讯 2025年10月06日 22:36 1 cc

香港大学和香港中文大学的研究团队，最近搞出了个叫TreeSynth的东西，这玩意儿专门解决AI训练的大难题，没数据的时候咋提升模型表现，或者现有数据质量不行、分布不均的问题。

现在AI模型，越来越“挑食”，没好数据根本跑不起来，之前那些数据合成方案，我瞅着就像没规划的农夫瞎撒种，要么好地没种上，要么贫瘠地种一堆，纯属白费功夫。

TreeSynth的想法，是从决策树那儿来的

他们把整个数据空间当成一棵大树的根，一层一层往下分分支，最后每个小分支（也就是叶节点）都对应一个独一无二的小数据区域，这些小区域不重叠，还能把整个数据空间都盖住，这个思路真的绝，之前没人这么干过。

本来想，数据合成不就是让模型多造点样本，后来发现根本不是这么回事，关键是得“规划”，不然造出来的全是重复的没用的东西。

TreeSynth干活分两步，先分割数据空间，再在小空间里造数据，第一步分割的时候，先让大语言模型（LLM）造点“标杆样本”，再让另一个LLM分析这些样本，定个分割标准，比如要造数学题数据，就先造几十道题，分析出“运算类型”是个好标准，然后按加减法、乘除法这些分。

但光有标杆样本不够，有些数据区域可能没覆盖到，无奈之下，团队又让模型补了些潜在的属性值，确保所有数据区域都能分到，这一步就像画地图，得把所有地方都标出来，不能漏一块。

分割完就到第二步，在每个小区域里造数据，这时候会把从根到这个小区域的路径描述告诉LLM，比如“GSM8K数学题-加减法-两步运算”，让模型照着这个约束造样本。

这样看来，这就像填色游戏，每个小区域填对应的颜色，既不会乱，又能填满整个图，我认为这招比传统方案聪明多了，传统方案就是瞎填，填哪儿算哪儿，最后一半地方是空的，一半地方颜色堆太厚。

有些数据集本来分布就不均，比如手写数字数据集里，0和1的样本多到用不完，8的样本少得可怜，TreeSynth能给这些数据建分割树，把每个样本分到对应的小区域里，多的区域就随机删掉点样本，少的区域就用它补点样本，最后数据就均衡了。

这对企业太实用了，能省不少人工标注的钱，毕竟标注数据可是个费钱费力的活儿，实战见真章！TreeSynth在数学、代码上都赢了，光说不练假把式，团队拿TreeSynth做了不少实验，数学推理、代码生成、心理学任务都试了。

就说GSM8K数学题生成吧，从“GSM8K风格数学题”这个根开始分，先按运算类型分成加减法、乘除法这些，再按难度分一步、两步、多步运算，最后造出来的题，每种类型都有，还很均匀。

之前，传统方案造1000道题，加减法能占六成，开方题可能就五成，多步骤混合运算更是直接漏了，但TreeSynth造的题，每种运算类型占比都差不多，多步骤的题也有，这才叫全面。

我觉得这对训练数学推理模型太重要了，模型见的题越全，做题能力才越强

TreeSynth在所有任务里表现都更好，有些任务甚至超过了人工标注数据，更厉害的是，数据规模越大，它表现越好，不像其他方案，数据多了反而重复率高、性能上不去，这说明TreeSynth在大规模数据合成上特别稳。

数据多样性也提升不少，有些测试里提升了快一半，用t-SNE可视化一看，TreeSynth造的数据在图上散得很均匀，其他方案的都堆在一块，这就能看出来，TreeSynth是真的解决了数据重复、分布不均的问题，不是瞎吹的。

总的来说，TreeSynth不光是给数据合成提供了个新方案，更重要的是换了个思路，从瞎造变成有规划地造，以后AI训练没数据、数据差的问题，怕是能靠它解决不少。

本来以为，它只能在文本、代码这些领域用，后来发现要是拓展到多模态数据，比如图片加文字，用处肯定更大，对AI研发团队来说，这玩意儿可不是简单的工具，更像是给模型训练“喂饱饭”的关键，能让模型跑得更快、更稳。

发表评论