池州市网站建设_网站建设公司_Vue_seo优化
2025/12/25 14:59:52 网站建设 项目流程

LESS: Selecting Influential Data for Targeted Instruction Tuning

ICML 2024, Princeton

Instruction Tuning

文章提出了一种数据挑选方法LESS (Low-rank gradiEnt Similarity Search),旨在从大量数据中挑选最相关的数据来提升模型的特定能力。LESS首先对模型使用Lora进行warmup,然后计算模型的一阶梯度特征用于估计数据的影响,接着基于梯度特征进行数据选择,用挑选后的数据集(top-5%的数据)进行微调能够有效提升模型的能力。LESS还有两个优点:(1)能够适用于大模型训练常用的Adam优化器;(2)降维:采用Lora、维度投影两个技术降低梯度特征的维度,从而减小计算开销。

Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning

arxiv 2023, 阿里

Instruction Tuning

文章提出了一种自我进化的多样化数据采样方法,旨在解决大模型指令微调中数据量大、成本高的问题。该方法通过迭代的方式扩展训练数据池,基于K-Center算法选择与现有训练数据在嵌入空间中距离最远的数据点,作为新加入的训练数据,确保训练数据具有代表性,能够覆盖完整数据集。该方法使用原始数据集2%-8%的数据量即可匹配或超过全量数据微调的性能。

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

NAACL 2024, University of Maryland

Instruction Tuning

文章提出了一种自引导数据选择框架,无需外部模型,自主筛选对自身调优最有效的样本。分为三个阶段。第一阶段,用目标数据集的少量样本(为保证多样性,使用Kmeans聚类,从100个聚类中各选10个样本)训练初始模型,使其具备基础的指令遵循能力。第二阶段,计算指令遵循难度(instruction following difficulty) IFD指标,即模型在“有指令”引导下生成答案的损失 与 “无指令”下的生成答案的损失 的比值,IFD分数越高说明指令对模型的引导作用越弱,样本难度越大,调优价值越高。第三阶段,筛选IFD分数较高的样本训练最终模型。缺点:使用GPT4和人工进行打分,得到winning score,感觉不是很客观。Huggingface Open LLM Leaderboard似乎是不错的benchmark。

Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning

ACL 2024, University of Maryland

Instruction Tuning

在上述工作的基础上继续做了一篇文章。作者提出了以下猜想:在理解和感知指令微调数据难度方面,弱语言模型和较强语言模型之间具有强一致性。实验结果表明,困惑度PPL和指令遵循难度IFD排序在不同规模的模型之间具有较强的一致性(通过pearlson 系数衡量)。文章直接利用小语言模型如GPT-2,计算IFD,进而筛选top-k%的数据,极大地减少数据筛选的时间和成本。(原先的数据筛选方法要么基于大模型,要么需要进行额外的训练,时间和成成本较高)。

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models

ACL 2024, University of California San Diego
文章提出了“学习百分比 LP”来衡量数据的难度。其核心思想是模型通常先学习简单样本,然后学习难样本。难样本对于提升模型的能力更重要。学习百分比 LP 的定义是样本在训练第i轮的困惑度下降比例。因为模型1个epoch即可学习大部分信息,主要使用LP(1)排序。LP(1)越小,困惑度下降越少,样本越难。此外,为了保证多样性,文章使用Kmeans聚类,从每个类中选取LP(1) 最小的top-k%,最终组成筛选后的数据集。文章还指出难度具有传递性,即小模型觉得难的数据,大模型也可能觉得难,因此能够类似预训练中的proxy model,提升数据筛选效率。

One-Shot Learning as Instruction Data Prospector for Large Language Models

ACL 2024, 阿里

Instruction Tuning

文章将“单样本学习”视为隐式指令调优,通过对比模型在“无指令”和“单样本”在预定义任务集上的表现,计算黄金分数,从而评估指令质量。分为以下四个步骤。一,构建预定义任务集(随机选取1000个样本/Kmeans聚类后选取)。二,计算模型在预定义任务集上的表现,得到零样本分数。三,对指令集中的每个样本,将其作为单样本提示拼接到预定义的任务前,计算模型的单样本分数。四,黄金分数=单样本分数-零样本分数,选取top-k%的指令数据作为高质量子集。缺点:虽然不用多次微调,但是需要进行很多次推理,总推理次数=预定义任务集 * (总样本数+1).

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

ACL 2025, 上海交通大学

Task-specific Fine Tuning

针对现有任务特定的LLM微调数据选择方法“效率低、需要在目标数据集上微调,额外训练评分模型”的问题,文章提出了Data Whisperer方法。该方法通过 少样本上下文学习(In Context Learning)+注意力加权 实现了无需训练的高效数据选择,大幅提升了数据选择的速度。文章的基本想法是:上下文学习和微调都存在相似性,而上下文学习无需训练成本较低,可以用来替代之前数据选择方法中常用的先微调再筛选。主要包含以下几个步骤:一、构建上下文学习的提示,包括nd个演示样本和nq个查询样本。二、用代微调的模型基于之前生成的提示回答问题,根据任务指标打分(数学题用准确率,摘要用ROUGE-L),分数会分配给每个演示样本。三、采用模型中间层的注意力分数作为分数的权重,修正ICL提示词中演示样本顺序带来的影响。四、所有样本都参与演示并累计得分(步骤二的分数与步骤三的权重加权求和),最终筛选出评分最高的数据子集。

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

ACL 2025, 上海AI Lab

Instruction Tuning

传统方法的多样性仅关注嵌入空间距离/聚类,未能捕捉语义意图。文章通过构建”标签图“来建模语义空间,根据图上的信息分布来量化数据点的多样性。标签图的节点为标签如”医学咨询“,边权重为标签之间的相似度。根据构建的标签图,该方法采用贪心方法迭代地采样能够在语义空间中最大化信息增益的样本点,从而兼顾数据的质量和全局语义多样性。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询