大理白族自治州网站建设_网站建设公司_服务器维护_seo优化
2026/1/19 21:20:55 网站建设 项目流程

用单一语种数据集SFT

用COIG-CQIA数据集,以及把COIG-CQIA数据集混合guanaco和belle之后的数据集一起SFT 32B-Base模型,或者基于32B-Chat模型SFT(1-3 epoch),
目的是想提升LLM在单一语种的效果,
然后在中文通用评测集CEVAL和CMMLU评测,
效果都不如32B-Chat模型。

用一个NLP数据集SFT

用一个NLP任务的数据集(30W data),SFT 32B-Base模型,或者基于32B-Chat模型SFT(1 epoch),
目的是想把预训练的知识用到这个NLP任务里,
把SFT之后的LLM作为标注这个NLP任务训练数据的标注LLM,
效果还不如通用的32B-Chat模型作为标注LLM。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询