ProX – 提高大语言模型预训练数据质量的框架
2025-02-08 13:59:25 小编:六六导航站
ProX是什么
ProX(Programming Every Example)是一个旨在提高大型语言模型预训练数据质量的框架。与传统依赖人类专家制定规则的方法不同,ProX将数据清洗任务视为编程问题,支持模型自动执行如字符串标准化和噪声行移除等细粒度操作。小型模型(如0.3B参数)也能展现出与人类专家相当的数据处理能力。实验结果表明,ProX处理后的数据用于模型预训练,在各种下游任务中取得超过2%的性能提升。ProX的另一个显著优势是在不同模型大小和预训练语料库上的广泛适用性,包括在特定领域(如数学)的持续预训练中,无需特定领域设计即可显著提升模型性能。ProX节省训练FLOPs,为高效预训练大型语言模型提供有前景的路径。

ProX的主要功能
数据精炼: ProX基于生成和执行程序精炼大规模数据集,提高数据质量,用在大型语言模型的预训练。自动化处理: 自动化地对每个数据样本进行细粒度的清洗和改进,无需人工专家干预。性能提升: ProX处理过的数据进行预训练的模型,在多个下游任务中表现出超过2%的性能提升。领域灵活性: 适用于不同领域,包括数学等,在不需要特定领域设计的情况下提升准确性。资源节省: 相比于基于大型语言模型的数据合成方法,ProX在保持结果的同时,显著减少计算资源的需求。ProX的技术原理
模型适应性: ProX首先在种子数据上微调小型基础语言模型适应数据精炼任务。程序生成: 适应后的模型为预训练语料库中的每个样本生成数据处理程序,程序包括过滤、字符串标准化和去除噪声行等操作。程序执行: 生成的程序由预定义的执行器执行,产生准备好预训练的精炼语料库。两阶段精炼: ProX包括文档级编程和块级编程两个阶段,分别进行粗粒度和细粒度的数据精炼。功能调用: ProX基于灵活的功能调用增强数据质量,统一为特定的转换或清洗过程。计算效率: ProX展示在较少的预训练计算FLOPs下,如何通过投资额外的计算资源精炼预训练语料库,从而实现更高效的预训练。ProX项目地址
项目官网:gair-nlp.github.io/ProXGitHub仓库:https://github.com/GAIR-NLP/ProXHuggingFace模型库:https://huggingface.co/gair-proxarXiv技术论文:https://arxiv.org/pdf/2409.17115ProX的应用场景
大型语言模型预训练:ProX能提升大量高质量文本数据进行预训练的大型语言模型的数据集质量。数据清洗和预处理:在数据挖掘、自然语言处理和其他机器学习任务中,ProX自动执行数据清洗和预处理步骤,减少人工干预。领域适应性训练:对于特定领域的应用,如医疗、法律或金融,ProX能优化数据集更好地适应专业术语和语境。持续学习:在持续学习或增量学习的场景中,ProX帮助模型通过不断精炼数据适应新信息和变化。数据合成:ProX能生成高质量的合成数据,增强现有的数据集,特别是在数据稀缺的领域。- 猜你喜欢
-
GPT Stylist提示指令
-
-
-
FictionGPT提示指令
-
-
Embra提示指令
-
ChatGPT Super提示指令
-
DapperGPT提示指令
-
IMI Prompt提示指令
- 相关AI应用
-
Enhanced ChatGPT提示指令
-
Ghostwrite提示指令
-
悟智写作提示指令
-
-
BraveGPT提示指令
-
ChatGPT Sidebar提示指令
-
Prompt Genie提示指令
-
RoleD提示指令
-
2233.ai提示指令
- 推荐AI教程资讯
- ProX – 提高大语言模型预训练数据质量的框架
- OutofFocus – 文本驱动图像生成或编辑的AI工具
- TeleChat2-115B – 中国电信AI研究院推出的开源星辰语义大模型
- GroundingBooth – Adobe联合多所高校推出主题和文本到图像的定制框架
- markmap – 解析Markdown生成可视化思维导图的工具
- OLMoE – 完全开源的大语言模型,基于混合专家(MoE)架构
- WebDesignAgent – 自动化网页设计AI工具,零门槛搭建各类型网站
- Bolt․new – AI全栈 Web 编程工具,自动写代码、运行、部署
- ChatMLX – 高性能MacOS聊天应用,基于MLX框架实现与数据实时交互
- anime.gf – AI虚拟角色创建与互动的开源应用
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
智元兔AI写作2025-01-27法律助手
-
AI Prompt Generator2025-01-02提示指令
-
讯飞听见写作2025-02-03法律助手
-
Superpower ChatGPT2025-02-01提示指令