多语言环境下智能体(Agent)进行复杂推理和工具调用解决方案

发布时间:2026/7/2 18:43:30
多语言环境下智能体(Agent)进行复杂推理和工具调用解决方案 这篇论文介绍了一个名为LuckyStar 111B的双语韩英企业级代理模型。该模型由 Cohere 和 LG CNS 合作开发旨在解决多语言环境下智能体Agent进行复杂推理和工具调用如 NL2SQL时的效率与准确性问题。https://arxiv.org/html/2606.31648v1以下是该研究的思维导图以下是该研究的详细解读 一、研究背景与问题定义1. 企业级智能体的现实挑战多语言与私有数据企业助手如韩国企业助手需要处理韩语请求但往往需要基于英文为主的 Schema 或文档进行推理执行 SQL 或检索工具并返回韩语答案。资源约束必须在严格的内存和服务预算下运行这对模型的大小和推理效率提出了极高要求。现有局限直接微调多语言模型往往导致“语言漂移”韩语提问英语回答且针对工具调用的强化学习面临“冷启动”问题基础模型准确率太低无法获得有效奖励信号。2. 核心研究目标开发一种混合推理模式既能进行复杂的工具调用推理又能保持简洁的日常对话能力。解决多语言环境下的语言一致性问题。实现 111B 参数模型在单张 GPU 上的高效部署。️ 二、模型架构与方法1. 混合适配管道LuckyStar 111B 基于 Cohere 的Command A111B 参数进行适配而非从头预训练。采用了三阶段训练流程混合监督微调80% 的推理数据数学、代码、工具使用与 20% 的非推理指令数据混合。通过“前言调节”Preamble Conditioning控制模型在推理模式详细步骤和非推理模式简洁回答之间切换。可验证奖励强化学习使用 RLOO 算法针对数学和 NL2SQL 任务使用二元奖励正确/错误。离线偏好对齐使用 DPO 算法结合人工偏好数据修正强化学习带来的冗长问题恢复简洁性。2. 多语言推理策略“英语思考韩语回答”实验发现对于韩语提示使用英语进行中间推理Chain of Thought比韩语推理能获得更高的准确率AIME 2024 韩语提示下英语推理得分 69.3 vs 韩语推理 50.9。语言一致性惩罚在强化学习阶段引入惩罚项如果最终答案的语言与提示语言不匹配如韩语提问英语回答则扣除奖励从而解决语言漂移问题。3. 代理 NL2SQL 数据构建数据清洗从 Spider、BIRD 和 SynSQL 中筛选出 100,000 个可执行且输出长度适中的样本。冷启动策略由于基础模型在 NL2SQL 上准确率不足 1%研究使用了“最佳 N 采样”生成高质量的 SFT 数据为后续的强化学习提供初始策略。 三、实验设置与数据来源1. 评估基准数学推理AIME 2024, MATH 500包含韩语翻译版。工具使用BFCL v3函数调用Enterprise NL2SQL内部基准LG Agentic Evaluation内部业务/金融评估。通用质量KMMLU韩语知识MMLU英语知识ARC-CIFEvalMT-Bench。2. 部署环境量化测试将模型从 FP8 量化至 4-bit测试其在单张 80GB H100 GPU 上的运行可行性。 四、实验结果与分析1. 推理与工具使用能力显著提升LuckyStar 111B 在多项指标上超越了基座模型 Command A甚至在某些领域接近或超越了 GPT-4o 和 Claude 3.7 Sonnet。模型AIME 2024 (韩)Enterprise NL2SQLLG Agentic EvalCommand A (基座)10.07.32.67LuckyStar 111B69.338.04.85GPT-4o16.737.32.56Claude 3.7 Sonnet46.738.05.042. 通用多语言质量保持尽管进行了专门的推理微调模型在通用的韩语KMMLU, MT-Bench和英语MMLU, MT-Bench基准测试中仍保持了高质量未出现灾难性遗忘。3. 高效部署可行性4-bit 量化效果量化后的模型在数学推理AIME, MATH和通用基准上与 FP8 版本表现相当证明了在单张 H100 上部署 111B 模型的可行性。模型版本AIME 2024 (英)MATH 500 (英)KMMLU (韩)LuckyStar 111B (FP8)73.794.068.6LuckyStar 111B (4-bit)72.396.067.9 五、结论与展望1. 核心结论混合推理模式有效通过前言调节实现单一模型支持两种模式推理/非推理是可行的。语言分离策略对于资源较少的语言如韩语使用英语进行中间推理能显著提升复杂任务的准确率。部署优化4-bit 量化是降低企业部署门槛的关键技术。2. 未来工作扩展母语韩语推理数据减少对英语推理的依赖。更全面地测量服务效率延迟、吞吐量。与企业知识库和工具进行更深度的集成。该研究为企业级多语言智能体的开发提供了一套完整的“教科书式”流程特别是“英语思考韩语回答”的策略以及针对工具调用的冷启动数据构建方法对解决非英语环境下的复杂任务处理具有重要的参考价值。