提升大语言模型能力)
一、研究背景与核心问题随着大语言模型LLM数量的激增和能力的不断提升一个自然产生的问题是能否利用多个不同LLM的集体智慧和互补优势创造出比任何单一模型都更强大的系统以往提升模型性能的主要方式是扩大模型规模或增加训练数据但这两种方式成本极其高昂。因此如何以更经济、高效的方式“集成”现有模型成为一个极具吸引力的研究方向。这篇论文正是针对这一问题提出了名为混合智能体Mixture-of-AgentsMoA的创新框架。二、核心发现与理论基础在提出具体方法之前作者首先揭示了一个关键现象——LLM的协作性Collaborativeness定义当一个LLM在生成回答时如果能够参考其他模型即使是能力不如自己的模型生成的输出其自身的回答质量往往会得到显著提升。验证如图1所示当多个流行模型如GPT-4、Claude等被提供了其他模型的回答作为参考后它们在AlpacaEval基准上的胜率均有明显提高。意义这一现象是MoA方法能够生效的基石表明模型之间存在天然的协同潜力且这种协同不要求辅助信息必须“高质量”。三、方法论混合智能体MoA框架1. 核心思想与架构MoA框架的核心是构建一个分层迭代的协作系统灵感来源于混合专家MoE模型但作用在“模型级别”而非“网络层级别”。层Layers系统由多层组成如3层。智能体Agents每一层包含多个LLM实例可以重复使用同一个模型利用其随机性生成不同回答。工作流程第一层提议层所有智能体独立对用户问题进行回答。后续层聚合/精炼层下一层的每个智能体在生成回答时不仅看到原始问题还会看到上一层所有智能体的回答并依据特定的“聚合与合成”提示词见表1将这些回答整合、批判、精炼生成一个更优的新回答。最终输出取最后一层中某个智能体或聚合器的输出作为最终答案。2. 智能体的两种角色作者将参与协作的模型分为两类角色并发现不同模型擅长不同角色提议者Proposers擅长生成多样化的、有参考价值的初始回答为后续聚合提供丰富的素材。例如WizardLM 8x22B是一个出色的提议者。聚合器Aggregators擅长从多个回答中提取、综合、批判和提炼最终形成高质量答案。例如Qwen1.5-110B-Chat、GPT-4o是优秀的聚合器。关键发现一个模型可能同时擅长两种角色如GPT-4o、Qwen1.5也可能只擅长一种如WizardLM主要擅长提议。3. 与混合专家MoE的类比MoE是在单个模型内部通过门控网络选择多个专家子网络。MoA则是在多个独立模型之间通过LLM自身的理解能力通过提示词来选择和综合不同模型的输出。MoA不需要修改模型权重完全基于提示接口运行因此灵活性高、成本低、易于扩展。四、主要实验与性能表现论文在三个权威基准测试上进行了全面评估取得了SOTA结果1. AlpacaEval 2.0衡量模型与人类偏好对齐度MoA开源模型组合LC胜率达到65.1%显著超越了当时最强的GPT-4 Omni57.5%绝对提升7.6%。MoA w/ GPT-4o以GPT-4o作为最终聚合器胜率高达65.7%。MoA-Lite轻量版仅2层胜率达到59.3%仍超越GPT-4 Omni且成本效益更高。2. MT-Bench多轮对话能力MoA w/ GPT-4o 获得9.40分位列第一标准MoA获得9.25分同样领先于所有单一模型。由于该基准已趋饱和提升幅度较小但依然保持了领先。3. FLASK细粒度技能评估MoA在正确性、事实性、洞察力、完整性、鲁棒性等多个维度上显著优于其基础聚合器Qwen-110B-Chat和GPT-4 Omni仅在简洁性上略有不足输出稍显冗长。五、机制分析与关键洞察论文通过大量消融实验深入剖析了MoA为何有效MoA ≠ 简单排序或投票作者比较了MoA与“LLM排序器”即让聚合器从所有提议回答中选出一个最佳者。结果显示MoA远优于排序器证明聚合器并非简单选取而是执行了复杂的信息融合与再创造。聚合器倾向于借鉴最佳回答通过计算聚合器最终回答与各提议者回答的相似度BLEU等发现最终回答与GPT-4评估得分高的提议回答有更高的相似度表明聚合器能有效识别并吸收优质信息。多样性与数量至关重要数量随着每层提议者数量n的增加最终性能单调提升。多样性在相同数量下使用多个不同模型作为提议者多提议者的效果远好于让同一个模型生成多次回答单提议者。这证明模型间的差异性是协作收益的关键来源。模型角色专业化不同模型在提议和聚合方面能力差异显著见表4选择正确的模型担任正确角色对系统性能影响巨大。六、成本与效益分析论文还进行了详细的预算和延迟分析成本-性能帕累托前沿MoA尤其是MoA-Lite在成本与性能的权衡上达到了最优平衡。MoA-Lite在达到与GPT-4o相当成本的同时性能更高其性能比GPT-4 Turbo高约4%成本却仅为后者的一半不到超过2倍成本效益。延迟/计算量使用tflops作为延迟代理指标MoA同样展现出良好的计算效率位于帕累托前沿。七、研究贡献与局限性主要贡献新框架提出了MoA一种无需微调、即插即用、能显著提升多LLM协作性能的通用框架。新发现揭示了并系统验证了LLM的“协作性”这一重要现象。新SOTA在不使用私有模型的情况下仅用开源模型组合就登顶多个主流榜单超越了当时最强的闭源模型GPT-4 Omni。局限性首令牌延迟TTFT较高因为系统必须等待所有前置层计算完毕才能生成第一个输出令牌。缓解方案是减少层数或探索分块聚合。论文提出了一种名为混合智能体MoA的高效集成框架通过分层次地让多个LLM相互参考和精炼回答显著提升了生成质量以远低于顶级闭源模型的成本实现了对它们的超越并为未来利用模型多样性提升AI能力开辟了新思路。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要近年来大语言模型LLMs的进步展示了其在自然语言理解和生成任务上的强大能力。随着LLM数量的不断增长如何利用多个LLM的集体专业知识是一个令人兴奋的开放方向。为此我们提出了一种新方法通过混合智能体Mixture-of-AgentsMoA方法论来利用多个LLM的集体优势。在我们的方法中我们构建了一个分层的MoA架构其中每一层包含多个LLM智能体。每个智能体在生成其响应时会将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK基准测试中取得了最先进的性能超越了GPT-4 Omni。例如仅使用开源LLM的MoA模型在AlpacaEval 2.0排行榜上以显著差距领先取得了65.1%的得分而GPT-4 Omni为57.5%。1 引言近年来大语言模型LLMsZhang等人2022aChowdhery等人2022Touvron等人2023aTeam等人2023Brown等人2020OpenAI2023显著推进了自然语言理解和生成领域。这些模型在海量数据上进行预训练随后与人类偏好对齐以生成有用且连贯的输出Ouyang等人2022。然而尽管LLMs种类繁多且成就斐然它们仍然面临模型规模和训练数据方面的固有局限。进一步扩展这些模型的规模成本极高通常需要在数万亿个令牌上进行广泛的重新训练。与此同时不同的LLM拥有独特的优势并在各种任务方面有所专长。例如一些模型擅长复杂的指令遵循Xu等人2023a而另一些模型可能更适合代码生成Roziere等人2023Guo等人2024。不同LLM之间这种技能集的多样性提出了一个有趣的问题我们能否利用多个LLM的集体专业知识来创建一个更强大、更稳健的模型我们对这个问题的回答是肯定的。我们识别出一个固有现象称之为LLM的协作性collaborativeness——即当一个LLM在生成响应时如果能够参考其他模型的输出即使这些其他模型自身能力较弱该LLM也倾向于生成更好的响应。图1展示了6个流行LLM在AlpacaEval 2.0基准测试Dubois等人2024上的LC胜率。图2混合智能体Mixture-of-Agents结构示意图。此示例展示了4个MoA层每层有3个智能体。这里的智能体可以共享相同的模型。当这些模型被提供了由其他模型独立生成的答案时它们的LC胜率显著提高。这表明协作现象在LLM中普遍存在。值得注意的是即使其他模型提供的辅助响应质量低于单个LLM能够独立生成的质量这种改进仍然会发生。基于这一发现本文提出了一种混合智能体Mixture-of-AgentsMoA方法论利用多个LLM来迭代地提升生成质量。MoA的结构如图2所示。初始时第一层的LLM表示为智能体 A1,1,…,A1,n针对给定的提示独立生成响应。然后这些响应被呈现给下一层的智能体 A2,1,…,A2,n这些智能体可能复用第一层的模型以进行进一步的精炼。这个迭代精炼过程持续多个周期直到获得更稳健和全面的响应。图1当提供来自其他模型的响应时AlpacaEval 2.0的LC胜率有所提高。为确保模型间的有效协作并提高整体响应质量为每个MoA层精心选择LLM至关重要。此选择过程基于两个主要标准(a)性能指标第 i 层模型的平均胜率在决定其是否适合纳入第 i1 层时起着重要作用。因此基于模型已证明的性能指标进行选择可确保更高质量的输出。(b)多样性考量模型输出的多样性同样至关重要。如我们将在第3.3节中所示由异构模型生成的响应比由同一模型生成的响应贡献要大得多。通过利用这些标准——性能和多样性——MoA旨在减轻单个模型的缺陷并通过协作合成提高整体响应质量。我们使用AlpacaEval 2.0、MT-BenchZheng等人2023、FLASKYe等人2023基准测试对响应质量进行了跨多个维度的全面评估。结果表明我们的方法带来了显著的改进在AlpacaEval 2.0上取得了新的SOTA胜率65.8%而之前的最佳成绩是GPT-4 Omni的57.5%。本工作的贡献总结如下(1)新颖框架我们提出了一个混合智能体框架旨在利用多个LLM的优势从而提高其推理和语言生成能力。(2)语言模型协作性的发现我们强调了LLM之间固有的协作性即当模型能够访问其他模型的输出时即使这些输出质量较低它们倾向于生成更高质量的响应。(3)最先进的LLM性能我们使用多个高竞争力的基准测试如AlpacaEval 2.0、MT-Bench和FLASK进行了广泛的实验我们的MoA框架在这些基准测试上取得了最先进的性能。2 混合智能体Mixture-of-Agents方法论在本节中我们介绍所提出的利用多个模型实现性能提升的方法论。我们首先论证LLM具有协作性因此能够基于其他模型的输出来改进其响应。接着我们介绍混合智能体方法论并讨论其设计意义。2.1 LLM的协作性我们首先展示LLM的协作性特别是它们在能够参考其他模型的输出时生成更高质量响应的能力。正如我们在引言和图1中所示当今许多可用的LLM都展现出这种协作能力。从多个LLM的协作中获取最大收益的一个重要途径是刻画不同模型在协作的各个方面擅长什么。在协作过程中我们可以将LLM归类为两种不同的角色提议者Proposers擅长生成有用的参考响应以供其他模型使用。虽然一个好的提议者自身生成的响应可能得分不高但它应提供更多的上下文和不同的视角当被聚合器使用时最终有助于产生更好的响应。聚合器Aggregators是擅长将其他模型的响应合成为一个高质量输出的模型。一个有效的聚合器即使在整合质量低于其自身输出的信息时也应能维持或提升输出质量。第3.3节通过实验验证了聚合器和提议者的角色。具体来说我们表明许多LLM同时具备作为聚合器和提议者的能力而某些模型则在特定角色上表现出专门化的熟练度。GPT-4o、Qwen1.5、LLaMA-3成为在多方面辅助和聚合任务中都有效的通用模型。相比之下WizardLM作为提议者模型表现出色但在聚合其他模型的响应时难以保持其有效性。鉴于聚合器可以通过借鉴其他模型的输出来生成更高质量的响应我们提议通过引入更多的聚合器来进一步增强这种协作潜力。一个直观的想法是复制此过程使用多个聚合器——首先使用几个聚合器来聚合出更好的答案然后重新聚合这些聚合后的答案。通过在过程中整合更多聚合器我们可以迭代地合成和精炼响应利用多个模型的优势来产生更优的结果。这引出了我们提出的混合智能体Mixture-of-Agents的设计。2.2 混合智能体Mixture-of-Agents表 1用于整合其他模型响应的“聚合与合成”提示。您已获得一组来自各种开源模型针对最新用户查询的响应。您的任务是将这些响应合成为一个单一、高质量的响应。至关重要的是要批判性地评估这些响应中提供的信息认识到其中一些可能是有偏见的或不正确的。您的响应不应简单地复制给出的答案而应针对指令提供精炼、准确和全面的答复。确保您的响应结构良好、连贯并符合最高的准确性和可靠性标准。来自模型的响应 1. [来自 Ai,1 的模型响应] 2. [来自 Ai,2 的模型响应] ... n. [来自 Ai,n 的模型响应]2.3 与混合专家Mixture-of-Experts的类比混合专家Mixture-of-ExpertsMoEShazeer等人2017是机器学习中一项著名且成熟的技术其中多个专家网络专注于不同的技能集。MoE方法因其能够利用多样化的模型能力来解决复杂问题在各种应用中取得了显著成功。我们的MoA方法从这种方法论中汲取了灵感。典型的MoE设计由一系列称为MoE层的层堆叠而成。每层包含一组 n 个专家网络以及一个门控网络并包含用于改善梯度流的残差连接。形式上对于第 i 层此设计可以表示如下从高层次角度看我们提出的MoA框架通过在模型级别而非激活级别上操作将MoE概念扩展到模型层面。具体来说我们的MoA方法利用LLM并且完全通过提示接口操作无需修改内部激活或权重。这意味着不同于MoE中在单个模型内使用专门的子网络我们在不同层中利用多个完整的LLM。请注意在我们的方法中我们使用LLM来整合门控网络和专家网络的角色因为LLM的内在能力使其能够通过解释提示和生成连贯输出来有效地规范化输入而无需外部协调机制。此外由于此方法仅依赖于现成模型固有的提示能力(1) 它消除了与微调相关的计算开销(2) 它提供了灵活性和可扩展性我们的方法可以应用于最新的LLM无论其大小或架构如何。3 评估本节对我们提出的MoA进行全面评估。我们的研究结果表明我们在AlpacaEval 2.0、MT-Bench和FLASK基准测试上取得了显著改进。值得注意的是仅使用开源模型我们的方法在AlpacaEval 2.0和FLASK上就超越了GPT-4o。我们进行了广泛的实验以更好地理解MoA的内部机制。通过详细的预算分析MoA的几种实现可以在性能上与GPT-4 Turbo相当同时成本效益高出2倍。表2AlpacaEval 2.0和MT-Bench的结果。对于AlpacaEval 2.0MoA和MoA-Lite分别对应于具有6个提议者、3层结构和2层结构的配置。MoA w/ GPT-4o 对应于在MoA中使用GPT-4o作为最终聚合器。我们的实验运行了三次并报告了平均分数和标准差。† 表示我们对AlpacaEval结果的复现。我们自行运行了所有MT-Bench分数以获得基于轮次的分数。(a) AlpacaEval 2.0模型LC胜率原始胜率MoA w/ GPT-4o65.7±0.7%78.7±0.2%MoA65.1±0.6%59.8±0.3%MoA-Lite59.3±0.2%57.0±0.7%GPT-4 Omni (05/13)57.5%51.3%GPT-4 Turbo (04/09)55.0%46.1%WizardLM 8x22B51.3%62.3%GPT-4 Preview (11/06)50.0%50.0%Qwen1.5 110B Chat43.9%33.8%Qwen1.5 72B Chat36.6%26.5%GPT-4 (03/14)35.3%22.1%Llama 3 70B Instruct34.4%33.2%Mixtral 8x22B v0.130.9%22.2%(b) MT-Bench模型平均分第一轮第二轮MoA w/ GPT-4o9.40±0.069.499.31GPT-4 Turbo (04/09)9.319.359.28MoA9.25±0.109.449.07GPT-4 Preview (11/06)9.209.389.03GPT-4 Omni (05/13)9.199.319.07MoA-Lite9.18±0.099.388.99Qwen1.5 110B Chat8.969.238.63Llama 3 70B Instruct8.949.28.68Mixtral 8x22B v0.18.789.118.44WizardLM 8x22B8.788.968.61Qwen1.5 72B Chat8.448.558.34GPT-4 (06/13)8.849.088.613.1 设置基准测试我们主要在AlpacaEval 2.0Dubois等人2024上评估模型这是一个用于评估LLM与人类偏好对齐度的领先基准。它包含805个代表实际用例的指令。每个模型的响应直接与GPT-4gpt-4-1106-preview的响应进行比较由基于GPT-4的评估器决定偏好被评估模型响应的可能性。为确保公平性评估采用长度控制LC胜率有效消除了长度偏差。此外我们还在MT-BenchZheng等人2023和FLASKYe等人2023上进行了评估。MT-Bench使用GPT-4对模型的答案进行评分。而FLASK则提供了更细粒度的评估包含12个特定技能的分数。模型在我们的研究中我们仅使用开源模型构建了默认的MoA以实现具有竞争力的性能。包含的模型有Qwen1.5-110B-ChatBai等人2023Qwen1.5-72B-ChatWizardLM-8x22BXu等人2023aLLaMA-3-70B-InstructTouvron等人2023bMixtral-8x22B-v0.1Jiang等人2024dbrx-instructThe Mosaic Research Team2024。我们构建了3个MoA层并在每个MoA层中使用相同的模型集。我们使用Qwen1.5-110B-Chat作为最后一层的聚合器。我们还开发了一个名为MoA w/ GPT-4o的变体它通过使用GPT-4o作为最终MoA层的聚合器来优先保证高质量输出。另一个变体MoA-Lite则强调成本效益。它使用与提议者相同的模型集但仅包含2个MoA层并使用Qwen1.5-72B-Chat作为聚合器。这使得它比GPT-4o更具成本效益同时在AlpacaEval 2.0上的质量提升了1.8%。我们确保严格遵守本研究中使用的所有模型的许可条款。对于开源模型所有推理均通过Together Inference Endpoint运行。3.2 基准测试结果在本小节中我们展示了在三个标准基准测试上的评估结果AlpacaEval 2.0、MT-Bench和FLASK。选择这些基准测试是为了全面评估我们方法的性能并与最先进的LLM进行比较。AlpacaEval 2.0我们将我们的方法与领先模型如GPT-4和其他最先进的开源模型进行了比较。详细结果见表2a我们的MoA方法在AlpacaEval 2.0排行榜上取得了顶尖位置相比之前的顶级模型GPT-4o实现了显著的8.2%绝对改进。此外特别值得注意的是我们的模型仅使用开源模型就超越了GPT-4o实现了从57.5%GPT-4o到65.1%MoA的7.6%绝对改进。我们的MoA-Lite设置使用更少的层更具成本效益。即使采用这种更轻量级的方法我们仍然超越了最佳模型1.8%从57.5%GPT-4o提升至59.3%MoA-Lite。这进一步突显了我们的方法在利用开源模型能力并适应不同计算预算方面的有效性以充分发挥其潜力。MT-Bench尽管在MT-Bench上相对于单个模型的改进相对有限但考虑到现有模型在此基准测试上已经表现异常出色单个模型即可获得超过9分满分10分的成绩这是可以理解的。尽管改进幅度不大我们的方法仍然在排行榜上占据了首位。这表明即使在已经高度优化的基准测试上我们的方法也能进一步突破界限保持领先地位。FLASKFLASK提供了对模型的细粒度评估。在这些指标中MoA在几个关键方面表现出色。具体来说与聚合器Qwen-110B-Chat的单一模型得分相比我们的方法在鲁棒性、正确性、效率、事实性、常识、洞察力、完整性方面显示了显著改进。此外MoA在正确性、事实性、洞察力、完整性和元认知方面也优于GPT-4 Omni。MoA表现不佳的一个指标是简洁性模型产生的输出略显冗长。图3FLASK结果使用6提议者MoA设置Qwen1.5-110B-Chat作为聚合器。在正确性、事实性、洞察力、完整性和元认知方面优于GPT-4 Omni。MoA表现不佳的一个指标是简洁性模型产生的输出略显冗长。3.3 混合智能体Mixture-of-Agents为何有效在本小节中我们进行了一些实验以便更好地理解混合智能体的内部机制。我们将关键见解总结如下。混合智能体显著优于LLM排序器ranker。首先我们将混合智能体与基于LLM的排序器进行比较后者使用聚合器模型从提议者生成的答案中选择一个而不是生成新的输出。结果如图4所示我们可以观察到MoA方法显著优于LLM排序器基线。MoA优于排序方法这一事实表明聚合器不仅仅是简单地从提议者生成的答案中选择一个而是可能对所有提议的生成进行了复杂的聚合。MoA倾向于整合最佳的提议答案。我们还通过BLEUPapineni等人2002等相似度分数反映n-gram重叠比较了聚合器的响应与提议者的响应。在每个样本中给定 n 个由提议者生成的答案我们计算 nn 个相似度分数与由基于GPT-4的评估器确定的 n 个偏好分数之间的Spearman等级相关系数。图4中的结果确实证实了胜率与BLEU分数之间存在正相关。我们还在附录A中提供了使用Levenshtein相似度RapidFuzz2023或TF-IDF而非BLEU分数的结果这两种文本相似度的替代方法也产生了与偏好分数正相关的结果。图4(a) 在6模型混合智能体设置中使用不同聚合器在AlpacaEval 2.0上的LC胜率。所有曲线使用相同的6个提议者智能体它们仅在最终聚合器的选择上有所不同。LLM排序器使用Qwen1.5-110B-Chat模型和附录表5中的提示格式。GPT-4o模型仅用于聚合输出以进行评估不作为提议者参与下一层。(b) BLEU分数使用3-gram、4-gram和5-gram指标计算与提议输出胜率之间的Spearman相关性。表3提议者模型数量对AlpacaEval 2.0的影响。我们将 nn 表示为MoA层中的智能体数量或单提议者设置中的提议输出数量。我们在此表的所有设置中使用Qwen1.5-110B-Chat作为聚合器并使用2个MoA层。设置多提议者单提议者n 661.3%56.7%n 358.0%56.1%n 258.8%54.5%n 147.8%47.8%表4不同模型作为提议者与聚合器的影响。评估不同聚合器时所有六个模型均作为提议者评估提议者时Qwen1.5-110B-Chat作为聚合器。此表使用2个MoA层。模型作为聚合器作为提议者Qwen1.5-110B-Chat61.3%56.7%Qwen1.5-72B-Chat59.3%53.3%LLaMA-3-70b-Instruct45.0%60.6%WizardLM 8x22B52.9%63.8%Mixtral-8x22B-Instruct48.4%54.8%dbrx-instruct41.5%55.1%模型多样性和提议者数量的影响。我们通过改变每层提议者数量 n 来分析提议数量如何影响最终输出质量。结果见表3我们发现分数随 n 单调增加反映了拥有更多辅助信息的益处。此外我们还量化了使用多样化LLM集作为提议者的影响。对于每个 n我们比较了两种设置“单提议者”single-proposer即由同一个LLM以温度0.7生成 n 个响应以及“多提议者”multiple-proposer即每个响应由不同的LLM生成。总体而言使用多个不同的LLM始终能产生更好的结果。这两个结果都表明在每个MoA层中拥有更多样化的LLM智能体可以提升性能。进一步扩展MoA的宽度是未来研究的一个有前景的方向。模型在混合智能体生态系统中的专业化。我们还进行了实验以确定哪些模型在特定角色上表现卓越。具体来说表4显示GPT-4o、Qwen、LLaMA-3成为在辅助和聚合任务中都有效的通用模型。相比之下WizardLM作为提议者模型表现出色但在聚合其他模型的响应时难以保持其有效性。3.4 预算和令牌分析为了理解预算、令牌使用量和LC胜率之间的关系我们进行了预算和令牌分析。图5a和图5b展示了这些关系。图5(a) 性能与成本的权衡。(b) 性能与每秒浮点运算次数tflops的权衡我们将其用作延迟的代理指标。请注意我们计算的是各层中提议者最大tflops数的总和因为多个提议者可以并行运行。我们的图示展示了一个帕累托前沿我们可以选择一个模型在达到特定性能水平的同时成本最低。我们展示了混合智能体方法位于此帕累托前沿上而GPT-4 Turbo和GPT-4o则不是成本最优的与相同LC胜率的MoA方法相比更为昂贵。单提议者在每个MoA层中使用同一模型生成多个响应多提议者在每个MoA层中使用不同的模型。GPT-4的实际tflops未知因此我们使用社区传闻的8x220B架构规模。成本效益在图5a中我们绘制了AlpacaEval 2.0基准测试中每个实例的平均推理成本与LC胜率的关系。成本基于API提供商网站上的定价信息计算。这有助于识别在不过度增加费用的情况下实现高性能的成本效益模型。图表揭示了一个帕累托前沿其中某些模型在成本和性能之间达到了最佳平衡。更靠近此前沿的模型更受欢迎因为它们通过以较低成本提供高LC胜率而提供了更好的货币价值。具体来说如果我们优先考虑质量MoA是最好的配置。然而如果我们希望在质量和成本之间取得良好平衡MoA-Lite可以匹配GPT-4o的成本同时达到更高的质量水平。值得注意的是它的性能比GPT-4 Turbo高出约4%同时成本效益高出两倍多。Tflops消耗图5b描绘了LC胜率与tflops数量之间的关系。这里我们使用tflops数量作为延迟的代理指标因为延迟可能因推理系统而异。此分析对于理解不同模型如何在维持或改进性能水平的同时管理其预算至关重要。与成本效益分析类似这里也可以观察到帕累托前沿。位于此前沿的模型有效地利用其计算资源来最大化其LC胜率。4 相关工作4.1 LLM推理为了提高LLM的生成质量近期研究在通过提示工程优化LLM以适应各种下游任务方面取得了重大进展。链式思维Chain of ThoughtCoTWei等人2022Kojima等人2022提示技术代表了一种线性问题解决方法其中每一步都建立在前一步的基础上。Fu等人2022将CoT应用于多步推理任务。为了实现CoT提示的自动化Auto-CoTZhang等人2022b通过采样多样化的问题并生成推理链来构建演示。Active-PromptDiao等人2023专注于为特定任务的标注选择最不确定的问题。PS PromptWang等人2023将任务分解为子任务。思维树Tree-of-ThoughtToTYao等人2023a通过考虑多条推理路径和自我评估选择来扩展推理过程。有效的思维图Graph-of-ThoughtYao等人2023b将思维构建为图。自然程序提示Natural Program promptingLing等人2023被提出来更好地解决演绎推理任务。重读提示re-reading promptXu等人2023b则重新审视输入提示中嵌入的问题信息。4.2 模型集成利用多个模型优势的一个直接解决方案是重新排序来自不同模型的输出。例如Jiang等人2023引入了PAIRRANKER它对候选输出进行成对比较以选择最佳输出并在自建的指令数据集上显示了改进。为了解决多LLM推理带来的大量计算成本其他研究探索了训练一个路由器用于为给定输入从一组固定的LLM中预测性能最佳的模型Wang等人2024aShnitzer等人2024Lu等人2023。此外FrugalGPTChen等人2023b提出通过以级联方式使用不同模型来降低使用LLM的成本。为了更好地利用多个模型的响应Jiang等人2023训练了GENFUSER这是一个被训练用于生成改进响应的模型以利用多个候选者的优势。Huang等人2024提出通过平均不同模型的输出概率分布来融合它们的输出。另一条研究路线是多智能体协作。几项研究探索使用多个大语言模型作为智能体通过交互式地共同讨论和推理问题。Du等人2023建立了一种智能体间对称讨论的机制。大约在同一时间MADLiang等人2023引入了一种非对称机制设计具有不同的角色即辩论者和评判者。其他类似工作包括Chan等人2023。此外ReConcileChen等人2023a是一种涉及加权投票的非对称讨论的例子。为了更深入地理解讨论Zhang等人2023旨在从社会心理学视角解释这种协作机制。Wang等人2024b系统地比较了多智能体方法发现一个带有强大提示包括详细演示的单个智能体可以达到与多智能体方法相当的响应质量。5 结论本文介绍了一种混合智能体方法旨在通过多阶段的迭代协作来利用多个LLM的能力。我们的方法利用了混合智能体家族中智能体的集体优势并能显著提高每个单独模型的输出质量。在AlpacaEval 2.0、MT-Bench和FLASK上进行的实证评估表明响应质量得到了显著提升我们的方法实现了高达65%的LC胜率。这些发现验证了我们的假设即整合来自不同模型的多种视角可以比仅依赖单一模型产生更优越的性能。此外我们还提供了改进MoA设计的见解对MoA架构的系统优化是未来工作的一个有趣方向。局限性。我们提出的方法需要迭代聚合模型响应这意味着模型必须等到最后一个MoA层才能决定第一个令牌。这可能导致较高的首令牌时间Time to First TokenTTFT从而对用户体验产生负面影响。为了缓解这个问题我们可以限制MoA层的数量因为第一次响应聚合对生成质量的提升最为显著。未来的工作可以探索分块聚合chunk-wise aggregation而非一次性聚合整个响应这可以在保持响应质量的同时减少TTFT。更广泛的影响。本研究具有提升LLM驱动的聊天助手效能的潜力从而使AI更易于使用。此外由于中间输出以自然语言表达MoA提高了模型的可解释性。这种增强的可解释性有助于更好地与人类推理对齐。