
Machine Heart Report编辑:Xindong,Chen Chen本文介绍了一项名为“嫁接”的技术,该技术通过编辑小型计算预算下的预训练的变压器(简称DIT)来探索模型的新建筑设计。这种方法使研究人员可以通过替换一些模型操作员(例如MLP)而在没有模型培训的情况下创建新的混合体系结构,从而减少了计算量,同时保持模型的质量。该模型的模型结构在机器学习中起关键作用,并且与数据,算法,计算和基准测试强度一样重要。它定义了模型元素,例如模型操作,操作员选择(例如注意机制,革命)和和解调整(例如模型深度,宽度)等。因此,研究新体系结构仍然是一个挑战,尤其是对于生成模型而言。在本文中,来自斯坦福大学和Liquid AI等机构的研究人员已经尤其是探索了这个问题,对预培训模型进行了建筑编辑,以研究新的体系结构。 Paper Link: https://arxiv.org/pdf/2506.05340v1 Paper Homepage: https://grafting.stanford.edu/ Paper Title: Exploring diffusion Transformer designs via grafting specifically, this study proposes a simple method to edit pre-trained difffion transformer (dit), namely Grafting, which can implement new architectures under a smaller computational budget.嫁接过程如下:(i)蒸馏的激活:在此阶段,其操作通过回归目的删除原始操作员的激活的特征,将其操作移至新操作员。此阶段的核心是实现操作员之间的操作。 (ii)轻巧的音调:此阶段可以通过使用有限的数据通过调整许多新运算符的整合而使误差的传播减轻。此外,建筑编辑涵盖了各种技术s等添加,拆卸和更换操作员。本文还基于DIT-XL/2构建了一个测试平台,以研究接管模型质量的效果。使用此测试平台,本文将通过比较的策略来开发一系列混合设计:通过封闭式卷积,局部注意力和线性注意力以及具有可变的可伸缩性和卷积变体的MLP,更改软效果的注意力。值得注意的是,许多混合设计使用不到2%的预训练计算源(FID:2.38–2.64,而DIT-XL/2)实现了良好的质量。然后,本文挖掘了一个文本形象(PixArt-σ)模型,该模型达到了1.43倍,而Geneang Val标记的下降量少于2%。最后,本文提出了一项案例研究,该案例研究通过将每对变压器模块转换为通过移植技术将DIT-XL/2的重新审查。它将模型的深度降低到一半,并获得比其他MO更高的质量相等深度的Dels(FID:2.77)。总而言之,研究表明,可以通过预训练DIT来探索新的传播模型设计,并从变化的操作器进行更改,直到架构进行重建。嫁接方法的嫁接方法的两个阶段旨在通过编辑预训练模型的计算图来实现新体系结构。由于该研究的重点是与继任者更改现有运营商,因此提出了两个问题:问题1:在将新操作员纳入计算图之前,我们应该如何开始?与第一阶段一致:从激活蒸馏开始。由于DIT的激活是连续且平滑的,因此可以将其视为回归问题:问题2:当许多运算符集成到计算图中时,错误传播如何易于传播?它符合第二阶段:轻量级曲调。在替换更多运算符时,启动 - up错误继续传播,在deviati中恢复从预赛模型的实践中开始。本文使用端到端的微调来减轻阶段1的集成误差。函数目的函数在公式1中显示。实际上,本文发现,即使替换了DIT-XL/2中的所有MHA或MLP层,仅替换了10%的训练数据。在分析新的建筑设计之前,该研究是自身的基准,该研究引入了自我利用,一个简单的控制设置:用相同类型的操作员替换现有运算符(例如MHA,MLP),但具有随机的起始权重。这允许计算图的图(包括操作员类型和参数数),以维护特定的计算过程。自我分配具有三个功能:(1)检查移植过程的影响而不改变架构; (2)提供了比较不同后继者的性能基准; (3)影响性能的研究因素,例如数据大小,回归目标,和超参数。行为行为和自我护理结果本文首先分析了DIT-XL/2层中MHA和MLP操作员的激活。在这两种情况下,在本文中都观察到激活值的差异很大,尤其是在较深的层中(表1(i,ii))。审查后,本文以选择特定操作员的目标回归而结束,可以实现高质量的开始。如表1(III,IV)所示,回归目标的选择会影响性能。对于MHA,L1取得了最好的OFFID(2.51),其次是Huber(2.55)和L2(2.58)。对于MLP,L2表现最佳(2.33),而L1的表现不佳(2.83);值得注意的是,MLP中参数的值为MHA2次。这表明高质量的启动需要适当的活跃技术。该研究还发现,使用10%的数据进行完全自我污染,在基线附近实现了表现。它表明完整的自我分配n可以在中等数据和计算预算下完成。实验实验I:通过清洗本节实施混合体系结构,实验围绕着这个问题:当现有操作员被伟大的继任者取代时,我们可以维持模型的质量吗?为了探讨这个问题,本文研究了跟踪处理过程:1。要替换的操作员类型-MHA或MLP; 2。要替换的操作员的类型 - 例如进化; 3.层选择方法 - 用所有层代替操作员或使用启发式选择; 4。4。替换率 - 更换全部或稍微替换。对于实验,研究建立了一个测试平台,并提出了两层选择技术:完整的替换和交错的替换。有关测试平台的详细信息,请参见表3。此外,该研究还推出了两个新的彩控票卷积运算符HYENA-X和HYENA-Y,并设计为MHA的直接后继者。图3显示了它们的结构。 MHA结果。通过用DIT-XL/2替换MHA操作员,获得了良好的权衡质量。主要发现以下是:在交错嫁接下,较小的田间收据反映了惊人的效果。该实验发现,诸如滑动窗户注意力(SWA),HYENA-X/Y和MAMBA-2之类的替代方案以50%相互关联的替代品保持了FID分数和基线(2.27)之间的差距。特别值得注意的是,尽管SWA和HYENA变体的接受程度有限(卷积内核K = 4 /窗口W = 4),但FID的崩溃却很小。替代策略:与完全替换相比,交错替换。当将替代品的交错比率从50%提高到75%时,性能通常会降低,但是SWA仍然有效期为75%交错的替代品(FID = 3.09)。在100%更换中,性能显着恶化(所有FID 75),对应于当地检查,表明只有部分层是局部且适合的移植。数据的大小和选择实验层的结果。 MLP结果表明,通过嫁接代替MLP操作员是有效的。实验后,绘制了关键点1:评级对于在较小的计算预算下具有良好质量生成的良好混合体系结构非常有效。交织的设计特别有效。实验II:通过嫁接变压器的结果改善了文本对图像扩散。接枝模型的实时计算速度(壁时间)增加了1.43倍,而评估标记(Geneval)的产生仅显示略有下降(47.78比49.75)。特定特征的指标基本上是可比的,卓越表现出良好的一致性和质量。在某些纹理区域观察到局部变形,这可能是由洛拉的灵活性和所使用的合成数据质量较低引起的(有关详细信息,请参见Photos D.3,D.4)。 kEY点2:嫁接技术已成功地应用于Wensheng图的位置。混合体系结构在达到显着加速的同时开发了,这一生成质量的损失很小。有关更多信息,请参阅原始论文。