成功案例

PNAS前沿:使用深度学习模拟宇宙流体动力学

  生成模型的目的是学习数据之间的复杂关系以创建新的模拟数据,但是当前的方法在高维情形下不可行。当数据的生成基于物理过程时,通过学习物理过程背后的物理规律,可以创建生成模型,获得物理过程中的对称性和约束,从而允许模型在高维情形下有较好的效果。近日发表于 PNAS 的一项研究,作者提出了拉格朗日深度学习(Lagrangian deep learning),并将其应用于学习宇宙学流体动力学模拟。

  宇宙大尺度结构形成的数值模拟对于从观测中提取宇宙信息至关重要。[1-7]原则上,流体动力学模拟能够预测宇宙中所有可观测物质的分布,从而可以模拟观测。但是,由于计算成本高,高分辨分子动力学模拟尚不可行。目前最广泛使用的方法是进行仅存在重力的N体模拟,然后使用半解析方法填充重子,这种方法有很强的假设性。[8][9]此外,许多宇宙学观测(例如X射线发射和Sunyaev–Zeldovich(SZ)发射)都是基于流体动力学的气体特性,例如气体密度、温度、压强等,在只有暗物质的情形下无法被建模模拟。

  深度学习方法提供了一种替代方法,可以对宇宙可观测物质进行模拟。许多论文认为该任务是图像到图像的翻译问题,即将像素化的物质密度场作为输入数据,输出像素化的可观测场。这些方法要么使用诸如生成对抗网络(GAN)[10]和变分自编码器(VAE)[11][12]之类的深度生成模型求解条件概率分布p (ytargetxinput),要么使用深度卷积神经网络(DCNN)学习映射xinput→ytarget。该领域以前的工作十分广泛,例如识别光晕(质子晕)[13-16],产生三维(3D)星系分布[17],生成热SZ(tSZ)信号[18],预测暗物质消亡的反馈信息[19],学习中微子效应[20]以及从低分辨率模拟中模拟高分辨率特征[21][22]等。

  与这些在像素(欧拉)空间中工作并将视场视为图像的方法不同,动力学建模的另一种方法是拉格朗日方法,即通过对单个粒子或流体元素的位移场进行建模来跟踪其运动。位移场比密度场包含更多的信息,因为不同的位移场可以产生相同的密度场,并且通常比密度场具有更多的高斯分布和线性分布。该空间中的现有方法仅能求解暗物质,例如近似的N体求解器[23][24]和DCNN[25]。

  在这项工作中,我们提出了一种深度学习架构,即拉格朗日深度学习(Lagrangian deep learning),使用拉格朗日方法对宇宙暗物质和流体动力学进行建模。该模型是由物理学中有效理论思想促动的,一个真实物理过程可能由于过于复杂而不能模拟,以至于无法对它进行有效的,通常是粗粒度的物理学描述。一个典型的例子是有效场论,其中对微扰场论补充了服从对称性的有效场论概念,这些概念是对非扰动的小尺度效应的有效粗粒度描述。产生的有效描述具有与真实物理学类似的结构,但是具有必须满足的自由系数,并说明了非扰动的小尺度效应。

  宇宙暗物质和重子的演化可以通过偏微分方程来描述,该系统耦合重力、流体动力学和各种亚网格物理建模过程(例如恒星形成),这些过程从宇宙开始到今天都在不断演化。人们希望模拟很大一部分可观测宇宙,同时还以较小的数量级捕获三维空间中重要的物理过程。即使使用现代计算平台,最终的动力学模拟结果范围也过大。

  一种有效的方法是将整个问题改写成人们可以解决的大规模问题,并有效地描述无法解决的小规模问题。在理论物理学中,这通常是通过重写拉格朗日算法来完成的,使得其为满足问题中对称性的最普遍形式,其中自由系数描述了小尺度粗粒度的影响。

  在宇宙学中,大范围的演化受引力控制,可以很容易地通过扰动或数值求解。使用扰动展开的有效描述[31],无法对小尺度情形和复杂的重子演化过程进行建模。虽然空间粗粒度是该想法的最普遍实现,但也可以将其应用于时间粗粒度。经典的偏微分方程求解器需要很多时间,花费巨大。临时粗粒化用更少的积分时间步长来代替偏微分方程求解,其特点是用有效描述代替了真实的物理方程,同时又保证了大尺度下的线]。

  我们采用有效物理描述的思想,并将其与深度学习范式相结合,在该范式中,数据通过简单操作组成的多层映射,并且选择某些损失函数训练这些层的系数。虽然使用具有大量系数的神经网络描述了机器学习层,但是在这里,我们使用与真实物理定律相似的结构,将单个层视为单个时间步长的偏微分方程求解器。它的优点是可以保留问题固有的对称性。我们希望在宇宙环境中保持的主要对称是平移和旋转对称:物理定律没有首选的位置或方向。但是我们也希望满足现有的守恒定律,例如暗物质和重子质量守恒。

  满足这两个要求的一个简单实现是描述暗物质或重子的拉格朗日位移。我们使用势场梯度来移动粒子,并且由于仅移动粒子,质量保持守恒。为了确保有效描述中的平移和旋转对称性,我们对傅立叶空间中的势场进行整形,使其仅取决于傅立叶波矢量的幅度。势场梯度可以看作是使粒子具有加速度的力,势场的形状等效于该力的径向相关性。此描述需要粒子的位置和速度,因此它是时间上的二阶偏微分方程,我们把这个描述用于暗物质。

  对于重子,我们通过假设它们的速度与暗物质的速度相同来简化建模,这是因为速度受大尺度的支配。在这种情况下,我们可以使用电势梯度直接代替粒子的位置,因此,这个描述在时间上变为一阶方程。此外,通过对模型的简单扩展,我们可以将此概念应用于气压和温度等重子的可观测性质,此时守恒律不再适用。

  完整的描述还要求我们定义势的来源。在物理学中,来源通常是粒子的某些属性,例如质量或电荷数。在这里,我们希望描述亚网格物理的复杂非线性过程,以及时空上的粗粒度。与引力相同,我们假设势场的源是密度的简单幂律,使用学习得到的格林函数转换这个势场。由于希望对几种不同的物理过程进行建模,我们将模型堆叠为多层。由于该模型包含了粒子数据,并且使用拉格朗日方法对位移场进行了建模,因此我们将此模型称为拉格朗日深度学习。

  我们的特定目标是使用能够得到物理对称性和守恒定律的有效描述,从设定的早期宇宙初始条件开始,对暗物质和流体动力学可观测物质的分布进行建模。这种应用于时间和空间粗粒度的过程的一个示例是仅具有几个时间步长的暗物质演化,它结合了近似N体求解器的思想,并结合了势梯度下降(PGD)的过程捕获粗粒度[32][33]。我们首先使用准粒子网(PM)N体求解器FastPM[24],它确保了在任意数量的时间步长上都能正确地进行大尺度变化,这是因为FastPM中越级积分器的反冲和漂移因子是根据线性(Zeldovich)运动方程式进行改变的。

  FastPM仅具有几层(通常为5到10),并且使用粒子位移,它被一层PGD的附加层实现,该层仅用于改善小规模暗物质的分布。此过程的所有步骤均为拉格朗日深度学习形式,因此可以视为其初始层。产生的暗物质图如图1所示,与Illustris TNG的整个N体模拟有很好的一致性,这也可以通过参考文献[32]中的数值比较得到证实。该程序不是在学习新的物理学,而是在学习对时间和空间粗粒度的有效物理学描述:在标准的N体模拟中,我们使用了10步代替了1,000多个时间步长,使用64个降低了质量分辨率的特征而不是具有完整空间分辨率的特征。

  图1 仿线行分别是暗物质密度、恒星质量、电子动量密度(kSZ信号)、电子压强(tSZ信号)和X射线流体动力学模拟中的相应目标场。左,中和右列分别为红移z=0,z=0.5和z=1。

  我们希望将这些思想扩展到更复杂的宇宙流体动力学问题上,在此我们希望通过有效描述来学习物理过程。重子具有耗散性和碰撞性,在被称为暗物质晕的高密度区域内能够发生许多物理过程,例如冷却、辐射、恒星形成、气体冲击、湍流等。可以将位移添加到暗物质粒子上,以模拟流体动力学过程,从而使位移后的粒子具有与重子相似的分布。焓梯度下降(EGD)就是这个想法的一个例子[32]:人们将小位移添加到暗物质粒子上,以改善小尺度的低分辨率的近似模拟并在总体上对重子进行物质分布建模。

  在这项工作中,我们同时使用FastPM和N体模拟,并将它们与拉格朗日深度学习结合使用,以根据线性密度图预测重子可观测值。我们考虑对恒星质量,动力学SZ(kSZ)信号,tSZ信号和X射线时进行建模。暗物质粒子首先通过FastPM演化为这些红移,然后传递给拉格朗日深度学习网络以对重子进行建模。通过将输出与TNG300-1流体动力学模拟的目标场进行匹配,可以优化拉格朗日深度学习中的参数[26-30]。由于kSZ信号与电子动量成正比,tSZ信号与电子压强成正比,我们也对其进行建模。

  除了FastPM,我们还考虑将拉格朗日深度学习模型与完整的N体仿线系列的低分辨率纯暗物质程序)中的红移z=1、z=0.5和z=0处获取粒子数据,并将粒子数据输入拉格朗日深度学习模型。我们将这两种混合仿真的性能与目标高分辨率流体动力学仿真进行了比较。

  我们总结了这些模拟的数值参数,还列出了TNG300-3(TNG300的低分辨率流体动力学模拟程序)。TNG300-3具有我们的混合仿真的分辨率,是与我们的模型性能进行比较的自然参考。结果,基于FastPM的混合仿真和基于N体的混合仿线个数量级计算量。与TNG300-3相比,混合仿线个数量级的计算量,并且我们证明我们的仿线. 模型模拟的结果

  我们测量这些势场的统计数据,并进行定量比较。我们首先比较功率谱,这是宇宙学中使用最广泛的统计量。我们将传递函数和相关系数分布定义为:

  在图2到6中显示了3D和2D互谱、传递函数、恒星质量超密度δ∗的相关系数、电子动量、电子压强和X射线强度。在大中尺度水平上,我们的混合仿真通常与目标场非常匹配(X射线除外,在这种情况下,基于FastPM的混合仿线时的X射线协议的效果通常较差,尤其是对于恒星质量而言。TNG300-3恒星质量的较大偏差可能部分是由于低分辨率TNG300-3无法分辨小晕中的恒星造成的。相反,通过对高分辨率流体动力学模拟TNG300-1进行训练,我们的低分辨率混合模拟能够比流体动力学模拟更好地模拟那些小星系。

  在小尺度情况下,所有预测场都显示出与目标场的某些偏差。我们将在下一部分中讨论造成这些情况的可能原因。我们还看到,与基于FastPM的仿真相比,基于N体的混合仿真通常可以预测更大的小尺度能量。总体而言,基于N体的混合仿真的预测能量谱更好,尽管它可以预测太多的小尺度能量(例如,红移1处的kSZ信号)。

  相关系数也显示在图2-5中。可以观察到,混合仿线更好,基于N体的混合仿真比基于FastPM的仿真高一些。请注意,原则上,相关系数可以量化傅立叶分析的相位一致性,它是比传递函数更重要的统计量。这再次表明,与相同分辨率下的完整流体动力学模拟相比,我们模型的重子模拟更接近线D能谱(上)、传递函数(中)和恒星质量超密度的相关系数(下)的比较。比较了红移为0、0.05和1的拉格朗日深度学习混合仿线流体动力学仿线 拉格朗日深度学习混合模拟TNG300-3和目标TNG300-1的流体动力学仿线D能谱(上)、传递函数(中)和电子动量密度相关系数(下)的比较。

  大尺度结构的观测(例如弱透镜和星团)之间具有很强的相关性,因为它们都是由相同的基本物质分布确定的。这些观测量之间的相关性还包含其他信息,这些信息无法通过独立地分析每个可观察到的量来获得。相关系数还具有不增加噪声的优点。我们的混合仿真能够以较低的计算成本同时生成各种可观察量,因此对于相关性分析具有潜在的前景。

  我们提出了一个拉格朗日深度学习模型,用于从模拟或真实数据的输出中学习有效的物理定律。具体而言,在本文中,我们重点研究在宇宙学模拟中重子流体动力学的物理。我们通过将N体/准N体重力求解器与拉格朗日深度学习模型相结合来构建混合仿真。结果表明,基于FastPM的混合模拟和基于N体的混合模拟均能够用线性密度场生成各种红移的恒星质量、kSZ、tSZ和X射线图,其计算成本分别比目标高分辨率流体动力学模拟低几个数量级。我们在这些量上进行了自动能谱分析和相关分析,结果表明,混合模拟在相同的分辨率下通常优于流体动力学模拟。

  拉格朗日深度学习模型希望提供对基本物理学的有效描述。这样的描述必须服从问题的所有对称性,旋转和平移不变性是两个关键的对称性,但是其他对称性,例如质量守恒也可能出现。在本文中,我们认为实施这些对称会创建一个生成模型,该模型学习物理定律的有效描述,而不是学习数据分布。这是因为对称是生成模型上唯一必须明确实现的约束,一切都可以从数据中学到。

  在这里,我们建议通过组合作用在描述系统(例如流体)的物理特性的有效粒子上的位移层,并按照拉格朗日方法移动粒子,来实现生成模型的学习。可以将粒子的位移理解为潜在物理过程的结果,而粒子传输则是诸如气体冷却、加热和湍流等过程的结果。输出层是一个非线性变换,是具有阈值的粒子密度场,用于模拟物理过程,例如恒星形成。

  系统的平移和旋转对称性对模型施加了严格的约束。这使人们可以使用很少的参数来建模复杂的过程并生成数据图像。因此,即使需要要描述极高的维数(108或更大)的系统,基本的有效物理描述也只需要少数几个参数。

  少量的自由参数也使模型稳定且易于训练。一个重要的优点是,我们可以使用少量参数作为复杂的微模型的有效物理描述,这类似于微模型的有效场论描述中由于重整化而产生的自由参数。这表明拉格朗日深度学习方法可以替代模拟恒星形成过程的其他有效描述。与通常依赖于不可微模型的半解析方法相比,该方法具有明显的可区分性,因此人们可以使用反向传播来得出相对于初始密度场的最终可观测量的梯度。这可以很容易地嵌入到正演化模型的框架中,以根据观测结果重建初始条件[37]。

  用拉格朗日深度学习进行流体动力学模拟的训练,并不是要替代之前的流体动力学模拟模型而是要对其进行补充:例如,它可以对粗网格进行插值并将其放大到更大的体积和更高的分辨率。相比之下,拉格朗日深度学习有可能消除对半解析方法的需求,半解析方法是当前大尺度结构中的标准范例。这些方法首先运行N体模拟,然后使用可观测物质的半解析形式填充其暗物质晕。拉格朗日深度学习不仅可以在相同的分辨率下获得相同的结果,而且还优于这些半解析方法。与N体仿线个拉格朗日深度学习层之外,混合模型以大约10个时间步长实现了这些目标。我们希望这会促进宇宙学大尺度结构(LSS)观测的模拟和对从LSS中获得的物理量的分析。