Discovering Physical Concepts with Neural Networks

本文最后更新于:2 年前

Introduction

如题目所示,本文的目的是利用神经网络来发掘物理概念。其思路是从实验数据学到表示,然后用学到的表示来回答物理问题,由此物理概念可以从学到的表示来提取出。作者进行了4个实验:

  1. 在阻尼振动实验中,模型学到了相关的物理参数;
  2. 在角动量守恒实验中,模型预测了质点的运动;
  3. 给定量子系统的观测数据,模型正确的识别出了量子状态的自由度;
  4. 给定从地球观测的太阳和火星的位置时间序列数据,模型发现了日心说模型。

Preliminaries

作者在附录中对神经网络的基础知识进行了介绍,这里不再赘述,只截取了一些相对前沿的内容。

Variational Autoencoders

本文用到的模型基础是VAE:

Representation Learning

Representation learning的主要目标是将数据映射到一个隐向量 (encoder),为了保证隐向量包含了所有相关信息, 那么应该能够从隐向量还原原数据 (decoder)。传统的Autoencoder是这个思想的最简单实现,而VAE则将AE和Variational Inference结合了起来,是一种经典的生成式模型。现在很多研究关注Disentangled Representation Learning,也就是说我们希望模型能够无监督地学习数据,从中学到有意义的表示。

\(\boldsymbol \beta\)-VAE

\(\beta\)-VAE是一种特殊的VAE,也是一个经典的Disentangled Representation Learning模型,它和VAE主要的区别是对KL散度一项加上了权重\(\beta\)进行调节: \[ C_\beta(x)=-\left[\mathbb{E}_{z\sim p_\phi(z|x)}\log p_\theta(x|z)\right] + \beta D_\text{KL}\left[p_\phi(z|x)\parallel h(z)\right] \] 如果假设\(p_\phi(z|x)=\mathcal{N}(\mu,\sigma)\),那么损失函数可以进行简化: \[ C_\beta(x)=\parallel \hat{x} - x \parallel^2_2-\frac{\beta}{2}\left(\sum\limits_i\log(\sigma_i^2)-\mu_i^2-\sigma_i^2\right)+C \]

Network Structure

Network Structure: SciNet

模仿物理学家建模物理问题的过程,作者提出了SciNet,如下图所示:

物理学家在建模物理问题的时候,往往是从一些实验数据出发,根据物理常识提取更加精练的表示,然后用学到的表示来回答物理问题。

对于单纯的输入输出问题,SciNet可以看作是一个映射,\(F:\mathcal{O}\times\mathcal{Q}\rightarrow\mathcal{A}\)\(\mathcal{O}\)是可能的实验数据集合,\(\mathcal{Q}\)是可能的问题集合,\(\mathcal{A}\)是可能的答案集合。可以将其分为两个步骤:编码过程\(E:\mathcal{O}\rightarrow\mathcal{R}\)从实验数据学到表示,解码过程\(D:\mathcal{R}\times \mathcal{Q}\rightarrow \mathcal{A}\)根据给定的问题从表示来回答问题。由此,\(F(o,q)=D(E(o),q)\)。在实现方面,SciNet采用的是全连接网络。

Training and Testing SciNet

用来训练的数据形式为\((o,q,a_{cor}(o,q))\),观测\(o\)和问题\(q\)分别从观测集\(\mathcal{O}\)和问题集\(\mathcal{Q}\)选出,\(a_{cor}(o,q)\)为对应的正确答案。在训练过程中,我们希望准确度尽量高,并且学到minimal uncorrelated representations。为此,作者采用disentangling variational autoencoder作为模型。

Results

在文中,作者进行了4个实验来验证模型的有效性。

Damped Pendulum

阻尼振动实验:

  • 任务:预测一维阻尼振动在不同时间的位置。

  • 物理模型:\(-kx-b\dot{x}=m\ddot{x}\)\(k\)为弹性模量,\(b\)为阻尼系数,通解为\(x(t)=A_0e^{-\frac{b}{2m}t}\cos(\omega t+\delta_0), \space \omega=\sqrt{\frac{k}{m}}\sqrt{1-\frac{b^2}{4mk}}\)

  • 观测数据:位置时间序列数据\(o=[x(t_i)]_{i\in\{1,\cdots,50\}}\in\mathbb{R}^{50}\),时间间隔相等,质量\(m=1\text{kg}\),振幅\(A_0=1\text{m}\),相位\(\delta_0=0\),弹性模量\(k\in[5,10]\text{kg}/\text{s}^2\),阻尼系数\(b\in[0.5,1]\text{kg}/\text{s}\)

  • 问题:预测\(q=t_\text{pred}\in\mathbb{R}\)

隐变量大小设置为3,结果如下图所示:

(b)中的三幅图分别是学到的三个隐变量和我们感兴趣的参数\(k\)\(b\)的关系图。第一幅图中变量\(1\)\(b\)几乎完全线性相关,与\(k\)基于线性无关,变量\(2\)只和\(k\)相关。变量\(3\)几乎为一个常数,故不提供额外的信息。由此作者认为SciNet学到了我们关心的两个参数的知识。

Conservation of Angular Momentum

角动量守恒实验:

  • 任务:预测一个由长度为\(r\)的绳子捆绑着的旋转质点在位置\((0,r)\)经一个自由质点撞击后的位置
  • 物理模型:给定撞击之前的角动量,自由质点撞击之后的速度,旋转质点在撞击之后在时间\(t_\text{pred}^\prime\)的位置可以由角动量守恒定律给出:

\[ J=m_\text{rot}r^2\omega-rm_\text{free}(\mathbf{v}_\text{free})_x=m_\text{rot}r^2\omega^\prime-rm_\text{free}(\mathbf{v}^\prime_\text{free})_x=J^\prime \]

  • 观测数据:在撞击之前两个质点的位置数据\(o=[(t_i^\text{rot},q_\text{rot}(t_i^\text{rot})),(t_i^\text{free},q_\text{free}(t_i^\text{free}))]_{i\in\{1,\cdots,5\}}\),质量为固定值,半径\(r\)也为固定值。数据添加高斯噪声。
  • 问题:预测撞击之后自由质点在时间\(t_\text{pred}^\prime\)的位置

实验室意图如下:

实验结果表明SciNet能够正确预测质点撞击之后的位置,同时对噪音鲁棒。根据(b),隐变量和角动量存在线性相关关系,作者认为SciNet学到了守恒的动量这一概念。

Representation of Qubits

量子比特实验:

  • 任务:预测在\(n=1,2\)的纯\(n\)量子位状态\(\psi\in\mathbb{C}^{2^n}\)下任何二进制投影测量\(\omega\in\mathbb{C}^{2^n}\)的测量概率。
  • 物理模型:在执行测量\(\omega\in\mathbb{C}^{2^n}\)的状态\(\psi\in\mathbb{C}^{2^n}\)下测量0的概率\(p(\omega,\psi)\)\(p(\omega,\psi)=|\left<\omega,\psi\right>|^2\)给定
  • 观测数据:状态\(\psi: o=[p(\alpha_i,\psi)]_{i\in\{i,\cdots,n_1\}}\)的操作参数化:表示一组固定的随机二元射影测量值\(\mathcal{M}_1=\{\alpha_1,\cdots,\alpha_{n_1}\}\)(一个量子位\(n_1 = 10\),两个量子位\(n_1 = 30\)
  • 问题:对于固定的一组随机二元射影测量\(\mathcal{M}_2=\{\beta_1,\cdots,\beta_{n_2}\}\),测量\(\omega:q=[p(\beta_i,\omega)]_{i\in\{1,\cdots,n_2\}}\)的Operational参数化(一个量子位\(n_2 = 10\),两个量子位\(n_2 = 30\)

实验结果如下:

通过实验发现,SciNet可以在不提供先验物理知识的条件下确定表述状态\(\psi\)最小的参数数量。同时,SciNet还能分辨tomographically completetomographically incomplete

Heliocentric Model of the Solar System

日心说模型:

  • 问题:在给定初始条件下预测相对与地球的太阳和火星的角度\(\theta_M(t)\)\(\theta_S(t)\)
  • 物理模型:地球和火星围绕太阳以一定角速度做近似圆周运动
  • 观测数据:给定初始角度,随机选择周周期的哥白尼的观测数据

模型的实现稍有变化,如下图所示:

这样,对于不同时间都对应一个隐变量\(r(t_i)\),而且隐变量是时间依赖的,对于一个隐变量\(r(t_i)\)有一个解码器来输出答案。

实验结果表示,SciNet不仅正确预测了太阳和火星相对地球的角度,同时隐变量揭示了火星和地球相对太阳的角度。