高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于神经网络模型的原子核基态自旋分布的随机相互作用研究

刘登 ALAMNoor A 肖越 雷杨 覃珍珍

刘登, ALAMNoor A, 肖越, 雷杨, 覃珍珍. 基于神经网络模型的原子核基态自旋分布的随机相互作用研究[J]. 原子核物理评论, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
引用本文: 刘登, ALAMNoor A, 肖越, 雷杨, 覃珍珍. 基于神经网络模型的原子核基态自旋分布的随机相互作用研究[J]. 原子核物理评论, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
Deng LIU, Noor A ALAM, Yue XIAO, Yang LEI, Zhenzhen QIN. Random Interaction Study on Angular-momentum Distribution of Nuclear Ground State with Neural Networks[J]. Nuclear Physics Review, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
Citation: Deng LIU, Noor A ALAM, Yue XIAO, Yang LEI, Zhenzhen QIN. Random Interaction Study on Angular-momentum Distribution of Nuclear Ground State with Neural Networks[J]. Nuclear Physics Review, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13

基于神经网络模型的原子核基态自旋分布的随机相互作用研究

doi: 10.11804/NuclPhysRev.41.2023CNPC13
基金项目: 国家自然科学基金资助项目(12105234)
详细信息
    作者简介:

    刘登(1998–),男,四川泸州人,硕士研究生,从事原子核结构理论研究;E-mail: 1990404867@qq.com

    通讯作者: 雷杨,E-mail: leiyang19850228@gmail.com
  • 中图分类号: O571.53

Random Interaction Study on Angular-momentum Distribution of Nuclear Ground State with Neural Networks

Funds: National Natural Science Foundation of China (12105234)
More Information
  • 摘要: 利用神经网络模型学习、模拟随机两体系综(TBRE)下的原子核基态自旋分布,并对学习后的模型输入特征进行了分析。这是核物理中利用神经网络模型进行分类的典型应用。研究表明,采用本工作的单隐藏层神经网络模型,精确地描述每个随机相互作用系综内的样本仍比较困难。然而,神经网络模型却能够相对较好地描述基态自旋的统计性质,这可能是因为神经网络模型学习到了TBRE中基态自旋分布的经验规律。
  • 图  1  本文神经网络分类模型示意图

    图  2  在$(f_{7/2}^{})^4$空间中,神经网络模型预测准确率随着单隐藏层神经元数目的变化情况

    图  3  单隐藏层神经网络模型中使用$N$个神经元和$2N$个神经元的预测准确率差异

    图  4  在一个隐藏层拥有64个神经元的神经网络模型在不同激活函数(Sigmoid、Tanh和ReLU)下的预测准确率

    图  5  $(h_{11/2}^{})^4$模型空间中LBFGS、SGD、Adam三种不同优化算法的损失函数值随迭代次数的演化曲线

    图  6  不同的优化算法下的预测准确率

    图  7  不同的阈值特征选择下的预测准确率

    图  8  6个模型空间中,神经网络模型对基态自旋预测准确率与空间维数之间的负相关性

    图  9  $(f_{7/2}^{})^4$、$(h_{11/2}^{})^4$、$^{18}{\rm{Ne}}$、$^{20}{\rm{Ne}}$、$^{22}{\rm{Ne}}$、$^{46}{\mathrm{Ca}}$6个模型空间中神经网络对基态自旋预测的混淆矩阵。纵轴表示神经网络模型预测的基态自旋($I_{\rm{NN}}^{}$),横轴表示壳模型计算得到的基态自旋($I_{\rm{SM}}^{}$),其中的灰度深浅代表,在神经网络预测为基态自旋为$I_{\rm{NN}}^{}$的验证样本中,壳模型计算所得基态自旋为$I_{\rm{SM}}^{}$的概率的大小

    图  10  TBRE中,对于$(f_{7/2}^{})^4$、$(h_{11/2}^{})^4$、$^{18}{\rm{Ne}}$、$^{20}{\rm{Ne}}$、$^{22}{\rm{Ne}}$、$^{46}{\rm{Ca}}$6个模型空间,壳模型及神经网络模型所给出的不同自旋$I$作为基态自旋的概率$P_{{I}}^{}$,以及相应的经验规则预测结果(在线彩图)

    黑色方块表示壳模型计算的基态自旋分布,红色圆圈表示神经网络模型预测的基态自旋分布,蓝色三角形使用壳模型利用经验规则给出的基态自旋分布,橄榄色菱形表示神经网络模型利用经验规则结出的基态自旋分布。

    表  1  6个模型空间所对应的TBRE样本量和神经网络模型输入输出参数

    模型空间TBRE
    样本量
    输入层神经元数
    (两体矩阵元数)
    输出层神经元数
    (基态自旋数)
    $(f_{7/2}^{})^4$130 00045
    $(h_{11/2}^{})^4$80 000610
    $^{18}{\rm{Ne}}$90 000305
    $^{20}{\rm{Ne}}$90 000307
    $^{22}{\rm{Ne}}$100 000308
    $^{46}{\rm{Ca}}$140 0009413
    下载: 导出CSV

    表  2  在只有每层隐藏层神经元数目均为64的情况下,$^{18}{\rm{Ne}}$,$^{20}{\rm{Ne}}$,$^{22}{\rm{Ne}}$和$^{46}{\rm{Ca}}$模型空间中,具有$n-1$层隐藏层和$n$层隐藏层的模型之间的预测准确率差值(最大的预测准确率差值用粗体表示)

    隐藏层数 1 2 3
    $^{18}{\rm{Ne}}$ 16.15 1.61 −1.73
    $^{20}{\rm{Ne}}$ 10.82 3.70 −0.70
    $^{22}{\rm{Ne}}$ 8.92 2.77 −0.63
    $^{46}{\rm{Ca}}$ 2.28 −0.68 −0.13
    下载: 导出CSV

    表  3  使用四种不同的神经网络模型在6个模型空间上的预测准确率

    NN类型$(f_{7/2}^{})^4$$(h_{11/2}^{})^4$$^{18}{\rm{Ne}}$$^{20}{\rm{Ne}}$$^{22}{\rm{Ne}}$$^{46}{\rm{Ca}}$
    本文NN97.7897.5485.6868.8778.9455.74
    BNN97.1196.6584.7068.3179.6356.09
    CNN96.6382.2985.3262.7473.0454.35
    RNN96.5897.3785.9168.6180.2355.71
    下载: 导出CSV

    表  4  $(f_{7/2}^{})^4$和$(h_{11/2}^{})^4$空间中,壳模型与神经网络模型基于经验规则所得两体矩阵元$G^J$与自旋$I$之间的关联。此处$G^J$代表两体相互作用矩阵元$G^J_{jj;\,jj}$(见式(1)),表中数字代表对应当$G^J=-1$,而其它矩阵元为0时,两模型得到的或预测的基态自旋$I_{g.s.}^{}$

    空间模型$G^{0}$$G^{2}$$G^{4}$$G^{6}$$G^{8}$$G^{10}$
    $(f_{7/2}^{})^4$壳模型0428
    神经网络0428
    $(h_{11/2}^{})^4$壳模型0404816
    神经网络0404816
    下载: 导出CSV

    表  5  神经网络模型的预测准确率和壳模型和神经网络模型基于经验规则预测的基态自旋$I$的一致率。

    模型空间$(f_{7/2}^{})^4$$(h_{11/2}^{})^4$$^{18}{\rm{Ne}}$$^{20}{\rm{Ne}}$$^{22}{\rm{Ne}}$$^{46}{\rm{Ca}}$
    预测准确率 (%)989786688056
    $G$的个数4630303094
    预测$I$正确个数4630182470
    预测$I$一致率 (%)100100100608074
    下载: 导出CSV

    表  6  针对$^{18}{\mathrm{Ne}}$、$^{20}{\mathrm{Ne}}$、$^{22}{\mathrm{Ne}}$空间,以$G^J_{j_1^{}j_2^{};\,j_3^{}j_4^{}}$表示两体相互作用的矩阵元,其中下标$j_1^{}, \, j_2^{}, \, j_3^{}, \, j_4^{}$简记为1、2、3,分别对应$sd$壳中的$s_{1/2}^{}$、$d_{3/2}^{}$、$d_{5/2}^{}$轨道。$I=0 \sim 4$表示壳模型中自旋为0、1、2、3、4的多重简并态(基于神经网络模型和壳模型的经验规则预测的基态自旋$I$不一致的情况以粗体突出显示)

    $G^J_{j_1^{}j_2^{};j_3^{}j_4^{}}$ $^{18}{\rm{Ne}}$ $^{20}{\rm{Ne}}$ $^{22}{\rm{Ne}}$
    SM NN SM NN SM NN
    $G^{0}_{1111}$ 0 0 0~4 0 0~6 0
    $G^{0}_{1122}$ 0 0 0,2,4 0 0,2,4 0
    $G^{0}_{1133}$ 0 0 0 0 0,2 0
    $G^{0}_{2222}$ 0 0 0,2~4 0 0~5 0
    $G^{0}_{2233}$ 0 0 0 0 0 0
    $G^{0}_{3333}$ 0 0 0 0 0~2 0
    $G^{1}_{1212}$ 1 1 1 0 0 0
    $G^{1}_{1223}$ 1 1 2 0 0 0
    $G^{1}_{2323}$ 1 1 0 0 0 3
    $G^{2}_{1212}$ 2 2 0,2 0 0 0
    $G^{2}_{1213}$ 2 2 2 0 2 2
    $G^{2}_{1222}$ 2 2 1~4 0 0~6 0
    $G^{2}_{1223}$ 2 2 0 0 0 2
    $G^{2}_{1233}$ 2 2 0 0 0 0
    $G^{2}_{1313}$ 2 2 4 2 0,2,4 2
    $G^{2}_{1322}$ 2 2 0 0 0 0
    $G^{2}_{1323}$ 2 2 0 2 0 0
    $G^{2}_{1333}$ 2 2 2 2 0~4 2
    $G^{2}_{2222}$ 2 2 0 0 0,2~4 0
    $G^{2}_{2223}$ 2 2 2 0 2,3 0
    $G^{2}_{2233}$ 2 2 0 0 0 0
    $G^{2}_{2323}$ 2 2 2 0 0 0
    $G^{2}_{2333}$ 2 2 0 0 0 0
    $G^{2}_{3333}$ 2 2 2 0 0 0
    $G^{3}_{1313}$ 3 3 5 2 0,2,4 3
    $G^{3}_{1323}$ 3 3 4 0 3 0
    $G^{3}_{2323}$ 3 3 0 0 0 0
    $G^{4}_{2323}$ 4 4 6 6 6 6
    $G^{4}_{2333}$ 4 4 4 0 2,3 0
    $G^{4}_{3333}$ 4 4 4 4 0 0
    下载: 导出CSV

    表  7  表6,但针对$^{46}$Ca空间。下标$j_1^{}, \, j_2^{}, \, j_3^{}, \, j_4^{}$简记为1、2、3、4,分别对应$pf$壳中的$p_{1/2}^{}$、$p_{3/2}^{}$、$f_{5/2}^{}$和$f_{7/2}^{}$轨道

    $G^J_{j_1^{}j_2^{};j_3^{}j_4^{}}$ SM NN $G^I_{j_1^{}j_2^{};j_3^{}j_4^{}}$ SM NN $G^I_{j_1^{}j_2^{};j_3^{}j_4^{}}$ SM NN
    $G^{0}_{1111}$ 0~10 0 $G^{2}_{2223}$ 1,2,4,5 0 $G^{3}_{2334}$ 0 0
    $G^{0}_{1122}$ 0~10 0 $G^{2}_{2224}$ 0 0 $G^{3}_{2424}$ 0 0
    $G^{0}_{1133}$ 0,2~6 0 $G^{2}_{2233}$ 0,2~4,6 0 $G^{3}_{2434}$ 0 0
    $G^{0}_{1144}$ 0~4 0 $G^{2}_{2234}$ 0 0 $G^{3}_{3434}$ 0,10 0
    $G^{0}_{2222}$ 0~10 0 $G^{2}_{2244}$ 0,2~4 0 $G^{4}_{1414}$ 0,2,4~6,8 8
    $G^{0}_{2233}$ 0,2,4,6 0 $G^{2}_{2323}$ 0 0 $G^{4}_{1423}$ 2 0
    $G^{0}_{2244}$ 0 0 $G^{2}_{2324}$ 0 0 $G^{4}_{1424}$ 6 0
    $G^{0}_{3333}$ 0~6 0 $G^{2}_{2333}$ 0,2~4,6 0 $G^{4}_{1433}$ 0 0
    $G^{0}_{3344}$ 0 0 $G^{2}_{2334}$ 0,10 0 $G^{4}_{1434}$ 1 0
    $G^{0}_{4444}$ 0~4 0 $G^{2}_{2344}$ 0 0 $G^{4}_{1444}$ 0~4 0
    $G^{1}_{1212}$ 0 0 $G^{2}_{2424}$ 0,9 0 $G^{4}_{2323}$ 6 0
    $G^{1}_{1223}$ 0 0 $G^{2}_{2433}$ 0 0 $G^{4}_{2324}$ 2 0
    $G^{1}_{1234}$ 0,9 0 $G^{2}_{2434}$ 0 0 $G^{4}_{2333}$ 1~6 0
    $G^{1}_{2323}$ 0 0 $G^{2}_{2444}$ 0 0 $G^{4}_{2334}$ 0,9 0
    $G^{1}_{2334}$ 0 0 $G^{2}_{3333}$ 0 0 $G^{4}_{2344}$ 4 0
    $G^{1}_{3434}$ 1,8 0 $G^{2}_{3334}$ 0 0 $G^{4}_{2424}$ 0 0
    $G^{2}_{1212}$ 0 0 $G^{2}_{3344}$ 0 0 $G^{4}_{2433}$ 0 0
    $G^{2}_{1213}$ 2 0 $G^{2}_{3434}$ 4 0 $G^{4}_{2434}$ 3 0
    $G^{2}_{1222}$ 0~10 0 $G^{2}_{3444}$ 0 0 $G^{4}_{2444}$ 0,2~4 0
    $G^{2}_{1223}$ 0,4,6 0 $G^{2}_{4444}$ 2 2 $G^{4}_{3333}$ 0 0
    $G^{2}_{1224}$ 0 0 $G^{3}_{1313}$ 0,2,4 3 $G^{4}_{3334}$ 0 0
    $G^{2}_{1233}$ 0 0 $G^{3}_{1314}$ 3 0 $G^{4}_{3344}$ 0,10 0
    $G^{2}_{1234}$ 0,9 0 $G^{3}_{1323}$ 3 0 $G^{4}_{3434}$ 0 0
    $G^{2}_{1244}$ 0 0 $G^{3}_{1324}$ 4 0 $G^{4}_{3444}$ 0 0
    $G^{2}_{1313}$ 0,2,4 2 $G^{3}_{1334}$ 4 0 $G^{4}_{4444}$ 4 4
    $G^{2}_{1322}$ 0,2,4,6 0 $G^{3}_{1414}$ 0,2,4~8 2 $G^{5}_{2424}$ 10 9
    $G^{2}_{1323}$ 0 0 $G^{3}_{1423}$ 0 0 $G^{5}_{2434}$ 0 0
    $G^{2}_{1324}$ 0 0 $G^{3}_{1424}$ 0 0 $G^{5}_{3434}$ 1 0
    $G^{2}_{1333}$ 0~8 0 $G^{3}_{1434}$ 0 0 $G^{6}_{3434}$ 12 10
    $G^{2}_{1334}$ 2 0 $G^{3}_{2323}$ 3 0 $G^{6}_{3444}$ 0 0
    $G^{2}_{1344}$ 2 0 $G^{3}_{2324}$ 0 2 $G^{6}_{4444}$ 6 6
    $G^{2}_{2222}$ 0~6 0
    下载: 导出CSV
  • [1] WEIDENMÜLLER H A, MITCHELL G E. Rev Mod Phys, 2009, 81: 539. doi:  10.1103/RevModPhys.81.539
    [2] BOHIGAS O, GIANNONI M J, SCHMIT C. Phys Rev Lett, 1984, 52: 1. doi:  10.1103/PhysRevLett.52.1
    [3] WONG S, FRENCH J B. Nucl Phys A, 1972, 198(1): 188. doi:  10.1016/0375-9474(72)90779-8
    [4] BOHIGAS O, FX J F. Phys Lett B, 1971, 34(4): 261. doi:  10.1016/0370-2693(71)90598-3
    [5] FRENCH J B, WONG S. Phys Lett B, 2001, 33(7): 449. doi:  10.1016/0370-2693(71)90424-2
    [6] MAYER M G. Phys Rev, 1948, 74(3): 235. doi:  10.1103/PhysRev.74.235
    [7] HAXEL O, JENSEN H, SUESS H E. Phys Rev, 1949, 75(11): 1766. doi:  10.1103/PhysRev.75.1766.2
    [8] ZELEVINSKY V, BROWN B A, FRAZIER N, et al. Physics Reports, 1996, 276(2-3): 85. doi:  10.1016/S0370-1573(96)00007-5
    [9] GUHR T, MÜLLER-GROELING A, WEIDENMÜLLER H. Physics Reports, 1998, 299: 198. doi:  10.1016/S0370-1573%2897%2900088-4
    [10] KOTA V. Physics Reports, 2001, 347(3): 223. doi:  10.1016/S0370-1573(00)00113-7
    [11] ZELEVINSKY V, VOLYA A. Physics Reports, 2004, 391(3): 311.
    [12] JOHNSON C W, BERTSCH G F, DEAN D J. Phys Rev Lett, 1998, 80(13):2749. doi:  10.1103/PhysRevLett.80.2749
    [13] JOHNSON C W, BERTSCH G F, DEAN D J, et al. Phys Rev C, 1999, 61: 01431.
    [14] BIJKER R, FRANK A. Phys Rev Lett, 2000, 84(3): 420. doi:  10.1103/PhysRevLett.84.420
    [15] KUSNEZOV D, ZAMFIR N V, CASTEN R F. Phys Rev Lett, 2000, 85(7): 1396. doi:  10.1103/PhysRevLett.85.1396
    [16] BIJKER R, FRANK A, PITTEL S. Phys Rev C, 1999, 60(2): 021302 . doi:  10.1103/PhysRevC.60.021302
    [17] MULHALL D, VOLYA A, ZELEVINSKY V. Phys Rev Lett, 2000, 85(19): 4016. doi:  10.1103/PhysRevLett.85.4016
    [18] ZHAO Y, ARIMA A. Phys Rev C, 2001, (4): 64. doi:  10.1103/PhysRevC.64.041301
    [19] KUSNEZOV D. Phys Rev Lett, 2000, 85(18): 3773. doi:  10.1103/PhysRevLett.85.3773
    [20] BIJKER R, FRANK A. Phys Rev C, 2001, 64(6): 061303. doi:  10.1103/PhysRevC.64.061303
    [21] BIJKER R, FRANK A. Phys Rev C, 2002, 65: 044316. doi:  10.1103/PhysRevC.65.044316
    [22] KAPLAN L, PAPENBROCK T, JOHNSON C W. Phys Rev C, 2000, 63(1): 014307. doi:  10.1103/PhysRevC.63.014307
    [23] KAPLAN L, PAPENBROCK T. Phys Rev Lett, 2000, 84(20): 4553. doi:  10.1103/PhysRevLett.84.4553
    [24] DROZDZ S, WOJCIK M. Physica A Statal Mechanics & Its Applications, 2001, 301(1): 291.
    [25] 沈佳杰. 原子核物理评论, 2020, 37(3): 7. doi:  10.11804/NuclPhysRev.37.2019CNPC15

    SHEN Jiajie. Nuclear Physics Review, 2020, 37(3): 7. (in Chinese) doi:  10.11804/NuclPhysRev.37.2019CNPC15
    [26] CHAU HUU-TAI P, FRANK A, SMIRNOVA N A, et al. Phys Rev C, 2002, 66: 061302. doi:  10.1103/PhysRevC.66.061302
    [27] ZHAO Y M, ARIMA A, YOSHINAGA N. Physics Reports, 2004, 400: 1. doi:  10.1016/j.physrep.2004.07.004
    [28] GAZULA S, CLARK J W, BOHR H. Nuclear Physics A, 1992, 540(1-2): 1. doi:  10.1016/0375-9474(92)90191-L
    [29] HE W, LI Q, MA Y, et al. Science China Physics, Mechanics & Astronomy, 2023, 66(8): 282001. doi:  10.1007/s11433-023-2116-0
    [30] UTAMA R, PIEKAREWICZ J, PROSPER H B. Phys Rev C, 2016.93: 014311. doi:  10.1103/PhysRevC.93.014311
    [31] NIU Z, LIANG H. Phys Lett B, 2018, 778: 48. doi:  10.1016/j.physletb.2018.01.002
    [32] 田大川, 陈寿万, 牛中明. 中国科学: 物理学、力学、天文学, 2022, 52(5): 252007. doi:  10.1360/SSPMA-2021-0301

    TIAN D C, Chen S W, NIU Z M. Sci Sin-Phys Mech Astron, 2022, 52(5): 252007. (in Chinese) doi:  10.1360/SSPMA-2021-0301
    [33] 赵天亮, 张鸿飞. 中国科学: 物理学、力学、天文学, 2022, 52(5): 252008. doi:  10.1360/SSPMA-2021-0304

    ZHAO T L, ZHANG H F. Sci Sin-Phys Mech Astron, 2022, 52(5): 252008. (in Chinese) doi:  10.1360/SSPMA-2021-0304
    [34] UTAMA R, CHEN W C, PIEKAREWICZ J. Journal of Physics G Nuclear & Particle Physics, 2016, 43(11): 114002. doi:  10.1088/0954-3899/43/11/114002
    [35] 王逸夫, 牛中明. 原子核物理评论, 2022, 39(3): 273. doi:  10.11804/NuclPhysRev.39.2022043

    WANG Yifu, NIU Zhongming. Nuclear Physics Review, 2022, 39(3): 273. (in Chinese) doi:  10.11804/NuclPhysRev.39.2022043
    [36] WANG Y, ZHANG X, NIU Z, et al. Phys Lett B, 2022, 830: 137154. doi:  10.1016/j.physletb.2022.137154
    [37] 卜炫德, 吴迪, 白春林. 中国科学: 物理学、力学、天文学, 2022, 52(5): 252005. doi:  10.1360/SSPMA-2021-0312

    BU X D, WU D, BAI C L. Sci Sin-Phys Mech Astron, 2022, 52(5): 252005. (in Chinese) doi:  10.1360/SSPMA-2021-0312
    [38] 李鹏, 白景虎, 牛中明, 等. 中国科学: 物理学、力学、天文学, 2022, 52(5): 252006. doi:  10.1360/SSPMA-2021-0299

    LI P, BAI J H, NIU Z M, et al. Sci Sin-Phys Mech Astron, 2022, 52(5): 252006. (in Chinese) doi:  10.1360/SSPMA-2021-0299
    [39] NIU Z, NIU Y, LIANG H, et al. Phys Lett B, 2013,723(1): 172. doi:  10.1016/j.physletb.2013.04.048
    [40] 彭丹, 魏慧玲, 普洁, 等. 中国科学: 物理学、力学、天文学, 2022, 52(5): 252012. doi:  10.1360/SSPMA-2021-0298

    Peng D, Wei H L, Pu J, et al. Sci Sin-Phys Mech Astron, 2022, 52(5): 252012. (in Chinese) doi:  10.1360/SSPMA-2021-0298
    [41] 易佳怡, 乔春源, 裴俊琛, 等. 中国科学: 物理学、力学、天文学, 2022, 52(5): 252013. doi:  10.1360/SSPMA-2021-0340

    YI J Y, QIAO C Y, PEI J C, et al. Sci Sin-Phys Mech Astron, 2022, 52(5): 252013. (in Chinese) doi:  10.1360/SSPMA-2021-0340
    [42] 温湖峰, 尚天帅, 李剑, 等. 物理学报, 2023, 72(15): 152101. doi:  10.7498/aps.72.20230530

    WEN H F, SHANG T S, LI J, et al. Acta Phys. Sin., 2023, 72(15): 152101. doi:  10.7498/aps.72.20230530
    [43] LECUN Y, BENGIO Y, HINTON G. Nature, 2015, 521(7553): 436. doi:  10.1038/nature14539
    [44] MOUNT J. The Equivalence of Logistic Regression and Maximum Entropymodels[EB/OL].[2023-06-15]. https://api.sem-anticscholar-.org/CorpusID:8034169
    [45] GLOROT X, BORDES A, BENGIO Y. Deep Sparse Rectifier Neural Networks[C/OL]//International Conference on Artificial Intelligence and Statistics. 2011. https://api.semanticscholar.org/CorpusID:2239473.
    [46] GLOROT X, BORDES A, BENGIO Y. Journal of Machine Learning Research, 2011, 15: 315.
    [47] WILLIAMS C K I, BARBER D. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 20(12): 1342. doi:  10.1109/34.735807
    [48] KINGMA D P, BA J. Adam: A Method for Stochastic Optimization [C/OL]//BENGIO Y, LECUN Y. 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7- 9, 2015, Conference Track Proceedings. 2015. http://arxiv.org/abs/1412.6980.
    [49] LAWSON R D. Theory of the Nuclear Shell Model[M]. Washington D C: U.S. Department of Energy, 1980.
    [50] DUBEY S R, SINGH S K, CHAUDHURI B B. Neurocomputing, 2022, 503: 92. doi:  10.1016/j.neucom.2022.06.111
    [51] SEDGWICK P. BMJ, 2012,345: e4483. doi:  10.1136/bmj.e4483
  • 加载中
图(10) / 表 (7)
计量
  • 文章访问数:  52
  • HTML全文浏览量:  16
  • PDF下载量:  6
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-06-28
  • 修回日期:  2023-10-28
  • 网络出版日期:  2024-03-15
  • 刊出日期:  2024-03-20

基于神经网络模型的原子核基态自旋分布的随机相互作用研究

doi: 10.11804/NuclPhysRev.41.2023CNPC13
    基金项目:  国家自然科学基金资助项目(12105234)
    作者简介:

    刘登(1998–),男,四川泸州人,硕士研究生,从事原子核结构理论研究;E-mail: 1990404867@qq.com

    通讯作者: 雷杨,E-mail: leiyang19850228@gmail.com
  • 中图分类号: O571.53

摘要: 利用神经网络模型学习、模拟随机两体系综(TBRE)下的原子核基态自旋分布,并对学习后的模型输入特征进行了分析。这是核物理中利用神经网络模型进行分类的典型应用。研究表明,采用本工作的单隐藏层神经网络模型,精确地描述每个随机相互作用系综内的样本仍比较困难。然而,神经网络模型却能够相对较好地描述基态自旋的统计性质,这可能是因为神经网络模型学习到了TBRE中基态自旋分布的经验规律。

English Abstract

刘登, ALAMNoor A, 肖越, 雷杨, 覃珍珍. 基于神经网络模型的原子核基态自旋分布的随机相互作用研究[J]. 原子核物理评论, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
引用本文: 刘登, ALAMNoor A, 肖越, 雷杨, 覃珍珍. 基于神经网络模型的原子核基态自旋分布的随机相互作用研究[J]. 原子核物理评论, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
Deng LIU, Noor A ALAM, Yue XIAO, Yang LEI, Zhenzhen QIN. Random Interaction Study on Angular-momentum Distribution of Nuclear Ground State with Neural Networks[J]. Nuclear Physics Review, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
Citation: Deng LIU, Noor A ALAM, Yue XIAO, Yang LEI, Zhenzhen QIN. Random Interaction Study on Angular-momentum Distribution of Nuclear Ground State with Neural Networks[J]. Nuclear Physics Review, 2024, 41(1): 385-395. doi: 10.11804/NuclPhysRev.41.2023CNPC13
    • 原子核是一个典型的复杂多体量子系统。原子核在随机相互作用系综内的规律性鲁棒特征为量子多体问题研究提供了另一种途径。随机相互作用研究可以追溯到随机矩阵的研究[1]。在这类研究中,随机数被作为核多体哈密顿量矩阵元。对角化这样的随机矩阵得到的能谱统计性质可以与实验进行对比,并进一步与量子混沌现象联系起来[2]。20世纪70年代,文献[35]将这类使用随机数作为核理论输入的想法引入壳模型(Shell Model, SM)[67],即使用随机数的两体相互作用矩阵元作为壳模型输入,以观察这种虚拟核的能谱统计特征,以定量方式说明原子核中的量子混沌现象[5, 811]。这样的大样本虚拟核数据集就形成了随机两体系综(two-body random ensemble, TBRE)。

      上述工作的持续深入使人们意识到,原子核的许多能谱统计相关的特征与构成粒子之间的相互作用细节可能并没有必然联系。因此,TBRE就可以成为探索原子核与相互作用细节无关的内禀特征的适用平台。受上述思想的启发,Johnson等[1213]在TBRE中针对原子核低激发态性质进行统计,获得一系列与核子相互作用无关的原子核低激发态鲁棒特征。这其中最典型的特征是,在TBRE中,偶偶核的基态自旋为0的概率远远大于自旋为0的基矢在全空间中所占比重。这就被称为原子核基态零自旋占优现象(predominance of I = 0 ground state)。随后该现象也在玻色子体系中被发现[1415]

      实验上,偶偶核的基态自旋的确均为零。但是通常一般认为这是核力短程性所形成对力驱使核子配对的一种直接体现。然而,在TBRE中,两体相互作用矩阵元全部是随机的。对力在其中并不占优。原子核基态零自旋占优现象之所以值得注意,是因为它违反了人们的朴素认知:“零自旋基态源自于核子配对”。在TBRE中,就算相互作用没有对力,也有很大概率得到零自旋基态。

      基态零自旋占优现象的发现是颠覆性的,但是理解它则极具挑战。因为解释这种现象,相当于要从数学上计算各种自旋作为基态的概率分布。而核模型是典型的非线性系统,难以适用统计推断理论。一直以来,学者们就尝试唯象地使用多种可计算量来理解TBRE中原子核基态自旋的分布,如每个自旋的最低特征值的分布[14]和分布宽度[16],自旋耦合的几何混沌性[17],最大和最小的对角线矩阵元[18],在TBRE玻色子体系尝试给出不同自旋的最低本征值极限表示及与之对应基态概率[1921],不同自旋基态的波函数特征[2223],不同自旋基态的能量尺度特征[24],沈佳杰等[25]使用真实的剩余两体相互作用作为随机两体矩阵元分布的中心值,发现基态零自旋的概率与两体矩阵元分布的中心值具有很大的相关性,等等。

      在上述探索基础上,一些经验规则被提出以预测基态自旋概率分布,如,Kusnezov等[19]使用随机多项式方法可以先验地给出$ sp $玻色子的概率分布,其结果与Bijker等[2021]利用平均场方法,通过考虑哈密顿函数的势能面与几何形状之间的关系所得到的结果是一致的;Chau等[26]讨论了d玻色子系统和$ f_{7/2}^{} $壳层4个费米子的情况,说明特定自旋基态与原子核特征量所决定的几何形状之前的关联,进而预测相应自旋基态存在的概率;Zhao等[27]指出TBRE中偶偶核基态零自旋占优现象可能与某些特定两体相互作用矩阵元相关,进而提出了一套较为普适的经验规则来预测基态自旋分布。需要指出的是,经验规则相当于将基态自旋零占优的决定因素归结为某些具体两体矩阵元,有利于从微观机制出发解释这一现象,因此,这个规则也被应用于全文分析中。

      但上述前人工作均受困于核模型的复杂性。为解决这一困境,可以使用一种可被理解的简单模型来模拟壳模型行为,以此找到基态自旋分布与相互作用之间的具体关联,从而为最终解释基态零自旋占优现象提供方法学支撑。神经网络模型(Neural Networks, NN)可以被看作是这种简单模型的候选方法。它具有强大的学习、预测能力与适应能力[28],以应对多种复杂问题,如语言翻译、语音识别、计算机视觉、自动驾驶乃至一些复杂物理系统。就基态自旋分布问题而言,可以将TBRE样本中的相互作用矩阵元作为NN的输入,基态自旋作为输出,利用这样的NN模型来学习TBRE中的壳模型的基态自旋行为,从而得到一种结构相对比较简单,可用于分析相互作用与基态自旋之间关联的壳模型近似。TBRE可以为NN学习提供巨量甚至是无限不重复的数据集,有利于提升NN的泛化能力,使其能够更有效地模拟壳模型基态自旋特征。这也是使用NN分析TBRE中的原子核鲁棒行为的一大优势。

      近年来,低能核结构研究中已经引入多种神经网络模型[29],用来预测原子核的各种性质以辅助分析核实验数据。如,改进核质量的描述和预言[3033]、预测核电荷半径[34]、研究原子核低激发谱[3536]、描述α衰变半衰期[37]、描述β衰变寿命[3839]、预测核散裂反应中产物截面[40]、评价核裂变碎片产额分布[41]等等。但是这些工作主要关注了神经网络模型的拟合能力。而预测TBRE样本的基态自旋本质是一种分类问题[42]。将NN的分类能力应用于低能核结构研究仍是不多见的。本文的神经网络模型的架构可能为这方面的应用提供参考。

    • 在随机两体系综中,核系统哈密顿量忽略了单体项、三体及三体以上的剩余相互作用,仅考虑了两体相互作用。在壳模型框架下,两体相互作用可以普适地表示为

      $$ H_{2}^{} = \sum\limits_{J}^{} \sum\limits_{j_{1}^{} j_{2}^{}}^{} \sum\limits_{j_{3}^{} j_{4}^{}}^{} G^{J}_{j_{1}^{} j_{2}^{} ;\, j_{3}^{} j_{4}^{}} A_{J }^{\dagger}\left(j_{1}^{} j_{2}^{}\right) A_{J }^{}\left(j_{3}^{} j_{4}^{}\right), $$ (1)

      式(1)中$G^{J}_{j_{1}^{} j_{2}^{} ;\; j_{3}^{} j_{4}^{}}$为两体相互作用矩阵元;$ A_{J }^{\dagger}\left(j_{1}^{} j_{2}^{}\right) $是$ j_1^{} $、$ j_2^{} $轨道上两个粒子耦合成角动量为$ J $这样的粒子对所对应的产生算符;$ A_{J }^{}\left(j_{3}^{} j_{4}^{}\right) $则对应于相应的粒子对湮灭算符。

      在TBRE中,式(1)的$G^{J}_{j_{1}^{} j_{2}^{} ;\, j_{3}^{} j_{4}^{}}$为独立的高斯随机数,其中心值为0,对角元的宽度为1,而非对角宽度为$ 1/\sqrt 2 $:

      $$ \rho\left(G^{J }_{j_{1}^{} j_{2}^{} j_{3}^{} j_{4}^{}}\right) = \frac{1}{\sqrt{2 \pi} \sigma} \exp\left\{-\frac{\left(G^{J }_{j_{1}^{} j_{2}^{};\, j_{3}^{} j_{4}^{}}\right)^{2}}{2 \sigma^{2}}\right\} \text { , } $$ (2)

      其中

      $$ \sigma^{2} = \frac{1}{2}\left(1+\delta_{j_{1}^{} j_{2}^{} ;\, j_{3}^{} j_{4}^{}}^{}\right) \text { , } $$

      以保证相互作用矩阵元的统计分布不随单粒子能级的变换而改变。

    • 本文构建的神经网络分类模型包含输入层、一个隐藏层[43]和输出层,如图1所示。其中输入层将输入壳模型两体相互作用矩阵元,输入层神经元个数应等于壳模型两体相互作用矩阵元个数;输出层则给出在对应相互作用输入下,不同自旋成为基态的概率,输出层神经元个数为应为所有可能的基态自旋的个数。根据Sigmoid[44]、Tanh[45]、ReLU (Rectified Linear Uint)[46]三种不同激活函数的性能对比,我们认为ReLU激活函数对本文工作可能是一种相对合理的选择。如无特殊声明,本文神经网络模型均采用ReLU激活函数。设$ {\boldsymbol{x}} = \left\{x_{i}^{}\right\} $为网络输入,$ \hat{y} $为网络输出,则有

      图  1  本文神经网络分类模型示意图

      $$ \hat{y}({\boldsymbol{x}} ; \omega) = a+\sum\limits_{j = 1}^{H} b_{j}^{} ReLU \left(c_{j}^{}+\sum\limits_{i = 1}^{I} d_{j i}^{} x_{i}^{}\right), $$ (3)

      其中$ {\boldsymbol{\omega}} = \left\{a, b_{j}^{}, c_{j}^{}, d_{j i}^{}\right\} $表示神经网络模型的参数;$ H $和$ I $分别为神经网络模型隐藏层神经元个数和输入量的个数。

      输出层引入Softmax函数[47],将未规范化的预测数值转换为非负数,并且总和为1的概率值,同时保持模型具有可导性质。如下式:

      $$ P_k^{} = Softmax(\mathbf{y})_{k}^{} = \frac{e^{y_{k}^{}}}{\displaystyle\sum_{l = 1}^{L} e^{y_{k}^{}}} \quad \text { for } k = 1, \cdots, L , $$

      其中:$ L $为输入个数。Softmax运算不会改变未规范化的预测之间的大小次序,而是通过确定分配给每个类别的概率来表达预测结果。因此,常将Softmax函数应用于分类问题的神经网络模型中。这种方式可以将模型的输出转化为表示各个类别概率的形式,使得我们可以直接解读并使用这些概率进行分类决策。

      给定一个包含$ N $个数据的学习集$ D = \left\{\left({\boldsymbol{x}}_{1}^{},y_{1}^{}\right)\right. , \left.\left({\boldsymbol{x}}_{2}^{}, y_{2}^{}\right),\cdots,\left({\boldsymbol{x}}_{N}^{}, y_{N}^{}\right)\right\} $和损失函数,即可以训练神经网络模型参数$ {\boldsymbol{\omega}} $。对于分类问题,一般选择交叉熵作为损失函数,即对于任何标签$ \mathbf{y} $和模型预测$ \hat{\mathbf{y}} $,损失函数为

      $$ loss(\mathbf{y},\, \hat{\mathbf{y}}) = -\sum\limits_{m = 1}^{n} y_{m}^{} \log \hat{y}_{m}^{}, $$ (4)

      损失函数可以量化神经网络输出$ \hat{y} $与学习数据$ y $之间的偏差,神经网络的学习过程即通过适当的优化算法,如本文采用的Adam (Adaptive Moment Estimation)优化算法[48],调节网络参数$ {\boldsymbol{\omega}} $以减小损失函数(4),直至满足要求,从而得到具有预测能力的神经网络模型。

    • 我们在6个模型空间中开展了TBRE样本生成工作,包括4个价核子在$ f_{7/2}^{} $轨道(简记为$ (f_{7/2}^{})^4 $),4个价核子在$ h_{11/2}^{} $轨道(简记为$ (h_{11/2}^{})^4 $),2、4、6个价核子处于$ sd $壳(分别对应于$ ^{18,\, 20,\, 22} {\rm{Ne}}$),以及6个价核子处于$ pf $壳(对应于$ ^{46} {\rm{Ca}}$)。这6个模型空间分别对应着不同的复杂程度的壳模型计算。表1列出了不同模型空间中,TBRE样本量和神经网络模型输入输出参数。

      表 1  6个模型空间所对应的TBRE样本量和神经网络模型输入输出参数

      模型空间TBRE
      样本量
      输入层神经元数
      (两体矩阵元数)
      输出层神经元数
      (基态自旋数)
      $(f_{7/2}^{})^4$130 00045
      $(h_{11/2}^{})^4$80 000610
      $^{18}{\rm{Ne}}$90 000305
      $^{20}{\rm{Ne}}$90 000307
      $^{22}{\rm{Ne}}$100 000308
      $^{46}{\rm{Ca}}$140 0009413

      在$ (f_{7/2}^{})^4 $模型空间中,根据壳模型计算,能量本征值是由两体相互作用矩阵元的线性组合确定,而线性组合系数被称为“cfp系数”[49]。基态自旋的确定就是找出哪个自旋对应的能量本征值最低。此外,无隐藏层的神经网络模型也涉及输入(即两体相互作用矩阵元)的线性组合,通过softmax运算得出各自旋为最低能量的概率。因此,在$ (f_{7/2}^{})^4 $模型空间中,壳模型和神经网络模型对确定基态自旋的计算方式相似。如果将壳模型能量本征值中的cfp系数作为神经网络模型的权重参数输入,将会得到完全相同的基态自旋结果。因此,即使没有引入隐藏层,无隐藏层的神经网络模型也能达到98%的基态自旋预测准确率。然而,由于神经网络模型训练得到的权重系数中包含负值,与壳模型能量本征值中的cfp系数(全为正数)不同,因此无隐藏层神经网络模型不能达到100%的预测准确率。

      针对$ (f_{7/2}^{})^4 $模型空间,我们尝试引入一层隐藏层,观察是否能提高神经网络模型的预测准确率,并研究不同神经元数目对准确率的影响。结果如图2所示,显示了模型的基态自旋预测准确率在提高神经元数目后有所提升,但仍然无法达到100%。由于隐藏层对$ (f_{7/2}^{})^4 $模型空间的计算结果影响较小,且加入隐藏层违背了壳模型和神经网络模型之间的对应关系,因此本文不打算在针对$ (f_{7/2}^{})^4 $模型空间的神经网络模型中引入隐藏层。

      图  2  在$(f_{7/2}^{})^4$空间中,神经网络模型预测准确率随着单隐藏层神经元数目的变化情况

      对于$ (h_{11/2}^{})^4 $、$ ^{18} {\rm{Ne}}$空间,情况相对复杂。有部分本征值必须通过对角化得到。虽然这些对角化过程可能是解析的,但已无法通过图运算来严格获得权重参数(或者说cfp系数)对交叉熵的导数。因此有必要在这个神经网络模型中引入隐藏层,提高模型对非线性对角化的适应能力。而在$ ^{20,22} {\rm{Ne}}$与$ ^{46} {\rm{Ca}}$空间中,本征值与cfp系数的关系已完全非线性化,隐藏层的引入更为必要。

      对于$ (h_{11/2}^{})^4 $空间,我们首先添加了一个隐藏层,并根据经验尝试选择64作为测试运行的神经元数量。实验结果表明,单隐藏层64个神经元数量下的神经网络模型在预测$ (h_{11/2}^{})^4 $空间中的基态自旋准确率达到97%,表现令人满意。通过对比单隐藏层中不同神经元数目对预测准确率的影响,我们确定64个神经元可能是单隐藏层神经元的最优平衡数。图3给出了$ N $个神经元和$ 2N $个神经元的预测准确率之间的差异。基于64个神经元,隐藏层神经元数目的进一步增大并没有显著提升模型预测准确率,反而会大规模地增加计算开销。因此,在本文单隐层神经网络模型中64个神经元可能是神经元数目的最优平衡数。除$ (f_{7/2}^{})^4 $空间外,我们的单隐藏层神经网络模型所插入的隐藏层神经元个数均设置为64。

      图  3  单隐藏层神经网络模型中使用$N$个神经元和$2N$个神经元的预测准确率差异

      基于前述讨论,我们固定神经元数量为64,研究了在复杂的$ ^{18,\,20,\,22} {\rm{Ne}}$与$ ^{46} {\rm{Ca}}$四个模型空间中改变隐藏层数对模型预测准确率的影响。表2涵盖了隐藏层数为1、2、3三种情况。我们以没有添加隐藏层的纯线性组合情况为基准,逐步添加一层隐藏层,以观察预测准确率的变化效果。在表2中,我们观察到添加一个隐藏层后,准确率显著提高。然而,随着引入更多隐藏层,我们发现具有$ n $隐藏层的神经网络相较于具有$ n-1 $隐藏层的神经网络的预测准确率并没有明显提高。考虑到额外的层会增加计算资源的消耗,我们认定在$ ^{18} {\rm{Ne}}$,$ ^{20} {\rm{Ne}}$,$ ^{22} {\rm{Ne}}$和$ ^{46} {\rm{Ca}}$模型空间中,一个隐藏层可能是最佳选择。

      表 2  在只有每层隐藏层神经元数目均为64的情况下,$^{18}{\rm{Ne}}$,$^{20}{\rm{Ne}}$,$^{22}{\rm{Ne}}$和$^{46}{\rm{Ca}}$模型空间中,具有$n-1$层隐藏层和$n$层隐藏层的模型之间的预测准确率差值(最大的预测准确率差值用粗体表示)

      隐藏层数 1 2 3
      $^{18}{\rm{Ne}}$ 16.15 1.61 −1.73
      $^{20}{\rm{Ne}}$ 10.82 3.70 −0.70
      $^{22}{\rm{Ne}}$ 8.92 2.77 −0.63
      $^{46}{\rm{Ca}}$ 2.28 −0.68 −0.13

      激活函数[50]通过非线性变换学习抽象特征,在神经网络中起着至关重要的作用。常见的激活函数有Sigmoid、Tanh和ReLU函数,图4讨论了不同激活函数对我们的神经网络模型预测准确率的影响。由图4可以看到对于6个模型空间Tanh和ReLU函数的模型预测准确率十分接近,优于Sigmoid。由于Tanh激活函数需要计算指数,较ReLU对计算开销的要求更高,全文神经网络如无特殊声明均采用了ReLU激活函数。

      图  4  在一个隐藏层拥有64个神经元的神经网络模型在不同激活函数(Sigmoid、Tanh和ReLU)下的预测准确率

      优化算法在深度学习中起着关键作用,帮助我们通过更新模型参数来最小化复杂的目标函数。LBFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno)、SGD(随机梯度下降)和Adam(Adaptive Moment Estimation)是三种常用的优化算法,经常用于神经网络的参数优化过程。在本节我们也讨论了LBFGS、SGD和Adam这三种常用的优化算法对我们模型预测准确率的影响。

      我们以六个模型空间中$ (h_{11/2}^{})^4 $模型空间为例,画出了三种不同优化算法(LBFGS、SGD、Adam)的损失函数值随着迭代次数的演化曲线,如图5所示。从图中可观察到,LBFGS和SGD优化算法下的损失值下降程度相当,而Adam优化算法下的损失值下降幅度最为显著。这表明Adam算法更适用于我们的最小化目标函数。

      图  5  $(h_{11/2}^{})^4$模型空间中LBFGS、SGD、Adam三种不同优化算法的损失函数值随迭代次数的演化曲线

      我们在六个模型空间中使用相同参数,并通过仅改变优化算法来评估其对预测准确率的影响,结果见图6。柱状图显示LBFGS、SGD、Adam三种不同优化算法下的预测准确率:SGD效果最差,LBFGS和Adam效果接近。考虑到Adam算法具有自适应学习率、对稀疏梯度有良好适应性以及较快的收敛速度,因此我们选择Adam算法作为优化算法。

      图  6  不同的优化算法下的预测准确率

      正如图1所示,我们采用了一个全连接的神经网络模型。然而,考虑到最近贝叶斯神经网络(BNN)和卷积神经网络(CNN)以及循环神经网络(RNN)在核物理领域的应用取得的巨大成功,我们也对这四种神经网络模型在预测准确率方面进行了比较,如表3所列。根据表3,我们可以看出CNN的表现最差,而BNN和RNN的准确率和本文NN相当。然而,考虑到我们本文神经网络模型训练速度更快,耗费更少的计算资源。因此,我们认为本文的神经网络模型仍是我们研究的最佳选择。

      表 3  使用四种不同的神经网络模型在6个模型空间上的预测准确率

      NN类型$(f_{7/2}^{})^4$$(h_{11/2}^{})^4$$^{18}{\rm{Ne}}$$^{20}{\rm{Ne}}$$^{22}{\rm{Ne}}$$^{46}{\rm{Ca}}$
      本文NN97.7897.5485.6868.8778.9455.74
      BNN97.1196.6584.7068.3179.6356.09
      CNN96.6382.2985.3262.7473.0454.35
      RNN96.5897.3785.9168.6180.2355.71

      特征选择在机器学习和数据分析中至关重要,因为它可以提高模型性能,减轻过拟合风险,增强计算效率,简化模型解释,并解决与噪声和冗余信息相关的问题。这包括进行关联分析,评估每个特征与目标变量之间的关系。随后,选择与目标变量具有强相关性的特征,而将其他特征排除在进一步的训练之外。

      我们针对四个高维模型空间,即$^{18-22} {\rm{Ne}}$和$ ^{46} {\rm{Ca}}$模型空间,计算了Spearman相关系数,并使用不同的阈值大小选择具有强相关性的输入特征。只有具有大于阈值的$ \rho $值的特征才被保留用于进一步训练。我们在图7中给出了不同的阈值特征选择下的预测准确率柱状图。其中“None”代表没有进行特征选择,依旧是我们每个模型空间的初始输入特征个数。根据图7所显示的结果,随着阈值从$ T = 0.001 $增加至$ T = 0.1 $,所有模型的预测准确率均显示出下降的趋势。这表明特征选择并未带来预期的性能提升。我们推断每个特征对模型的预测准确率都具有重要作用,因为未经特征选择的模型表现最佳。这可能是因为特征选择过程中丢失了一些对预测有贡献的重要信息,导致模型性能下降。因此,对研究问题而言,每个特征均具有显著意义,无法通过筛选特征来提高模型的预测能力。

      图  7  不同的阈值特征选择下的预测准确率

    • 对于$ (f_{7/2}^{})^4 $空间,由于其壳模型本征值本身就是两体矩阵元的线性组合,与线性回归的神经网络模型在基态自旋确定方面的计算方式是类似的,因此神经网络模型可以实现高达98%的基态自旋预测准确率。而对于$ (h_{11/2}^{})^4 $空间,由于部分本征值与两体矩阵元呈非线性关联,需要在模型中引入了隐藏层,以实现更高的预测准确率。结果显示,其准确率也能达到97%,较令人满意的成果。但是对于其它四个空间,模型预测准确率有大幅下滑。具体趋势表现为空间维数越高,模型预测准确率越低。鉴于这种趋势,我们在图8中提供了6个模型空间中,神经网络模型对基态自旋的预测准确率与空间维数之间的散点图。从散点图中清晰地展现出二者之间存在一定的线性关系。为了进一步量化这种关系,我们计算了模型预测准确率与空间维数之间的Pearson相关系数[51],结果为-0.788。这说明两者之间确实存在一定的负相关性。也就是说,随着空间维度的增大,神经网络模型的预测表现会相应变差。这是一个可以理解的结果,随着量子系统的复杂度提升,神经网络模型的泛化能力必然受到挑战。尽管我们穷尽多种手段来提高分类神经网络模型预测准确性,但结果均不甚理想。这说明壳层模型的复杂程度已经超出了本文所使用的神经网络模型适用范围。可能需要更为专门的神经网络结构才能准确地预测TBRE中的基态自旋。这也从一个侧面反映出基态零自旋占优现象的复杂性。

      图  8  6个模型空间中,神经网络模型对基态自旋预测准确率与空间维数之间的负相关性

      在样本不平衡的情况下,准确率可能无法全面反映分类模型的性能,因此考虑引入混淆矩阵来评估模型性能。混淆矩阵是一个$ N \times N $的矩阵,其中$ N $代表分类标签的个数。混淆矩阵的横纵坐标轴分别表示模型预测值和真实值。混淆矩阵是一种展示模型预测结果的矩阵,能清晰展示模型在不同类别上的预测准确性和错误情况,有助于分析模型在不同类别上的表现。为了更全面了解神经网络模型对不同自旋的预测可靠性差异,我们在图9中展示了神经网络模型对6个虚拟核的基态自旋预测准确率的混淆矩阵。在该混淆矩阵中,纵轴表示神经网络模型预测的基态自旋($ I_{\rm{NN}}^{} $),横轴表示壳模型计算得到的基态自旋($ I_{\rm{SM}}^{} $),其中的灰度深浅代表,在神经网络预测为基态自旋为$ I_{\rm{NN}}^{} $的验证样本中,壳模型计算所得基态自旋为$ I_{\rm{SM}}^{} $的概率的大小。可以看到混淆矩阵的主对角线一般呈深色。这说明对于特定基态角动量,神经网络模型的预测结果在很大程度上与壳模型的结果一致。从统计角度来看,可以认为神经网络模型至少学习到了壳模型基态自旋特征的某些部分。此外,根据图8的数据我们可以发现,相较于具有更高维度的$ ^{22} {\rm{Ne}}$,$ ^{20} {\rm{Ne}}$核的基态自旋预测准确率反而较低。这与图9的$ ^{20} {\rm{Ne}}$吻合。可以看到$ ^{20} {\rm{Ne}}$核相较于其他核,主对角线与其他区域的颜色区分并不十分明显。说明该空间中基态自旋的神经网络预测受到了更多的挑战,有待进一步挖掘该空间中特有的多体复杂性特征。

      图  9  $(f_{7/2}^{})^4$、$(h_{11/2}^{})^4$、$^{18}{\rm{Ne}}$、$^{20}{\rm{Ne}}$、$^{22}{\rm{Ne}}$、$^{46}{\mathrm{Ca}}$6个模型空间中神经网络对基态自旋预测的混淆矩阵。纵轴表示神经网络模型预测的基态自旋($I_{\rm{NN}}^{}$),横轴表示壳模型计算得到的基态自旋($I_{\rm{SM}}^{}$),其中的灰度深浅代表,在神经网络预测为基态自旋为$I_{\rm{NN}}^{}$的验证样本中,壳模型计算所得基态自旋为$I_{\rm{SM}}^{}$的概率的大小

      为了进一步评估神经网络模型的性能,图10给出了TBRE中,壳模型和神经网络模型所给出的不同自旋$ I $作为基态自旋的概率$ P_{\rm{I}}^{} $。通过对比,我们发现神经网络模型在所有模型空间中,都能够很好地吻合壳模型计算的基态自旋分布,说明神经网络在描述TBRE鲁棒的统计性质方面取得了部分成功。

      图  10  TBRE中,对于$(f_{7/2}^{})^4$、$(h_{11/2}^{})^4$、$^{18}{\rm{Ne}}$、$^{20}{\rm{Ne}}$、$^{22}{\rm{Ne}}$、$^{46}{\rm{Ca}}$6个模型空间,壳模型及神经网络模型所给出的不同自旋$I$作为基态自旋的概率$P_{{I}}^{}$,以及相应的经验规则预测结果(在线彩图)

    • 为简单预测TBRE中原子核基态自旋的分布,Zhao等[18]提出了一种通用的经验规则。他们的思路是将众多两体矩阵元中的其中一个矩阵元设为−1,其余设为0,然后将这种相互作用输入到壳模型中进行计算,记录基态自旋$ I $。如果模型空间中有$ N $个独立的两体矩阵元,那么就将上述过程重复$ N $次,每次设定不同的矩阵元为−1。最后统计自旋$ I $在$ N $次数值实验中是基态自旋的次数,记为$ N_{\rm{I}}^{} $。那么自旋$ I $的作为基态自旋的概率可估为

      $$ P_{\rm{I}}^{} = N_{\rm{I}}^{} / N。 $$ (5)

      该规则的核心思路就是将“特定自旋$ I $作为基态自旋”归因于某一个或一些两体矩阵元。将其中一项矩阵元设为−1,对应于该矩阵元很小时的一种极限情况。那么在随机两体系综内,由于该矩阵元较小而产生的自旋为$ I $的基态在某种程度上就是可以理解的。如果为自旋$ I = 0 $负责的矩阵元相对较多,那么零自旋基态出现的概率也就更多,经验上就可以解释基态零自旋占优现象。在表4给出了在$ (f_{7/2}^{})^4 $和$ (h_{11/2}^{})^4 $两个较简单的模型空间中,壳模型中两体矩阵元$ G^J $与基态自旋$ I $基于经验规则的关联。比如说,在$ (h_{11/2}^{})^4 $空间中,$ G^0 $或$ G^4 $很小时,都可以得到自旋为0$ \hbar $的基态,而自旋为8$ \hbar $的基态只能产生于$ G^8 $很小的情况。自然地,基态自旋为0$ \hbar $的概率就将大于自旋为8$ \hbar $的概率。

      表 4  $(f_{7/2}^{})^4$和$(h_{11/2}^{})^4$空间中,壳模型与神经网络模型基于经验规则所得两体矩阵元$G^J$与自旋$I$之间的关联。此处$G^J$代表两体相互作用矩阵元$G^J_{jj;\,jj}$(见式(1)),表中数字代表对应当$G^J=-1$,而其它矩阵元为0时,两模型得到的或预测的基态自旋$I_{g.s.}^{}$

      空间模型$G^{0}$$G^{2}$$G^{4}$$G^{6}$$G^{8}$$G^{10}$
      $(f_{7/2}^{})^4$壳模型0428
      神经网络0428
      $(h_{11/2}^{})^4$壳模型0404816
      神经网络0404816

      另一方面,训练后的神经网络模型也同样适用于经验规则:可以将神经网络模型的输入之一设为−1,其余设为0,记录模型预测的基态自旋$ I $。反复$ N $次实验,也将得到基于经验规则的神经网络模型的两体矩阵元与基态自旋$ I $之间的关联,以及相应的$ P_{\rm{I}}^{} $分布预测。在表4中,对比了壳模型与神经网络模型基于经验规则所得两体矩阵元-$ I $关联。两者结果完全一致,这表明我们的神经网络模型已在数据中学习到了基于经验规则的两体矩阵元-$ I $关联,可复现壳模型中的经验规则,也就可以复现经验规则所预测的基态自旋分布。

      我们先对所有的模型空间两模型下由经验规则预测的基态自旋一致率做宏观上的比较。在表5给出了所有的模型空间在两种模型下由经验规则预测的基态自旋的一致率。从表5可以看出,对于$ (f_{7/2}^{})^4 $、$ (h_{11/2}^{})^4 $、$ ^{18} {\rm{Ne}}$这三个模型空间,我们的神经网络模型与壳模型二者基于经验规则所预测的基态自旋完全一致。尽管$ ^{18} {\rm{Ne}}$模型空间的预测准确率仅为86%,但神经网络模型和壳模型基于经验规则预测基态自旋的结果却是完全一致的。这表明即使神经网络模型的预测准确率略低于壳模型,但仍然可以在一定程度上替代壳模型进行基态自旋预测,说明神经网络模型在经验规则方面具有预测基态自旋的能力。而对于$ ^{20} {\rm{Ne}}$、$ ^{22} {\rm{Ne}}$、$ ^{46} {\rm{Ca}}$两模型下由经验规则预测的基态自旋一致率依次为60%、80%、74%,其中$ ^{20} {\rm{Ne}}$比$ ^{22} {\rm{Ne}}$的一致率低也符合图9的混淆矩阵的呈现。这些结果表明,在某些情况下,神经网络模型能够有效地与壳模型进行基态自旋的预测,但也需要注意到在特定模型空间下神经网络模型和壳模型之间的差异。

      表 5  神经网络模型的预测准确率和壳模型和神经网络模型基于经验规则预测的基态自旋$I$的一致率。

      模型空间$(f_{7/2}^{})^4$$(h_{11/2}^{})^4$$^{18}{\rm{Ne}}$$^{20}{\rm{Ne}}$$^{22}{\rm{Ne}}$$^{46}{\rm{Ca}}$
      预测准确率 (%)989786688056
      $G$的个数4630303094
      预测$I$正确个数4630182470
      预测$I$一致率 (%)100100100608074

      表467中,列出了$ (f_{7/2}^{})^4 $、$ (h_{11/2}^{})^4 $、$ ^{18,\,20,\,22} {\rm{Ne}}$、$ ^{46} {\rm{Ca}}$这六个模型空间,在壳模型和神经网络模型中应用的经验规则,得到的两体相互作用矩阵元素$ G $(在式(1)中定义为$ G^J_{j_1^{}j_2^{};j_3^{}j_4^{}} $)与基态自旋$ I $之间的$ G-I $相关性。

      表 6  针对$^{18}{\mathrm{Ne}}$、$^{20}{\mathrm{Ne}}$、$^{22}{\mathrm{Ne}}$空间,以$G^J_{j_1^{}j_2^{};\,j_3^{}j_4^{}}$表示两体相互作用的矩阵元,其中下标$j_1^{}, \, j_2^{}, \, j_3^{}, \, j_4^{}$简记为1、2、3,分别对应$sd$壳中的$s_{1/2}^{}$、$d_{3/2}^{}$、$d_{5/2}^{}$轨道。$I=0 \sim 4$表示壳模型中自旋为0、1、2、3、4的多重简并态(基于神经网络模型和壳模型的经验规则预测的基态自旋$I$不一致的情况以粗体突出显示)

      $G^J_{j_1^{}j_2^{};j_3^{}j_4^{}}$ $^{18}{\rm{Ne}}$ $^{20}{\rm{Ne}}$ $^{22}{\rm{Ne}}$
      SM NN SM NN SM NN
      $G^{0}_{1111}$ 0 0 0~4 0 0~6 0
      $G^{0}_{1122}$ 0 0 0,2,4 0 0,2,4 0
      $G^{0}_{1133}$ 0 0 0 0 0,2 0
      $G^{0}_{2222}$ 0 0 0,2~4 0 0~5 0
      $G^{0}_{2233}$ 0 0 0 0 0 0
      $G^{0}_{3333}$ 0 0 0 0 0~2 0
      $G^{1}_{1212}$ 1 1 1 0 0 0
      $G^{1}_{1223}$ 1 1 2 0 0 0
      $G^{1}_{2323}$ 1 1 0 0 0 3
      $G^{2}_{1212}$ 2 2 0,2 0 0 0
      $G^{2}_{1213}$ 2 2 2 0 2 2
      $G^{2}_{1222}$ 2 2 1~4 0 0~6 0
      $G^{2}_{1223}$ 2 2 0 0 0 2
      $G^{2}_{1233}$ 2 2 0 0 0 0
      $G^{2}_{1313}$ 2 2 4 2 0,2,4 2
      $G^{2}_{1322}$ 2 2 0 0 0 0
      $G^{2}_{1323}$ 2 2 0 2 0 0
      $G^{2}_{1333}$ 2 2 2 2 0~4 2
      $G^{2}_{2222}$ 2 2 0 0 0,2~4 0
      $G^{2}_{2223}$ 2 2 2 0 2,3 0
      $G^{2}_{2233}$ 2 2 0 0 0 0
      $G^{2}_{2323}$ 2 2 2 0 0 0
      $G^{2}_{2333}$ 2 2 0 0 0 0
      $G^{2}_{3333}$ 2 2 2 0 0 0
      $G^{3}_{1313}$ 3 3 5 2 0,2,4 3
      $G^{3}_{1323}$ 3 3 4 0 3 0
      $G^{3}_{2323}$ 3 3 0 0 0 0
      $G^{4}_{2323}$ 4 4 6 6 6 6
      $G^{4}_{2333}$ 4 4 4 0 2,3 0
      $G^{4}_{3333}$ 4 4 4 4 0 0

      表 7  同表6,但针对$^{46}$Ca空间。下标$j_1^{}, \, j_2^{}, \, j_3^{}, \, j_4^{}$简记为1、2、3、4,分别对应$pf$壳中的$p_{1/2}^{}$、$p_{3/2}^{}$、$f_{5/2}^{}$和$f_{7/2}^{}$轨道

      $G^J_{j_1^{}j_2^{};j_3^{}j_4^{}}$ SM NN $G^I_{j_1^{}j_2^{};j_3^{}j_4^{}}$ SM NN $G^I_{j_1^{}j_2^{};j_3^{}j_4^{}}$ SM NN
      $G^{0}_{1111}$ 0~10 0 $G^{2}_{2223}$ 1,2,4,5 0 $G^{3}_{2334}$ 0 0
      $G^{0}_{1122}$ 0~10 0 $G^{2}_{2224}$ 0 0 $G^{3}_{2424}$ 0 0
      $G^{0}_{1133}$ 0,2~6 0 $G^{2}_{2233}$ 0,2~4,6 0 $G^{3}_{2434}$ 0 0
      $G^{0}_{1144}$ 0~4 0 $G^{2}_{2234}$ 0 0 $G^{3}_{3434}$ 0,10 0
      $G^{0}_{2222}$ 0~10 0 $G^{2}_{2244}$ 0,2~4 0 $G^{4}_{1414}$ 0,2,4~6,8 8
      $G^{0}_{2233}$ 0,2,4,6 0 $G^{2}_{2323}$ 0 0 $G^{4}_{1423}$ 2 0
      $G^{0}_{2244}$ 0 0 $G^{2}_{2324}$ 0 0 $G^{4}_{1424}$ 6 0
      $G^{0}_{3333}$ 0~6 0 $G^{2}_{2333}$ 0,2~4,6 0 $G^{4}_{1433}$ 0 0
      $G^{0}_{3344}$ 0 0 $G^{2}_{2334}$ 0,10 0 $G^{4}_{1434}$ 1 0
      $G^{0}_{4444}$ 0~4 0 $G^{2}_{2344}$ 0 0 $G^{4}_{1444}$ 0~4 0
      $G^{1}_{1212}$ 0 0 $G^{2}_{2424}$ 0,9 0 $G^{4}_{2323}$ 6 0
      $G^{1}_{1223}$ 0 0 $G^{2}_{2433}$ 0 0 $G^{4}_{2324}$ 2 0
      $G^{1}_{1234}$ 0,9 0 $G^{2}_{2434}$ 0 0 $G^{4}_{2333}$ 1~6 0
      $G^{1}_{2323}$ 0 0 $G^{2}_{2444}$ 0 0 $G^{4}_{2334}$ 0,9 0
      $G^{1}_{2334}$ 0 0 $G^{2}_{3333}$ 0 0 $G^{4}_{2344}$ 4 0
      $G^{1}_{3434}$ 1,8 0 $G^{2}_{3334}$ 0 0 $G^{4}_{2424}$ 0 0
      $G^{2}_{1212}$ 0 0 $G^{2}_{3344}$ 0 0 $G^{4}_{2433}$ 0 0
      $G^{2}_{1213}$ 2 0 $G^{2}_{3434}$ 4 0 $G^{4}_{2434}$ 3 0
      $G^{2}_{1222}$ 0~10 0 $G^{2}_{3444}$ 0 0 $G^{4}_{2444}$ 0,2~4 0
      $G^{2}_{1223}$ 0,4,6 0 $G^{2}_{4444}$ 2 2 $G^{4}_{3333}$ 0 0
      $G^{2}_{1224}$ 0 0 $G^{3}_{1313}$ 0,2,4 3 $G^{4}_{3334}$ 0 0
      $G^{2}_{1233}$ 0 0 $G^{3}_{1314}$ 3 0 $G^{4}_{3344}$ 0,10 0
      $G^{2}_{1234}$ 0,9 0 $G^{3}_{1323}$ 3 0 $G^{4}_{3434}$ 0 0
      $G^{2}_{1244}$ 0 0 $G^{3}_{1324}$ 4 0 $G^{4}_{3444}$ 0 0
      $G^{2}_{1313}$ 0,2,4 2 $G^{3}_{1334}$ 4 0 $G^{4}_{4444}$ 4 4
      $G^{2}_{1322}$ 0,2,4,6 0 $G^{3}_{1414}$ 0,2,4~8 2 $G^{5}_{2424}$ 10 9
      $G^{2}_{1323}$ 0 0 $G^{3}_{1423}$ 0 0 $G^{5}_{2434}$ 0 0
      $G^{2}_{1324}$ 0 0 $G^{3}_{1424}$ 0 0 $G^{5}_{3434}$ 1 0
      $G^{2}_{1333}$ 0~8 0 $G^{3}_{1434}$ 0 0 $G^{6}_{3434}$ 12 10
      $G^{2}_{1334}$ 2 0 $G^{3}_{2323}$ 3 0 $G^{6}_{3444}$ 0 0
      $G^{2}_{1344}$ 2 0 $G^{3}_{2324}$ 0 2 $G^{6}_{4444}$ 6 6
      $G^{2}_{2222}$ 0~6 0

      对于$ ^{20} {\rm{Ne}}$、$ ^{22} {\rm{Ne}}$和$ ^{46} {\rm{Ca}}$这三个模型空间,需要强调神经网络模型和壳模型在基态自旋预测上的不同之处。神经网络模型可以基于经验规则给出具体的基态自旋,而壳模型在使用经验规则时,可能会出现简并态,即存在多个最低能量特征值的自旋态。在这种情况下,基态自旋可能有多种可能性,即简并态。例如,对于$ ^{20} {\rm{Ne}}$,如果第二个两体矩阵元$ G^{0}_{1122} $为−1,而其他矩阵元均为0,根据壳模型的经验规则,可能会预测出基态自旋为0,2,4的三重简并态(见表6第三行第四列数据),最低能量特征值0,2,4的自旋次数分别为$ \frac{1}{3} $。然而,根据神经网络模型的经验规则,却预测出基态自旋为0。壳模型根据经验规则给出模糊的三重简并态,而神经网络模型却给出具体特定的基态自旋,这突显了神经网络模型在基于经验规则预测基态自旋方面的优势。

      根据表4,在$ (f_{7/2}^{})^4 $和$ (h_{11/2}^{})^4 $模型空间中,NN模型与壳模型产生完全一致的$ G-I $相关性。这解释了图10的$ (f_{7/2}^{})^4 $和$ (h_{11/2}^{})^4 $模型空间中壳模型和神经网络模型之间的一致性。在表6中,$ ^{18}{\mathrm{Ne}} $模型空间也可以观察到这种完美的一致性,与图10 的$ ^{18}{\mathrm{Ne}} $模型空间的$ P(I) $相协调。但随着维数的增加,表6中的$ ^{20\; 22}{\mathrm{Ne}} $和表7中的$ ^{46}{\mathrm{Ca}} $的一致性逐渐降低。在$ ^{20}{\mathrm{Ne}} $空间中,壳模型和神经网络模型之间的30个基态自旋中有12个(40%)不一致;在$ ^{22}{\mathrm{Ne}} $中,30个基态自旋中有6个不一致;在$ ^{46} {\mathrm{Ca}} $中,94个基态自旋中有24个不一致(~26%)。这种不一致的比率也与不同模型空间的预测准确率有关,如表5

      我们也在图10描绘了基于两种模型的经验规则所给出的基态自旋分布$ P_{\rm{I}}^{} $。可以看到,两种模型的经验规则在所有空间中给出了非常一致的$ P_{\rm{I}}^{} $分布。但是通过与数值实验进行对比,针对$ (f_{7/2}^{})^4 $空间,两种模型的经验规则高估了$ (f_{7/2}^{})^4 $空间中的$ P_0^{} $,低估了其中的$ P_2^{} $;对于$ (h_{11/2}^{})^4 $空间,两种模型的经验规则高估了自旋$ P_4 ^{}$、$ P_8^{} $,低估了自旋$ P_0^{} $、$ P_2^{} $;此外$ ^{18} {\rm{Ne}}$的$ P_2^{} $也被一致高估。但是无论基于哪种模型,经验规则与数值实验所得$ P_{\rm{I}}^{} $的大致趋势并没有大的偏离,基态零自旋占优现象也得到合理复现,说明了经验规则的普适性。

    • 本论文旨在利用神经网络模型研究随机两体相互作用系综下原子核的基态自旋分布。尝试使用Softmax分类神经网络模型,在TBRE中,模拟壳模型所隐含的相互作用矩阵元与基态自旋之前的关联,预测基态概率分布,从模型预测准确率与经验规则两个方面验证了该模型的可靠性。

      需要注意的是,此前核物理中神经网络模型的应用更多的是借助其强大的拟合能力,而分析TBRE中的基态自旋分布是神经网络分类能力的具体应用,在当前核物理研究中是不多见的。另一方面,TBRE可为神经网络训练提供巨量数据集,使神经网络模型天然地适用于TBRE中的原子核鲁棒性分析。

      研究发现,量子多体系统问题仍然相当复杂,使用本文的单隐藏层神经网络模型来精确地描述它仍比较困难。未来期望有更专门的神经网络结构能够用于精确分析原子核基态自旋的确定性因素。但是神经网络模型能够合理地描述原子核基态自旋相关的一些整体统计性质,如基态自旋分布、混淆矩阵的对角主导特征。这可能是因为神经网络模型具有学习和重现原子核基态自旋的简单经验规则的能力,从而能够从统计上弥补对个体样本理解的偏差。因此,神经网络模型在描述量子多体系统的统计性质与鲁棒性质方面可能具有一定的潜力,进一步研究和发展更专门的神经网络结构来模拟复杂的量子多体系统值得关注。

参考文献 (51)

目录

    /

    返回文章
    返回