Flowers for Tuesday

日本語のメモ（１7）

2026-06-04T15:10:00+08:00

~そう

表推测

“看起来好像……” (视觉/直觉推测)，根据常理判断应该如此。

动词连用形 + そう形容词去い / 去な＋そう

加了之后词性相当于变成な形容词。

雨が降りそうです。

（根据当前天色判断）看起来好像要下雨了。

このケーキは美味しそうです。

（看着精致的蛋糕）这蛋糕看起来很好吃。

表听说 / 据说

听别人说、或在新闻上看到，把这个消息原封不动转述出来。

动词简体形（原形/た形等）＋そう

形容词也是简体形（保留い和な的原本简体）＋そう

雨が降るそうです。

（看天气预报或听人说）听说要下雨。

のケーキは美味しいそうです。

（听朋友极力推荐）听说这蛋糕很好吃。

名词化

动词名词化

原形＋こと

倾向于把动作变成一个抽象的概念、长期的爱好、或者固定的某种能力/规矩。

私の趣味は写真を撮ることです。

原形＋の

倾向于描述眼前的、具体的、正在发生的动作，或者属于你个人的切身体会。有感官动词一定用の，因为是亲身经历。

彼が走るのを見ました。

固定强调句型（～のは～です）

私が生まれたのは北京です。

以及有很多动词自己有对应词义的名词。比如踊り、話。

形容词名词化

「～さ」：表示客观的程度、数值

い形容词：去「い」加「さ」，如優しさ

な形容词：去「な」加「さ」，如大切さ

「～み」：比较少见，不强调数字大小，而是强调人类主观体验到的某种情感、深层状态或具体带有该特征的场所。

通常是い形容词去「い」加「み」，如楽しみ。

动词意志形变形规则

一类：「う段」变「お段」，再加「う」，如買う $\rightarrow$ 買おう

二类：去「る」，加「よう」，如食べよう

三类：する $\rightarrow$ しよう，来る（くる） $\rightarrow$ 来よう (こよう)

て/た形变形规则

二类：去「る」，加「て」或「た」

三类：

する - して - した

来る（くる） - 来て（きて） - 来た（きた）

一类：

う、つ、るって（促音变）；む、ぶ、ぬんで（拨音变）；くいて；ぐいで；すして

全日本唯一的一个特例，行く - 行って / 行った

表转折，“虽然…但是…”

～が / ～けれど（も）

最基础的两个表达

「～が」更加礼貌、客气，可接在敬体和简体后面。

「～けれど（も）」更偏口语、随性，一般接在简体后面。

日本語は難しいですが、面白いです。

お金は入れたけど、切符が出ない。

～のに

带有情绪色彩，如意外、震惊、遗憾、抱怨、甚至生气。

接简体形，名词和な形容词要加「な」

約束したのに、彼は来ませんでした。（埋怨、生气）

もう春なのに、まだ寒いです。（意外）

因为の本身带有名词属性，所以前面加な也是很合理的。

～ても

同样是转折，但是语气更重，一般翻译为即使…也…

雨が降っても、行きます。

定语从句

从句位置永远在修饰词的前方。

从句不能使用「ます/です」等敬体，必须全部退化为简体形。

在日语中，“定语从句”（用来修饰名词的句子）的语法规则，可以说是所有习惯了中文或英语思维的学习者最容易感到惊艳、也最容易踩雷的地方。

英语里有复杂的 who, which, that 等关系代词，中文里有雷打不动的“……的……”。而日语的定语从句，核心逻辑极其简单粗暴，被称为“无缝直接贴上”。

我们可以把日语定语从句的铁律和核心规则梳理为以下四大要点：

铁律一：位置永远在被修饰名词的【正前方】

无论这个从句有多长、多复杂，它必须像一个巨大的形容词一样，严丝合缝地直接拍在它要修饰的名词前面。句子的最末尾，永远是那个被修饰的“核心名词”。

【我昨天买】的书。 $\rightarrow$ 【昨日私が買った】本。

铁律二：从句的谓语必须【全员格式化为简体】

这是最核心的语法要求。一个句子一旦决定委身去当“定语从句”（修饰别人），它就失去了独立结句的资格，因此绝对不能使用「ます/です」等敬体，必须全部退化为【简体形】。

词性分类	从句中的接续规则（简体）	实际组合	中文意思
动词现在时	动词原形	明日来る人	明天要来的人
动词过去时	动词た形	昨日来た人	昨天来过的人
动词否定时（本质い形容词）	动词ない形	お酒を飲まない人	不喝酒的人
い形容词	保留句尾的い	背が高い人	个子高的人
な形容词	加上な	親切な人	亲切的人
名词	加上の	会社の人	公司的人（同事）

从句中的主语，助词「が」经常可以变成「の」

私が好きな料理 $\rightarrow$ 也可以写成：私の好きな料理。

杂记

1. A も B も

表示“既……又……”、“……和……都”。

伊豆は山も海もあって、とてもいい所です。

2. た形 + ことがあります

固定句型，表示过去的经历，“曾有过做某事的经验”。

王玲さんは温泉に入ったことがありますか。

3. には

课文句子

伊豆には温泉がたくさんあります。

和では类似的也可以翻译成“…的话”，但这里由于是あります，所以用的是には。

换句话说，では和には并不是什么固定搭配，只是为了强调句子中的一个特定成分专门加上一个は而已。

4. 简体形 + かもしれない/かもしれません

“也许……”、“可能……”、“说不定……”。

明日は雨が降るかもしれません。

明日の町は静かかもしれません。

虽然可以看作是固定搭配，但是也可以试着分析一下。

か：疑问助词。
も：表示“也”。
知れません：动词“知道（知る）”的可能否定形，意思是“无法得知”。

5. 动词意志形 + と思います/と思っています

表达计划或打算

来年、日本に留学しようと思っています。

6. 结句

动词和「い形容词」自带结句能力

明日、雨が降る。

この映画は面白い。

名词和「な形容词」没有独立结句能力，需要加だ或です。

明日は休みだ。

彼は親切です。

例如「と思います」要求前面必须是一个完整的简体句

明日は雨が降ると思います。

彼は親切だと思います。

7. ～ができる

“会……”、“能……”、“可以……”

前面接名词性

日本語ができる。

日本語で手紙を書くことができる。

这类句型可以用动词的可能形表达，此时原句的宾语助词「を」通常要退位让给「が」

日本語が話せます。

8. ～の他に（ほかに）

前接名词性

肯定句中翻译为“除了 A 之外，还有……”，相当于besides

日本語の他に、英語も話せます。

否定句中翻译为 “除了 A 之外，没有/不能……”，相当于except

あなたの他に、誰も知りません。

9. 名词 + をください

表示向对方索要某物

またメールをくださいね。

「ください」本意是「下さる」（赏赐、赐予）的命令形，因此不难理解「てください」表示请求对方做某事。

10. 疑問詞 + も + ません

表示全盘否定

何もできない

誰もいない

11. 促音化

当两个汉字拼在一起，前一个字的词尾是「つ」或「く」，后一个字开头是「か、さ、た、は」行时，前一个音就会崩塌成促音。

学（がく）＋校（こう） $\rightarrow$ 学校（がっこう - gakkou） ※不念 gaku-kou
出（しゅつ）＋発（はつ） $\rightarrow$ 出発（しゅっぱつ - shuppatsu） ※不念 shutsu-hatsu

与此相应的还有拨音化，把某些发音（尤其是带有ま行、な行、ら行的音），在口语中滑向了鼻音「ん」。

12. ~てもだいじょうぶです / だよ

固定句型，即使做……也没关系 / 不要紧

接动词て形

13. ~てもいいですか

固定句型，用于征求对方的许可或提出请求，意为“我可以做……吗？”。

14. こんなに

类似词汇

日本語のメモ（１６）

2026-06-04T10:50:00+08:00

敬体和简体

敬体：名词/形容词后面接「です」，动词后面接「ます」。
简体：动词原形（如：食べる）、名词/形容词接「だ」或直接断句。

敬语、简体有各自的基本变形，即现在肯定、现在否定、过去肯定、过去否定。

1. 动词（以「食べる」吃为例）

时态/语态	敬体（ます体）	简体（普通体）
现在肯定（吃/将要吃）	食べます	食べる (原形/辞书形)
现在否定（不吃）	食べません	食べない (ない形)
过去肯定（吃了）	食べました	食べた (た形)
过去否定（没吃）	食べませんでした	食べなかった

2. 名词（以「学生」为例）

名词的简体在肯定时会加上だ或 だった。

时态/语态	敬体（です体）	简体（普通体）
现在肯定（是学生）	学生です	学生だ
现在否定（不是学生）	学生では/じゃありません (注1)	学生ではない / じゃない
过去肯定（以前是学生）	学生でした	学生だった
过去否定（以前不是学生）	学生じゃありませんでした	学生ではなかった

(注1) 「では」比「じゃ」更正式，书面语常用「では」，口语常用「じゃ」。

3. い形容词

普通的变形加です即可

时态/语态	敬体（です体）	简体（普通体）
现在肯定（热）	暑いです	暑い
现在否定（不热）	暑くないです	暑くない
过去肯定（以前热）	暑かったです	暑かった
过去否定（以前不热）	暑くなかったです	暑くなかった

4. な形容词

な形容词和名词变形规则一样。

时态/语态	敬体（です体）	简体（普通体）
现在肯定（漂亮）	綺麗です	綺麗だ
现在否定（不漂亮）	綺麗じゃありません	綺麗ではない / じゃない
过去肯定（以前漂亮）	綺麗でした	綺麗だった
过去否定（以前不漂亮）	綺麗じゃありませんでした	綺麗ではなかった / じゃないかった

〜（こと）にする

表示决定、选择

私はコーヒーにします。（我选咖啡。/ 我要一杯咖啡。）

する变成している，表示有…的习惯

毎日、寝る前に牛乳を飲むことにしている。

~なければならない/なければいけない

双重否定，表示必须、应该做某事，接在动词ない形后

次の試験は頑張らなければいけない。

相同含义的表述还有

なくてはならない
なくてはいけない

~てはいけない，接在动词て形后，表示不准，不要。

食べてはいけない

表示原因

から：主观性强，适合接说话人的命令、请求、主观提议或借口。

直接接在简体或敬体（です/ます）后面。

危ないから、触らないでください。

ので：强调客观事实就是这样，所以自然产生了后面的结果。

接在简体后面。（名词和な形容词后面要变成「〜なので」）

電車が遅れたので、遅刻しました。

〜て / 〜で：接没办法由人主观控制的事情

动词/形容词的「て形」；名词加「で」。

大雨で、新幹線が止まりました。

〜ため（に）：表示正式的、重大的因果关系，用于正式场合。

事故のため、通行止めになっています。

で作助词用法总结

注意没有て这个助词

1. 动作发生的场所（在……干某事）

図书馆で勉强します。

で的后面必须接有动作感的词（如：玩、吃、学）。

に的后面通常接静态的存在（如：いる、ある、住む）。

2. 工具、手段、材料（用…… / 依靠……）

箸でラーメンを食べます。（工具）

新幹線で京都へ行きます。（交通工具）

日本語で話してください。（手段/语言）

紙で飛行機を作りました。（材料）

3. 原因、理由（因为…… / 由于……）

表示因为客观事实导致了后面的结果（后句通常接非主观控制的事情）。

風邪で学校を休みました。

4. 数量的总和、期限、界限（一共…… / 限制在……）

用来圈定人数、金钱、时间或空间的“总和”与“天花板”。

全部でいくらですか。（总和）

三人で映画を見に行きます。（人数限定）

一週間でこの本を読みました。（时间期限）

5. 状态、条件（在……的状态下）

表示做某个动作或者发生某个情况时，当时所处的环境或身体状态。

裸足（はだし）で走る。

に作助词用法总结

1. 移动的最终目的地（去/来/回哪儿）

配合「行く（去）」、「来る（来）」、「帰る（回）」等移动动词使用

来月、日本に行きます。（去日本）

夜11時に家に帰りました。（回到家）

备注：此用法在口语中也可以用方向助词「へ（he）」代替。

2. 精准的时间点（在几点/某一天）

毎朝7時に起きま。

模糊的时间（如：明天 ashita、下周 raishu、去年 kyonen）后面绝对不能加「に」。

有时候会遇见用「名词＋に」来表示在某个特定生活环节的节点：

行きに（いきに）：在去的路上
帰りに（かえりに）：在回来的路上
買い物に（かいものに）：在买东西的时候

3. 静态存在的场所（在哪儿/住哪儿）

配合「いる（在/人）」、「ある（在/物）」、「住む（住）」等静态动词使用

私は東京に住んでいます。

4. 动作的承受者或对象（对谁/给谁/向谁）

当你的动作产生一个具体的目标对象（比如打电话、送礼物、请教）时，用「に」来指向那个人。

经常和授受动词一起用。

母に電話をかけます。

友達にプレゼントをあげました。

先生に日本語を習います。

5. 动作的落脚点/附着点（坐下、骑车、穿戴、放好）

当一个动作做完后，你或某个物体“粘”在了对方表面、或者进入了其内部。

椅子に座ってください。

请坐在椅子上。（屁股落脚在椅子上）

電車に乗ります。

上电车 / 坐电车。（人进入了电车这个载体）

ノートに名前を書きます。

在笔记本上写名字。（名字落脚在纸张表面）

6. 移动的目的

名词/动词连用形＋に

スーパーへ買い物に行きます。

去超市买东西（为了购物）。

日本へアニメを買いに来ました。（动词去ます接续）

来日本（为了）买动漫。

7. 固定搭配

にする、にある等等。

杂记

1. たい表示自己想要做某事

只能用于“第一人称”。因为没办法100%确定别人心里“想不想”。所以不能直接用「～たい」来描述第三人称。

动词连用形（ます形去掉ます）+たい

食べたい

时态变化完全等同い形容词

食べたくない

食べたかった

食べたくなかった

不能用「～たいですか」去问是否想要，非常没礼貌。

2. 「そして」「そこで」

「そして」是顺理成章的自然发展

雨が降ってきた。そして、風も強くなった。

「そこで」则是为了解决某个问题而采取的主动行动。

雨が降ってきた。そこで、傘を買った。

3. 助词と可表示一…就…

它表示前项发生后，后项必然、自然而然地发生。常用于规律、常识。不能接主观的愿望、请求、命令或意志。

春になると、桜が咲きます。

4. あまり + 否定

固定搭配，表示“不太……”、“不怎么……”

私はあまりお酒を飲みません。

5. 易混淆的一类动词

最常见的6个：帰る、知る、入る、走る、切る、要る。

6. けど/が作句尾可表示虽然…但是…

けど偏随意自然

この料理はおいしいけど、ちょっと高いです。

が更正式、客气，通常接在敬体（です/ます）后面。

失礼ですが、お名前は何ですか。

7. 「止（と）まる」「止（や）める」「止（と）める」

「止（と）まる」，自动词，表示自然而然地停下来。

雨が止（と）まる

「止（や）める」，他动词，表示凭借人的主观意志，去主动停止原本在做的一件事

雨だから、行くのを止（や）める

「止（と）める」，他动词，表示由人使出外力，让一个动的东西固定或停下来

車を止める。（我踩刹车）把车停下。

8. 大変だったね

得知对方收到伤害或负面影响，用于表示同情、安慰。

9. 気を付けて

気をつけてください的简体形式，表示多加小心。

～に気をつける：固定搭配，表示“注意到……”、“小心/留神……”。

10. 动词原形/た形+ 時（とき）

表示“当……的时候”。

11. ~なくてもいいです

不需要做某事也可以

ない形本质上已经变成了形容词，可以按形容词的形式进行变形。

12. では

很多时候可以不严谨地翻译成“…的话”，表示在一个限定的范围内进行讨论。

论文笔记 FE-Basis Method

2026-06-01T10:50:00+08:00

自己的本研课题已经大致确立在KS-Inversion这个主题上。

本篇文章是2019年nc上关于KS-Inversion的一篇论文 ^[1]的笔记，这应该代表这个领域当前的最前沿进展了。

由于这篇文章的一个核心优化点在基组函数上，在欣赏他们的工作之前，先补充一些自己之前遗漏的知识点。

Why Gaussian Basis Lose

基组是如何工作的

先前在介绍DFT时，我们稍微提了一下在计算机中，我们求解薛定谔的方式。例如KS中单电子的轨道方程为

\[\hat{H} \phi_i = \epsilon_i \phi_i\]

用基组展开分子轨道：$\phi_i = \sum_\nu C_{\nu i} \chi_\nu$，代入上式得到

\[\hat{H} \sum_\nu C_{\nu i} \chi_\nu = \epsilon_i \sum_\nu C_{\nu i} \chi_\nu\]

为了把算符方程变成计算机认识的矩阵方程，我们在等式左边同时左乘另一个基函数 $\chi_\mu$，并在全空间做积分

\[\sum_\nu C_{\nu i} \int \chi_\mu \hat{H} \chi_\nu d\mathbf{r} = \epsilon_i \sum_\nu C_{\nu i} \int \chi_\mu \chi_\nu d\mathbf{r}\]

定义左边的积分为哈密顿矩阵元 $H_{\mu\nu}$，右边的积分为基组的重叠矩阵元 $S_{\mu\nu}$：$\sum_\nu H_{\mu\nu} C_{\nu i} = \epsilon_i \sum_\nu S_{\mu\nu} C_{\nu i}$

因此薛定谔方程在基组下可以写成矩阵形式

\[HC = ESC\]

轨道系数矩阵 $C$ 的第 $i$ 列向量 $\mathbf{c}i = [C{1i}, C_{2i}, \dots, C_{Mi}]^T$ 完整决定了第 $i$ 个分子轨道的空间形态与数学轮廓。

本征能量矩阵是一个对角矩阵，对角线上的第 $i$ 个元素 $E_{ii}$（通常记为 $\varepsilon_i$）代表了第 $i$ 个分子轨道的本征能量。

\[E = \begin{pmatrix} \varepsilon_1 & 0 & \dots & 0 \\ 0 & \varepsilon_2 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \varepsilon_M \end{pmatrix}\]

可能你会问能量不tm是未知的吗，好问题，问就是自洽求解（x）。这个留给读者思考，等我想清楚了再补上。

在有限基组下，求出来的系数矩阵$C$本质上是一个近似解，或者说真实解在有限空间的投影。这也就是所谓基组截断误差。

高斯基组（GTO）

高斯基组函数在直角坐标下的形式为

\[\chi_{lmn}(\mathbf{r} - \mathbf{R}_A) = N \cdot (x - x_A)^l (y - y_A)^m (z - z_A)^n \cdot e^{-\alpha |\mathbf{r} - \mathbf{R}_A|^2}\]

其中$N$是归一化常数，如果用于拟合波函数，那么前置多项式 $x^l y^m z^n$ 的内涵就是角动量与轨道形状，衰减项 $e^{-\alpha r^2}$则体现波函数的径向衰减。基组数学原点会选择与原子核的物理位置完全重合。

这个基组可以一眼看出不正交，之所以被广泛使用完全是因为它算得快，具有独特的高斯乘积定理，在计算多中心两电子库仑排斥积分时快得惊人，能把四中心积分直接变成双中心积分。

\[\langle AB | \frac{1}{r_{12}} | CD \rangle = \int_{\Omega_1} \int_{\Omega_2} \frac{\chi_A^*(\mathbf{r}_1) \chi_B(\mathbf{r}_1) \cdot \chi_C^*(\mathbf{r}_2) \chi_D(\mathbf{r}_2)}{|\mathbf{r}_1 - \mathbf{r}_2|} d\mathbf{r}_1 d\mathbf{r}_2\] \[\langle AB | \frac{1}{r_{12}} | CD \rangle = K_{AB} K_{CD} \int_{\Omega_1} \int_{\Omega_2} \frac{e^{-\gamma_1 (\mathbf{r}_1 - \mathbf{R}_P)^2} \cdot e^{-\gamma_2 (\mathbf{r}_2 - \mathbf{R}_Q)^2}}{|\mathbf{r}_1 - \mathbf{r}_2|} d\mathbf{r}_1 d\mathbf{r}_2\]

但缺陷也是很明显的

原子核临界区（$r \to 0$），高斯函数 $e^{-\alpha r^2}$ 在 $r=0$ 处的一阶导数严格等于 0，在核中心平滑且圆秃的。但由于原子核对电子有极强的静电吸引力，电子波函数或密度在原子核正中心（$r=0$）会形成一个尖锐的尖峰（Cusp），该处的数学一阶导数不为零。用一组一阶导数为0的圆滑函数，去强行拼凑一个导数不为零的尖锐锥形，在数学上永远会留下一层微小的残差。
远离核的无穷远处（$r \to \infty$），不难知电子出现的概率（密度）应该呈指数级缓慢衰减（$\sim e^{-r}$），而高斯函数由于指数的平方项，其衰减速度比真实的指数衰减快得多，导致远区拟合很差。

这些缺陷似乎可以通过增加基组数目来一定程度上缓解。理论上没错，但除了算力上的问题，单纯靠增大基组数量，在两个关键物理边界上收效甚微。

而且，在极其有限的分子空间内塞入越来越多的原始高斯函数时意味着不同的高斯基函数之间会发生严重的重叠。

在数学上，这意味着它们的重叠矩阵 $S$（$S_{\mu\nu} = \langle \chi_\mu

\chi_\nu \rangle$）中，很多行向量或列向量会变得几乎一模一样，于是重叠矩阵 $S$ 的本征值中会出现大量极度接近于 0 的数值。这直接导致哈密顿矩阵演变为极端病态矩阵，在求解广义本征值方程 $HC=ESC$ 算 $S^{-1/2}$ 时，计算机的双精度浮点数（16位有效数字）会产生巨大的舍入误差。这会导致自洽场（SCF）迭代剧烈摆动、无法收敛甚至直接数值发散。

Why FE Basis Win

现在来正式看这篇论文，会发现KS-Inversion虽然针对的都是一个问题，但思路真的是五花八门。这一篇在数学上更是难啃。

Adjoint Method

为了防止被论文里的数学吓到，先写个背景介绍作为过渡。所谓伴随态法（Adjoint Method），针对的是一类受到偏微分方程或大型代数方程约束的优化问题。具体来说，我们的目标是最小化（或最大化）一个目标泛函 $\mathcal{J}$

\[\min_{\mathbf{m}} \mathcal{J}(\mathbf{u}(\mathbf{m}), \mathbf{m}) \quad \text{subject to} \quad \mathbf{R}(\mathbf{u}, \mathbf{m}) = \mathbf{0}\]

其中

一堆控制变量 $\mathbf{m}$：这是我们可以主动调节的参数
一堆状态变量 $\mathbf{u}$：这是系统被动响应产生的状态
一堆约束方程 $\mathbf{R}(\mathbf{u}, \mathbf{m}) = \mathbf{0}$：状态变量和控制变量之间必须满足的物理定律。只要 $\mathbf{m}$ 确定了，通过求解这个方程就能唯一确定 $\mathbf{u}$，即 $\mathbf{u} = \mathbf{u}(\mathbf{m})$。

想要优化当然就要进行梯度下降之类的操作，也就是计算 $\mathcal{J}$ 关于控制变量 $\mathbf{m}$ 的梯度 $\frac{d \mathcal{J}}{d \mathbf{m}}$。

\[\frac{d \mathcal{J}}{d \mathbf{m}} = \frac{\partial \mathcal{J}}{\partial \mathbf{m}} + \frac{\partial \mathcal{J}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{d \mathbf{m}}\]

但会发现 $\frac{d \mathbf{u}}{d \mathbf{m}}$这玩意一般是没那么好求的，我们需要对约束方程 $\mathbf{R}(\mathbf{u}, \mathbf{m}) = \mathbf{0}$ 求全导数

\[\frac{\partial \mathbf{R}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{d \mathbf{m}} + \frac{\partial \mathbf{R}}{\partial \mathbf{m}} = \mathbf{0} \implies \frac{d \mathbf{u}}{d \mathbf{m}} = - \left( \frac{\partial \mathbf{R}}{\partial \mathbf{u}} \right)^{-1} \frac{\partial \mathbf{R}}{\partial \mathbf{m}}\]

注意这玩意是个矩阵，每个元素都要到约束方程里求一遍梯度，这谁受得了。

这时候就可以用伴随态法取个巧，由于 $\mathbf{R}(\mathbf{u}, \mathbf{m}) = \mathbf{0}$ 严格成立，我们可以在目标泛函上加上这一项，其值保持不变。引入乘子向量（也就是伴随态变量） $\boldsymbol{\lambda}$

\[\mathcal{L}(\mathbf{u}, \mathbf{m}, \boldsymbol{\lambda}) = \mathcal{J}(\mathbf{u}, \mathbf{m}) - \boldsymbol{\lambda}^T \mathbf{R}(\mathbf{u}, \mathbf{m})\]

虽然看着和拉格朗日乘子很像，但注意伴随向量 $\boldsymbol{\lambda}$ 是状态变量 $\mathbf{u}$ 和控制变量 $\mathbf{m}$ 的函数，不是一个常数向量。引入的目的不是简单的凑拉格朗日乘子法，且看我操作。

因为 $\mathcal{L} = \mathcal{J}$，所以 $\frac{d \mathcal{J}}{d \mathbf{m}} = \frac{d \mathcal{L}}{d \mathbf{m}}$。我们展开其全导数公式（这里的 $d\boldsymbol{\lambda}$ 项因为 $\mathbf{R}=0$ 而被消掉）

\[\frac{d \mathcal{L}}{d \mathbf{m}} = \frac{\partial \mathcal{J}}{\partial \mathbf{m}} + \frac{\partial \mathcal{J}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{d \mathbf{m}} - \boldsymbol{\lambda}^T \left( \frac{\partial \mathbf{R}}{\partial \mathbf{m}} + \frac{\partial \mathbf{R}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{d \mathbf{m}} \right)\] \[\frac{d \mathcal{L}}{d \mathbf{m}} = \left( \frac{\partial \mathcal{J}}{\partial \mathbf{m}} - \boldsymbol{\lambda}^T \frac{\partial \mathbf{R}}{\partial \mathbf{m}} \right) + {\left( \frac{\partial \mathcal{J}}{\partial \mathbf{u}} - \boldsymbol{\lambda}^T \frac{\partial \mathbf{R}}{\partial \mathbf{u}} \right)} \frac{d \mathbf{u}}{d \mathbf{m}}\]

为了彻底消灭掉后面那一项无法计算的 $\frac{d \mathbf{u}}{d \mathbf{m}}$，我们强制让它前面的括号项等于 0，得到

\[\frac{\partial \mathcal{J}}{\partial \mathbf{u}} - \boldsymbol{\lambda}^T \frac{\partial \mathbf{R}}{\partial \mathbf{u}} = \mathbf{0}\]

这也就是神奇的伴随方程（Adjoint Equation）：$\left( \frac{\partial \mathbf{R}}{\partial \mathbf{u}} \right)^T \boldsymbol{\lambda} = \left( \frac{\partial \mathcal{J}}{\partial \mathbf{u}} \right)^T$

得到了伴随态解 $\boldsymbol{\lambda}(\mathbf{u},\mathbf{m})$，原本全导数公式中耦合项就严格归零。全空间的总梯度公式化简为极其精简的形式

\[\frac{d \mathcal{J}}{d \mathbf{m}} = \frac{\partial \mathcal{J}}{\partial \mathbf{m}} - \boldsymbol{\lambda}^T \frac{\partial \mathbf{R}}{\partial \mathbf{m}}\]

由此梯度下降的计算效率得到飞跃。可喜可贺。

正片开始

即使你看明白伴随态法的基本想法，你会发现论文里的公式还是很难懂，，

还是老一套，我们把KS-Inversion的问题，转换为泛函优化问题。论文中采用的泛函是一个带有自定义空间权重的主拟合项，和一个带自定义超参数的正则项（防止过拟合，确保势能平滑）

\[\min_{v_{\text{xc}}} \mathcal{J}[v_{\text{xc}}, \{\psi_i\}] = \mathcal{F}[\{\psi_i\}] + \lambda \mathcal{R}[v_{\text{xc}}]\] \[\mathcal{F}[\{\psi_i\}] = \frac{1}{2} \int_{\Omega} w(\mathbf{r}) \left( \rho(\mathbf{r}) - \rho_{\text{data}}(\mathbf{r}) \right)^2 d\mathbf{r}\] \[\mathcal{R}[v_{\text{xc}}] = \frac{1}{2} \int_{\Omega} |\nabla v_{\text{xc}}(\mathbf{r})|^2 d\mathbf{r}\]

对应到前面的理论，这里的交换关联势就是控制变量，而KS轨道波函数自然就是状态变量。

带空间权重 $w(\mathbf{r})$ 是为了平衡不同位置的密度误差的权重，我们知道由于 $\rho_{\text{data}}(\mathbf{r})$ 不可能是真实密度，会由于高斯基底的问题在核位置极其不可信，这部分的权重就会相应地调小，算是一个人工修正。

注意到我们有约束函数

\[\hat{H}[v_{\text{xc}}] \psi_i(\mathbf{r}) = \varepsilon_i \psi_i(\mathbf{r}), \quad i = 1, 2, \dots, N_{\text{occ}}\]

其中，单电子哈密顿算符为

\[\hat{H}[v_{\text{xc}}] = -\frac{1}{2}\nabla^2 + v_{\text{ext}}(\mathbf{r}) + v_{\text{H}}(\mathbf{r}) + v_{\text{xc}}(\mathbf{r})\]

同时，分子轨道必须满足正交归一化约束

\[\int_{\Omega} \psi_i(\mathbf{r}) \psi_j(\mathbf{r}) d\mathbf{r} = \delta_{ij}\]

由于泛函中的状态变量${\psi_i}$是任意的，由此正交归一化约束不能省。

于是为了使用伴随态法进行梯度下降，我们构造广义泛函（吓哭了）

\[\mathcal{L} = \mathcal{J} - \sum_{i} \int_{\Omega} p_i(\mathbf{r}) \left( \hat{H}\psi_i(\mathbf{r}) - \varepsilon_i \psi_i(\mathbf{r}) \right) d\mathbf{r} - \sum_{i,j} \mu_{ij} \left( \int_{\Omega} \psi_i \psi_j d\mathbf{r} - \delta_{ij} \right)\]

依葫芦画瓢写出伴随方程（这里进化成了偏微分方程）

\[\left( \hat{H}[v_{\text{xc}}] - \varepsilon_k \right) p_k(\mathbf{r}) = 4 w(\mathbf{r}) \left( \rho(\mathbf{r}) - \rho_{\text{data}}(\mathbf{r}) \right) \psi_k(\mathbf{r}) - 2 \sum_{j=1}^{N_{\text{occ}}} \mu_{kj} \psi_j(\mathbf{r})\] \[\mu_{kj} = 2 \int_{\Omega} w(\mathbf{r}) \left( \rho(\mathbf{r}) - \rho_{\text{data}}(\mathbf{r}) \right) \psi_k(\mathbf{r}) \psi_j(\mathbf{r}) d\mathbf{r}\]

解出来后代入，可以得到全空间显式的梯度表达

\[\frac{\delta \mathcal{J}}{\delta v_{\text{xc}}(\mathbf{r})} = \frac{\delta \mathcal{L}}{\delta v_{\text{xc}}(\mathbf{r})} = \sum_{k=1}^{N_{\text{occ}}} \psi_k(\mathbf{r}) p_k(\mathbf{r}) - \lambda \nabla^2 v_{\text{xc}}(\mathbf{r})\]

具体的推导细节对我来说还是略显吃力，很多地方还不理解。这里先把方程摆上来再说，关键是体会思路（）

wait，所以基组呢？

差点在数学里陷得太深，忘了这篇文章的主题。这篇文章的另一个亮点，就是交换相关势不再采用高斯基组展开，而是采用有限元基组 $N_A(\mathbf{r})$。

\[v_{\text{xc}}(\mathbf{r}) = \sum_{A=1}^{M} V_A N_A(\mathbf{r})\]

所以关于交换相关势的梯度可以直接变成关于系数的梯度

\[G_A = \frac{\partial \mathcal{J}}{\partial V_A} = \sum_{k=1}^{N_{\text{occ}}} \int_{\Omega} \psi_k(\mathbf{r}) p_k(\mathbf{r}) N_A(\mathbf{r}) d\mathbf{r} + \lambda \sum_{B=1}^{M} K_{AB} V_B\]

其中 $K_{AB} = \int_{\Omega} \nabla N_A(\mathbf{r}) \cdot \nabla N_B(\mathbf{r}) d\mathbf{r}$ 是有限元理论中经典的全局刚度矩阵（Stiffness Matrix）。

什么，你问我有限元基组 $N_A(\mathbf{r})$ 到底是什么东西？我只能说抽象极了，以后有空再补。

要不干脆把标题改了吧，，真不想写了

以上！

[1] Kanungo, B., Zimmerman, P.M. & Gavini, V. Exact exchange-correlation potentials from ground-state electron densities. Nat Commun 10, 4497 (2019).

Action-Angle Variables

2026-05-31T07:40:00+08:00

有时候不知道自己的选择是出于勇敢还是软弱。

Ⅰ. 作用量与角变量

回忆一下HJ方程的求解思路，列出偏微分方程

\[H+\frac{\partial S}{\partial t}=0\]

解出来一个含很多待定系数的特征函数$S$

\[S=S(q_\alpha,C_1,C_2...,C_n,t)\]

正则变换告诉我们，我们可以把这几个待定参数当作新正则变量的正则动量$P_\alpha$。然后对应的正则坐标可求

\[X_\alpha=\frac{\partial S}{\partial P_\alpha}=X_\alpha(q_\alpha,C_1,C_2...,C_n,t)\]

由于正则变换后的$X$、$P$都为常数，故可反解出运动方程

\[q_\alpha=q(X_\alpha,C_1,C_2...,C_n,t)\]

动量当然也是可以求的

\[p_\alpha=\frac{\partial S}{\partial q_\alpha}=p_\alpha(q(X_\alpha,C_1,C_2...,C_n,t),C_1,C_2...,C_n,t)\]

现在我们把目光放在周期运动上，所谓周期运动有两种，一是$q_\alpha$周期性运动的天平动（想象摆动幅度小的单摆），二是$q_\alpha$周期性增加的转动（想象摆动幅度超过顶点的单摆）。

对这两类运动，我们可以定义作用量

\[I_\alpha = \frac{1}{2\pi}\oint p_\alpha\,\mathrm{d}q_\alpha\]

下面我们来证明在一些特殊的周期运动下，这玩意是守恒的。

注意到先前我们在求解HJ方程时有

\[S=S(q_\alpha,C_1,C_2...,C_n,t)\]

那么把作用量改个写法

\[I_\alpha = \frac{1}{2\pi}\oint \frac{\partial S}{\partial q_\alpha}\,\mathrm{d}q_\alpha\]

现在有一个约束很强的假设，我们假设考虑的周期运动的特征函数可以写作

\[S(q_1...q_n,C_1...,C_n,t) = \sum_{\alpha=1}^n S_\alpha(q_\alpha,C_1,C_2...,C_n,t)\]

那么可以有

\[I_\alpha = \frac{1}{2\pi}\oint \frac{\partial S_\alpha}{\partial q_\alpha}\,\mathrm{d}q_\alpha =I_\alpha(C_1,C_2...,C_n,t)\]

这意味着我们完全可以把特征函数中的待定系数全部替换为作用量，写成

\[S=S(q_\alpha,I_1,I_2...,I_n,t)\]

这个形式显然也满足HJ方程

\[H+\frac{\partial S}{\partial t}=0\]

因此$\vec{I}$是合法的正则动量。

一旦完成了生成函数 $S(\vec{q}, \vec{I})$ 的构造，根据正则变换的微分关系，我们可以通过简单的偏导数直接推导出新坐标——角变量 $\theta_i$

\[\theta_\alpha = \frac{\partial S(\vec{q}, \vec{I})}{\partial I_\alpha} = \sum_{j=1}^n \frac{\partial S_j(q_j; \vec{C})}{\partial C_j} \frac{\partial C_j}{\partial I_\alpha}\]

一般来说我们处理的是不含时的哈密顿量，此时的特征函数可分离

\[S=\sum_{\alpha=1}^n W_\alpha(q_\alpha,I_1,I_2...,I_n) - Et\]

变换后的哈密顿函数

\[K=H+\frac{\partial W}{\partial t}=E(I_1,I_2,...,I_n)\]

能量怎么写成作用量的函数呢，好问题，注意到能量其实是先前$S=S(q_\alpha,C_1,C_2…,C_n,t)$中的一个待定系数，因此自然是可以反解出来$E(I_1,I_2,…,I_n)$的。

什么，你非要知道怎么算？好吧，首先

\[I_\alpha = \frac{1}{2\pi}\oint \frac{\partial W_\alpha}{\partial q_\alpha}\,\mathrm{d}q_\alpha =I_\alpha(E,C_2...,C_n)\]

然后有

\[\begin{cases} I_1 = I_1(E, C_2, \dots, C_n) \\ I_2 = I_2(E, C_2, \dots, C_n) \\ \vdots \\ I_n = I_n(E, C_2, \dots, C_n) \end{cases}\]

$E$可反解出来这一点，想必很合理吧。

那么这时候定义出来的角变量变化率为常数

\[\omega_\alpha = \frac{\partial K(\vec{I})}{\partial I_\alpha} = \frac{\partial E}{\partial I_\alpha}\]

因此我们直接对时间 $t$ 进行积分，就能匀速解

\[\theta_\alpha(t) = \omega_\alpha t + \theta_{\alpha 0}\]

这里一通操作不是想证明我们可以用这套正则变量进行运动学方程求解，这只是自找麻烦。我们其实可以发现这个正则坐标，也就是角变量$\omega_\alpha$是有一些内涵的。

我们固定周期内其他广义坐标不变，令其中一个广义坐标$q_i$进行一个周期的变化，则不同角变量的变化量为

\[\Delta_i \theta_j = \oint_{\gamma_i} \mathrm{d}\theta_j = \oint_{\gamma_i} \mathrm{d}\left( \frac{\partial W}{\partial I_j} \right)\]

注意到此时求导顺序可交换

\[\Delta_i \theta_j = \frac{\partial}{\partial I_j} \oint_{\gamma_i} \mathrm{d}W = \frac{\partial}{\partial I_j} \left( \Delta_i W \right)\]

注意到特征函数$W$的微分满足

\[\mathrm{d}W = \sum p_j \,\mathrm{d}q_j\]

因此在该回路下有

\[\Delta_i W = \oint_{\gamma_i} p_i \,\mathrm{d}q_i = 2\pi I_i\]

因此$q_i$转一圈后，对应所有的角变量变化为

\[\Delta_i \theta_j = \frac{\partial}{\partial I_j} (\Delta_i S) = \frac{\partial}{\partial I_j} (2\pi I_i) = 2\pi \delta_{ij}\]

也就是说，当原广义坐标 $q_i$ 完成一个周期的闭合运动时，对应的角变量 $\theta_i$ 恰好精准地增加了 $2\pi$。而先前证明了角变量在对应的广义坐标下是随时间线性增加的，这意味着其变化率

\[\omega_\alpha = \frac{\partial E}{\partial I_\alpha}\]

正是这个广义坐标对应的周期运动的角频率。但与之对应的广义坐标的周期运动可能是奇奇怪怪的形状。直观一点地说，作用量-角变量这组正则变量其实就是在把可能千奇百怪的周期运动，转化为相似的优雅形式。

当然，这要求不同广义坐标的周期运动是解耦的，这在先前特征函数的假设中可见一斑。

Ⅱ. 浸渐不变量

浸渐是个神奇的翻译，这里的直接内涵是哈密顿量中包含一个随时间极其缓慢变化的参数 $\lambda(t)$（例如单摆的绳长被极其缓慢地拉短）。所谓缓慢，即一个周期内的变化量为小量

\[T\left<\frac{\mathrm{d}\lambda}{\mathrm{d}t}\right> \ll 0\]

先让我们写一下这个体系的一些基本方程

\[W(q, I, \lambda) = \int p(q, I, \lambda) \,\mathrm{d}q\] \[p = \frac{\partial W(q, I, \lambda)}{\partial q}, \quad \theta = \frac{\partial W(q, I, \lambda)}{\partial I}\]

由于$W$含时，这时新哈密顿量 $K$ 必须补上对时间的偏导数项

\[K(I, \theta, t) = H(q, p, \lambda) + \frac{\partial W(q, I, \lambda)}{\partial t}\] \[\frac{\partial W}{\partial t} = \frac{\partial W}{\partial \lambda} \frac{\mathrm{d}\lambda}{\mathrm{d}t} = \dot{\lambda} \frac{\partial W}{\partial \lambda}\] \[K(I, \theta, t) = E(I, \lambda) + \dot{\lambda} \frac{\partial W(q(I,\theta,\lambda), I, \lambda)}{\partial \lambda}\]

这时来考虑一下作用量的变化率

\[\dot{I} = -\frac{\partial K}{\partial \theta} = -\dot{\lambda} \frac{\partial}{\partial \theta} \left( \frac{\partial W}{\partial \lambda} \right)\]

不难注意到作用量的变化率同样是小量，但我们的目标不止于此，因为小量不意味着长时间累积量也是小量。现在计算对应坐标一个周期 $T$（从 $\theta = 0$ 到 $\theta = 2\pi$）内，作用量 $I$ 的净改变量 $\Delta_T I$

\[\Delta_T I = \int_0^T \dot{I} \,\mathrm{d}t = \int_0^{2\pi} \dot{I} \frac{\mathrm{d}\theta}{\dot{\theta}}\] \[\Delta_T I = -\int_0^{2\pi} \dot{\lambda} \frac{\partial}{\partial \theta} \left( \frac{\partial W}{\partial \lambda} \right) \frac{\mathrm{d}\theta}{\omega}\]

由于$\lambda$缓变，角变量变化率可视作不变，可做零级近似，有

\[\Delta_T I \approx -\frac{\dot{\lambda}}{\omega} \int_0^{2\pi} \frac{\partial}{\partial \theta} \left( \frac{\partial W}{\partial \lambda} \right) \mathrm{d}\theta\]

老把戏，交换求导

\[\int_0^{2\pi} \frac{\partial}{\partial \theta} \left( \frac{\partial W}{\partial \lambda} \right) \mathrm{d}\theta = \frac{\partial}{\partial \lambda} \int_0^{2\pi} \mathrm{d}W\] \[\frac{\partial}{\partial \lambda} \Big( W(\theta = 2\pi) - W(\theta = 0) \Big) = \frac{\partial}{\partial \lambda} (2\pi I) = 0\] \[\Delta_T I \approx -\frac{\dot{\lambda}}{\omega} \cdot 0 = 0\]

即$\Delta_T I$必然是更高阶的小量，由此作用量长时间内的不变性可保证。

论文笔记 Kohn-Sham Inversion

2026-05-28T21:10:00+08:00

自己接下来的科研应该会偏向DFT方向（虽然具体课题还没确定），总之还是得尽快补充知识。

Kohn-Sham Inversion问题，简单来说就是如何在已知基态电子密度$\rho (r)$的前提下，求解KS方程中的等效势分布$v_{eff}(r)$。以下是两篇论文提出的启发性方法。

1. Zhao-Morrison-Parr method ^[1]

1.1 $v_{xc}$的自洽求解

经典的 KS 方程为

\[\left[ -\frac{1}{2}\nabla^2 + v_{\text{ext}}(\mathbf{r})+ v_{\text{H}}(\mathbf{r})+ v_{\text{xc}}(\mathbf{r}) \right] \phi_i = \varepsilon_i \phi_i\]

这个方程使用自洽法进行求解，但由于$v_{xc}$的形式未知，我们始终无法收敛到真正精确的密度解。现在如果我们转换思路，如果通过实验等手段得到密度分布$n(r)$，是否有可能数值求解得到$v_{xc}(r)$的分布。

简单的思路是同样找一个能够自洽求解的交换相关势$v_{xc}[n(r),n_{tar}(r)]$，使得迭代过程中解出的波函数$\phi_i(\mathbf{r})$能够逐渐满足约束

\[\sum_{i=1}^N |\phi_i(\mathbf{r})|^2 = \rho_0(\mathbf{r})\]

ZMP方法最初按照这个设想，有如下的构造

\[\left[ -\frac{1}{2}\nabla^2 + v_{ext}(\mathbf{r}) + v_c^\lambda(\mathbf{r}) \right] \phi_i^\lambda = \varepsilon_i^\lambda \phi_i^\lambda\]

其中$v_c^\lambda(\mathbf{r})$是平均场相互作用能和交换相关能之和，这里直接将二者视作一个整体作为泛函。

\[v_c^\lambda(\mathbf{r}) = \lambda \int \frac{\rho(\mathbf{r}') - \rho_0(\mathbf{r}')}{|\mathbf{r} - \mathbf{r}'|} d\mathbf{r}'\]

直观理解，对一个固定的$\lambda$，肯定都能通过自洽求解得到最终收敛的波函数$\phi_i^\lambda(\mathbf{r})$以及对应的电子密度$\rho^\lambda(\mathbf{r})$。且随着$\lambda$的增大，$\rho^\lambda(\mathbf{r})$一定会趋于给定的真实密度$\rho_0^\lambda(\mathbf{r})$，以保证总能量不会爆炸。最后通过外推法令$\lambda \rightarrow \infty$不难得到势函数$v_c^\lambda(\mathbf{r})$的数值分布形式。

这个想法倒是没什么问题，但有一个小细节需要优化。既然把电子相互作用的能量等效到一个函数$v_{c}$上，那这个函数必然在远处符合$\sim \frac{N-1}{r}$的衰减形式（即扣除电子自身后的静电势能），这个衰减并不算快，这意味着函数必须在原处也要有比较好的拟合，因此意味着迭代收敛速度会很慢。

论文提出的改进方法将自洽求解方程变成下面的形式

\[\left[ -\frac{1}{2}\nabla^2 + v_{ext}(\mathbf{r}) + \left(1 - \frac{1}{N}\right)v_H(\mathbf{r}) + v_c^\lambda(\mathbf{r}) \right] \phi_i^\lambda(\mathbf{r}) = \varepsilon_i^\lambda \phi_i^\lambda(\mathbf{r})\]

这里的 $\left(1 - \frac{1}{N}\right)v_J(\mathbf{r})$ 即为 Fermi-Amaldi 项。可以看作是（不严谨地）考虑了自相互作用的Hartree势。这么修正后$v_c^\lambda(\mathbf{r})$的衰减速度就会快得多，迭代时更多的优化可以体现在关键的近域部分。

对照标准的 KS 方程，可以得到精确交换相关势的数学表达式

\[v_{\text{xc}}(\mathbf{r}) = \lim_{\lambda \to \infty} \left[ v_c^\lambda(\mathbf{r}) - \frac{1}{N}v_J^\lambda(\mathbf{r}) \right]\]

实际计算中，会通过对一系列大 $\lambda$的结果，对自变量 $1/\lambda \to 0$ 进行多项式外推，从而精确锁定 $v_{\text{xc}}(\mathbf{r})$。

1.2 $E_{xc}$的非局域性证明

虽然有些偏题，但论文中有一个有趣的理论证明，这里一并放上。

试证：KS理论中的交换相关能泛函$E_{\text{xc}}[\rho]$能否写成定域（Local）形式，即只依赖于某一点的密度值$E_{\text{local}}[n] = \int f(n(\mathbf{r})) d\mathbf{r}$

设 $Q[\rho] = \int f(\rho) d\mathbf{r}$ 是一个严格的定域泛函。由于其空间各点独立，对其求变分

\[v_Q(\mathbf{r}) = \frac{\delta Q}{\delta \rho} = \frac{df(\rho)}{d\rho}\]

$f$关于径向坐标 $r$ 的导数为

\[\frac{df(\rho)}{dr} = \frac{df(\rho)}{d\rho} \cdot \frac{d\rho}{dr} = v_Q(\mathbf{r}) \frac{d\rho}{dr}\]

对球对称原子系统，将泛函 $Q$ 在球坐标下展开

\[Q = \int f(\rho) r^2 dr d\Omega\]

为了使用分布积分，设定：

\[u = f(\rho) \implies du = \frac{df}{dr}dr = v_Q \frac{d\rho}{dr} dr\] \[dv = r^2 dr \implies v = \frac{1}{3}r^3\]

当 $r \to \infty$ 时，电子密度 $\rho \to 0$，导致 $f(\rho) \to 0$。因此边界项 $[uv]_0^\infty$ 严格为 0。代入分部积分公式

\[Q = 0 - \int \left( \frac{1}{3}r^3 \right) \left( v_Q(\mathbf{r}) \frac{d\rho}{dr} \right) dr d\Omega\] \[Q = -\frac{1}{3} \int v_Q(\mathbf{r}) \cdot r \cdot \left( \frac{d\rho}{dr} \right) \underline{r^2 dr d\Omega} = -\frac{1}{3} \int v_Q(\mathbf{r}) \cdot r \cdot \frac{d\rho}{dr} d\mathbf{r}\]

若令 $Q = E_{\text{xc}}$，则其导数 $v_Q = v_{\text{xc}}$。若 $E_{\text{xc}}$ 是定域的，上式必须强行成立。根据定义

\[E_{xc}[n] \equiv (T[n] - T_s[n]) + (V_{ee}[n] - E_H[n])\]

我们知道，$E$ 和 $T$ 是不依赖任何密度泛函理论的、纯粹的物理真实值。因此完全可以对比真实值和高精度模拟结果以验证局域性的正误

根据论文，二者数值差异很大，否定了局域性假设，这也在意料之内。

2. Wu-Yang method ^[2]

2.1 基本原理

自洽场迭代求解虽然听起来合理，但其实细想一下还是有不少问题的。在最优化理论中，要100%保证算法能收敛到全局唯一解，目标泛函必须在全空间具有严格的凹性或凸性。自洽能不能收敛，我们是没法证明的。甚至在实际的计算机数值计算中，ZMP 方法常常会遇到严重的收敛困难，甚至发散。

而且就算能收敛，迭代次数往往也不容乐观。

因此相较于ZMP的自洽法，WY方法提出了一种更加简单直接的思路，也就是把目标势函数进行一组高斯基函数的线性展开。将待求的总势能 $v(\mathbf{r})$ 拆分为三部分

\[v(\mathbf{r}) = v_{\text{ext}}(\mathbf{r}) + v_0(\mathbf{r}) + v_t(\mathbf{r}) = v_{\text{ext}}(\mathbf{r}) + v_0(\mathbf{r}) + \sum_t b_t g_t(\mathbf{r})\]

与ZMP类似的采用了具有自相互作用修正的 Fermi-Amaldi 势

\[v_0(\mathbf{r}) = \frac{N-1}{N} \int \frac{\rho_{\text{in}}(\mathbf{r}')}{|\mathbf{r} - \mathbf{r}'|} d\mathbf{r}'\]

$\sum_t b_t g_t(\mathbf{r})$则是需要优化的部分。WY方法用一组已知的高斯基函数 ${g_t(\mathbf{r})}$ 将其线性展开。此时，优化一个连续场的问题，简化为了求解一组有限维度的线性系数标量 ${b_t}$。

理论上无限维的高斯基函数是完备的，但实际运用只能使用有限个基函数，在所需的精度上进行近似。

这里的设计其实很有巧思，因为总势能$v(\mathbf{r})$本身是没法用高斯基组展开的，必须扣除有奇点的$v_{\text{ext}}(\mathbf{r})$，再扣除$v_0(\mathbf{r})$确保边界快速收敛，剩下的有限平滑的函数才能用高斯基组进行高精度的近似。

于是剩下的问题就是有限参量${b_t}$的全局优化问题，这里有一个很有意思的问题转换，我们构造泛函

\[W_s[v(\mathbf{r})] = E_s[v] - \int v(\mathbf{r})\rho_{\text{in}}(\mathbf{r}) d\mathbf{r}\]

也即

\[W_s[v(\mathbf{r})] = \langle \Psi_v | \hat{T} | \Psi_v \rangle + \int v(\mathbf{r}) [ \rho_v(\mathbf{r}) - \rho_{\text{in}}(\mathbf{r}) ] d\mathbf{r}\]

现在我们尝试证明一个引理。现在，假设算法闭着眼睛摸索到了一个错误的外部势能 $v_{\text{wrong}}(\mathbf{r})$。在 $v_{\text{wrong}}$ 下，它能解出一个基态波函数 $\Psi_{\text{wrong}}$，以及相应的电子密度 $\rho_{\text{wrong}}$。

我们需要证明

\[W_s[v_{\text{wrong}}] \le W_s[v_{\text{true}}]\]

根据定义

\[W_s[v_{\text{wrong}}] = \min_{\Psi} \left\{ \langle \Psi | \hat{T} + \hat{V}_{\text{wrong}} | \Psi \rangle \right\} - \int v_{\text{wrong}}(\mathbf{r})\rho_{\text{in}}(\mathbf{r}) d\mathbf{r}\]

根据变分原理，如果我们偏偏把那个正确的波函数 $\Psi_{\text{true}}$ 代入这个错误的哈密顿量呢？它算出来的能量必定比基态高

\[\min_{\Psi} \left\{ \langle \Psi | \hat{T} + \hat{V}_{\text{wrong}} | \Psi \rangle \right\} \le \langle \Psi_{\text{true}} | \hat{T} + \hat{V}_{\text{wrong}} | \Psi_{\text{true}} \rangle\]

把右边展开

\[\langle \Psi_{\text{true}} | \hat{T} + \hat{V}_{\text{wrong}} | \Psi_{\text{true}} \rangle = \langle \Psi_{\text{true}} | \hat{T} | \Psi_{\text{true}} \rangle + \int v_{\text{wrong}}(\mathbf{r})\rho_{\text{in}}(\mathbf{r}) d\mathbf{r}\]

把这个不等式带回 $W_s[v_{\text{wrong}}]$ 的表达式中

\[W_s[v_{\text{wrong}}] \le \left( \langle \Psi_{\text{true}} | \hat{T} | \Psi_{\text{true}} \rangle + \int v_{\text{wrong}}(\mathbf{r})\rho_{\text{in}}(\mathbf{r}) d\mathbf{r} \right) - \int v_{\text{wrong}}(\mathbf{r})\rho_{\text{in}}(\mathbf{r}) d\mathbf{r}\]

于是命题得证

\[W_s[v_{\text{wrong}}] \le \langle \Psi_{\text{true}} | \hat{T} | \Psi_{\text{true}} \rangle = W_s[v_{\text{true}}]\]

因此现在问题被我们转化为一个变分问题，当$v(\mathbf{r}) \rightarrow v_{\text{true}}$，泛函$W_s[v(\mathbf{r})]$取得极大值。

由于$v(\mathbf{r})$可变参数是系数向量 $\mathbf{b} = {b_t}$，泛函 $W_s[v]$ 可转化为普通的多元标量函数 $W_s(\mathbf{b})$。因此其导数存在解析形式。

梯度向量

\[G_t = \frac{\partial W_s}{\partial b_t} = \int \frac{\delta W_s}{\delta v(\mathbf{r})} \frac{\partial v(\mathbf{r})}{\partial b_t} d\mathbf{r} = \int [\rho_v(\mathbf{r}) - \rho_{\text{in}}(\mathbf{r})] g_t(\mathbf{r}) d\mathbf{r}\]

Hessian 矩阵

\[H_{ut} = \frac{\partial^2 W_s}{\partial b_u \partial b_t} = 4 \sum_{i}^{\text{occ}} \sum_{a}^{\text{unocc}} \frac{\langle\phi_i|g_u|\phi_a\rangle\langle\phi_a|g_t|\phi_i\rangle}{\epsilon_i - \epsilon_a}\]

拥有了完全解析的二阶 Hessian 矩阵，意味着算法可以使用最直接的二阶牛顿法

\[\mathbf{b}^{(k+1)} = \mathbf{b}^{(k)} - \mathbf{H}^{-1} \mathbf{G}\]

这种方法的迭代速度就比ZMP快得多（毕竟优化的参数就那么多）。

另外，如果需要回推交换相关势$v_{xc}(\mathbf{r})$，根据 Kohn-Sham 标准有效势的定义：$v_{\text{eff}}(\mathbf{r}) = v_{\text{ext}}(\mathbf{r}) + v_H(\mathbf{r}) + v_{\text{xc}}(\mathbf{r})$。由于优化得到的精确有效势为 $v(\mathbf{r}) = v_{\text{ext}} + v_0 + \sum_t b_t g_t$，两式相对照

\[v_{\text{xc}}(\mathbf{r}) = \sum_t b_t g_t(\mathbf{r}) + v_0(\mathbf{r}) - v_H(\mathbf{r})\]

也即

\[v_{\text{xc}}(\mathbf{r}) = \sum_t b_t g_t(\mathbf{r}) + \int \frac{\rho_{\text{in}}(\mathbf{r}') - \rho_v(\mathbf{r}')}{|\mathbf{r}-\mathbf{r}'|} d\mathbf{r}' - \frac{1}{N}\int \frac{\rho_{\text{in}}(\mathbf{r}')}{|\mathbf{r}-\mathbf{r}'|} d\mathbf{r}'\]

2.2 Lieb变换与凹泛函证明

以上。

[1] Q. Zhao, R. C. Morrison, and R. G. Parr, Phys. Rev. A. 50, 2138 (1994).

[2] Q. Wu and W. Yang, J. Chem. Phys. 118, 2498 (2003).

Noether’s theorem

2026-05-27T11:10:00+08:00

一时兴起之作。

Ⅰ. 当我们在思考变换的时候，我们在思考什么

最基本的变换是坐标变换，也是最狭义的变换

\[Q_i=Q_i(q_1,q_2...,q_n)\]

这种变换最trivial，理由是它永远正确，把一个拉格朗日量进行坐标变换

\[L(q,\dot{q},t) \rightarrow L'(Q,\dot{Q},t)\]

任意的$t$对应的拉格朗日量都相等，意味着其作用量也相等，得到的肯定是等价的拉格朗日方程，没什么好讨论的。

考虑到所有的有限大连续变换，在数学上都可以由无穷小生成元恢复出来。拉格朗日力学框架下，Noether定理给出的普遍形式是一个由连续参数$\epsilon$ 控制的无穷小时空变换（坐标和时间同时变换）

\[t \rightarrow t' = t + \delta t = t + \epsilon T(q, t)\] \[q_i(t) \rightarrow q_i'(t') = q_i(t) + \delta q_i = q_i(t) + \epsilon Q_i(q, t)\]

不同于坐标变换的小打小闹，我们在这个变换过程中没有修改广义坐标{$q_i$}的选择，这也就意味着

\[L'(q',\dot{q'},t)=L(q',\dot{q'},t)\]

相同的坐标体系，相同的拉式量定义，肯定对应着相同的拉格朗日方程

\[\frac{d}{dt}\frac{\partial L'}{\partial \dot{q_i}'}=\frac{\partial L'}{\partial {q_i'}}\] \[\frac{d}{dt}\frac{\partial L}{\partial \dot{q_i}}=\frac{\partial L}{\partial {q_i}}\]

所以我们关心的是，这两个独立演化的体系，能否始终时时满足原先的对应关系

\[t' = t + \delta t = t + \epsilon T(q, t)\] \[q_i'(t') = q_i(t) + \delta q_i = q_i(t) + \epsilon Q_i(q, t)\]

这件事显然是non-trivial的，且绝大多数时候是不成立的。而且这件事情本身就很诡异，就像你现在得到了两个完全相同的方程

\[m\ddot{q} + kq = 0\] \[m\ddot{q}' + kq' = 0\]

然后非要找到一组关系{$t \rightarrow t’,q \rightarrow q’$}将它们配对，这种选择肯定是有限的，而且与拉氏量的具体形式有关。例如对于所谓的旋转对称体系

\[L(r, \theta, \dot{r}, \dot{\theta}) = \frac{1}{2}m(\dot{r}^2 + r^2\dot{\theta}^2) - V(r)\]

不难发现求解后的方程肯定对下面的变换合法

\[t' = t\] \[r'(t') = r(t)\] \[\theta'(t') = \theta(t) + \epsilon\]

也就是说一个时空下{$r,\theta,t$}的运动，经过简单的坐标旋转变换后居然完全等价于另一个时空下{$r’,\theta’,t’$}的运动。或者换一个角度，这个时空下的运动，经过一个旋转变换后，不会让人感觉与这个体系出现矛盾，也就是说这个运动依然在体系下是“合理”的。试想这个体系下如果是一个如下的变换

\[t' = t\] \[r'(t') = r(t) + \epsilon\] \[\theta'(t') = \theta(t)\]

那么这样变换的运动在新的时空下肯定是不可能存在的，因为拉格朗日方程不允许这样的解出现。

但其实这么non-trivial的事情居然很容易想出一些示例，一个在时空{$x,t$}匀速运动的小球，可以等价为经过变换$t’=t ;x’ = x + \epsilon$后在时空{$x’,t’$}下匀速运动的小球，也可以等价为经过变换$t’=t + \epsilon ;x’ = x$后在时空{$x’,t’$}下匀速运动的小球。原本没什么具体内涵的数学形式{$x’,t’$}，能够与真实运动存在真实的存在变换，这本身应该让我们惊讶。

错位的虚构时空因为变换本身得以变得真实，这么说是不是显得更浪漫一些。

Ⅱ. 当我们在定义对称的时候，我们在定义什么

当两个运动存在真实时空变换的时候，我们称之为对称。所谓的空间平移对称性$x’=x+\epsilon$，空间旋转对称性$\theta’=\theta+\epsilon$，时间平移对称性$t’=t+\epsilon$，其实都是一个个真实变换的代名词。

对称的内涵在这里确实是被无限延申，代表着这种时空间千丝万缕的联系。

既然能存在真实变换关系，根据最小作用量原理，可以做一些数学推导。

\[S' = \int_{t_1'}^{t_2'} L(q', \frac{dq'}{dt'}, t') dt' = \int_{t_1}^{t_2} L(q, \dot{q}, t) dt\] \[dt' = \frac{dt'}{dt} dt = \frac{d(t + \delta t)}{dt} dt = \left(1 + \frac{d}{dt}(\delta t)\right) dt\]

变换后的作用量可以写为：

\[S' = \int_{t_1}^{t_2} L(q', \frac{dq'}{dt'}, t') \left(1 + \frac{d}{dt}(\delta t)\right) dt\]

要求 $\delta S = \delta S’ - \delta S = 0$，利用$L’(q’,\dot{q’},t)=L(q’,\dot{q’},t)$展开到 $\epsilon$ 的一阶近似（无穷小量）：

\[\delta S = \delta \int_{t_1}^{t_2} \left[ \delta L + L \frac{d}{dt}(\delta t) \right] dt = 0\]

所以被积函数必须是某个函数$F(q,t)$对时间的全导数

\[\delta L + L \frac{d}{dt}(\delta t) = \frac{dF(q,t)}{dt}\]

Noether定理告诉我们，存在真实变换的体系，肯定有其过人之处。具体来说就是必须满足上面的方程。但这个形式没法用，我也懒得进行一些琐碎的数学推导了。具体的说，如果我们令$F(q,t)=\epsilon f(q,t)$，那么Noether定理的内容就是，

满足对称变换的体系

\[t \rightarrow t' = t + \delta t = t + \epsilon T(q, t)\] \[q_i(t) \rightarrow q_i'(t') = q_i(t) + \delta q_i = q_i(t) + \epsilon Q_i(q, t)\]

天然有守恒量

\[I = \sum_{i} p_i Q_i - H T - f = \text{Constant}\]

其中$p_i$是广义动量，$H$是哈密顿量。

形式理论的一个高峰。

Ⅲ. 当我们在证明守恒的时候，我们在证明什么

同样是关于守恒量，我们很容易联想到无限小正则变换

\[Q_i = q_i + \delta q_i = q_i + \epsilon \cdot f_i(q, p, t)\] \[P_i = p_i + \delta p_i = p_i + \epsilon \cdot g_i(q, p, t)\]

但这种变换太任意了，坐标和动量之间是必须满足对应关系的，具体来说就是保证哈密顿方程不变（或者说满足$P_i=\frac{\partial L}{\partial \dot{Q}_i}$)。为了确保变换是正则变换，我们选择第二类生成函数 $F_2(q, P, t)$，并将其构造为：

\[F_2(q, P, t) = \sum_{i=1}^n q_i P_i + \epsilon \cdot G(q, P, t)\]

注意这个构造是非普适的，也就是说不是所有的生成函数都能用生成元这么写，比如一般的坐标变换就没办法。

根据第二类生成函数的变换关系公式：

\[p_i = \frac{\partial F_2}{\partial q_i} = P_i + \epsilon \frac{\partial G}{\partial q_i}\] \[Q_i = \frac{\partial F_2}{\partial P_i} = q_i + \epsilon \frac{\partial G}{\partial P_i}\]

由于是无穷小变换，$G(q,P,t)$可以直接替换为$G(q,p,t)$,也即

\[\delta q_i = Q_i - q_i = \epsilon \frac{\partial G(q, p, t)}{\partial p_i}\] \[\delta p_i = P_i - p_i = -\epsilon \frac{\partial G(q, p, t)}{\partial q_i}\]

用泊松括号可以写成

\[\delta q_i = \epsilon \{q_i, G\}\] \[\delta p_i = \epsilon \{p_i, G\}\]

更一般地，对于相空间中的任意物理量 $u(q, p, t)$，在由 $G$ 生成的无限小正则变换下，它的改变量为

\[\delta u = \epsilon \{u, G\}\]

因此哈密顿量应该也满足

\[\delta H = \epsilon \{H, G\}\]

我们知道时间演化中始终有

\[\frac{dG}{dt} = \{G, H\} + \frac{\partial G}{\partial t}\]

我们将哈密顿力学体系下的对称变换定义为满足$\delta H=0$的变换，如果$G$不显含$t$，直接的结论就是

\[\frac{dG}{dt} = 0\]

也即在演化过程中$G$守恒。例如动量守恒时$G=p_x$，则对应的无穷小变换是

\[\delta x = \epsilon \frac{\partial G}{\partial p_x} =\epsilon\] \[\delta p_x = -\epsilon \frac{\partial G}{\partial x} = 0\]

这件事和诺特定理的无穷小变换似乎有千丝万缕的关系，不过正则变换的基本思想是广义坐标的变换（以及与之对应的广义动量的变换），而诺特定理是维持同一套广义坐标的。好像难以用一套语言统一。

但正则变换真的只是广义坐标的变换吗，例如把直角坐标换成极坐标这种。

举个极端的例子，我们知道哈密顿方程本身就是一种正则变换

\[d q_i = dt \frac{\partial H(q, p, t)}{\partial p_i}\] \[d p_i = -dt \frac{\partial H(q, p, t)}{\partial q_i}\]

这意味着我们应该理解成，$dt$时间后的${q_i(t+dt)}$是一组新的广义坐标吗？这是不是有点太反直觉了。

所以说正则变换本身的内涵早已超出一开始的广义坐标变换的范畴了（尽管这依然是其中一部分主要应用）。不妨接着我们上面的极端例子接着推导

采用生成函数 $F_2(q, P, t)$：

\[F_2(q, P, t) = \sum_{i=1}^n q_i P_i + dt \cdot H(q, P, t)\]

新哈密顿量 $K$ 满足

\[K = H + \frac{\partial F_2}{\partial t}\]

即

\[K = H(q, p, t) + dt \cdot \frac{\partial H(q, P, t)}{\partial t}\]

注意到

\[H(q, p, t + dt) = H(q, p, t) + dt \cdot \frac{\partial H(q, p, t)}{\partial t}\]

所以，新哈密顿量可以写为：

\[K(Q, P, t) = H(q, p, t + dt)\]

在 $t+dt$ 时刻对新变量 $(Q, P)$ 进行一阶泰勒展开：

\[H(q, p, t + dt) = H\left(Q - dt \frac{\partial H}{\partial P}, P + dt \frac{\partial H}{\partial Q}, t + dt\right)\] \[= H(Q, P, t + dt) - \sum_{i=1}^n \left[ \frac{\partial H}{\partial Q_i} \left(dt \frac{\partial H}{\partial P_i}\right) - \frac{\partial H}{\partial P_i} \left(dt \frac{\partial H}{\partial Q_i}\right) \right] + \mathcal{O}(dt^2)\]

方括号内部的项

\[\frac{\partial H}{\partial Q_i} \cdot dt \frac{\partial H}{\partial P_i} - \frac{\partial H}{\partial P_i} \cdot dt \frac{\partial H}{\partial Q_i} = 0\]

因此有

\[K(Q, P, t) = H(Q, P, t + dt)\]

哈密顿量就是整个体系的描述者，审视一下，不难发现现在这个体系描述的是在$t+dt$时间下的原体系的状态，甚至如果哈密顿量不显含时间，对应着的就是同一个体系。

这是不是很像先前诺特定理对称性时说的，两个在完全相同体系下合理演化的真实运动之间，可能存在着显式的坐标对应。

正则变换似乎更进一步，它说，即使不用同一套坐标，由于体系的对称性理应脱离坐标选择而存在（尽管某些坐标更容易体现），我们依然可以有显式的对称变换，也依然可以有守恒量成立。

这篇感觉不该分到Note，基本是想到哪写到哪，甚至开始写的时候也没完全想明白，断断续续花了一天时间完成

有些想法很幼稚，不排除未来修改的可能

无所谓了，作为一篇散文看吧

以上

论文笔记 Ferminet

2026-05-24T22:00:00+08:00

很喜欢在写笔记的时候单曲循环一首歌，然后把这首歌的专辑封面当作笔记封面。

Ferminet由2020 DeepMind在PRR的论文《Ab initio solution of the many-electron Schrödinger equation with deep neural networks》提出，核心思想是用神经网络作为VMC拟设，发挥神经网络的高维度学习能力，试图彻底解决VMC最重要的拟设函数形式问题。

这篇笔记基本参照论文的结构来写，但为了不显得自己只是在复述，会尽可能重视数学上的推理，文字上会尽量简洁。^[1]

1. Ferminet基本架构

简单的说，既然Ferminet的定位是波函数$\Psi(x_1,x_2…x_N)$的拟设，其本质自然就是一个高维度的拟合器。给定外势后，网络的输入是电子的坐标$x_i$（空间坐标$r_i$+自旋坐标$s_i$），输出是对应的波函数数值（显然，是未归一化的）

分三部分拆解一下整个网络架构，每个部分构造都很有亮点，很难说哪个是最核心的。

1.1 Input Layer

先看输入层，为了同时高效捕捉“电子-原子核”以及“电子-电子”之间的相互作用，FermiNet 设计了两个并行的特征作为输入的参数（也就是网络学习的基本特征量）

单电子流（Single-electron stream）：输入第 $i$ 个电子到各个原子核 $I$ 的相对位移向量 $(r_i - R_I)$ 以及绝对距离 $|r_i - R_I|$ 。
双电子流（Two-electron stream）：输入每对电子 $(i, j)$ 之间的相对位移向量 $(r_i - r_j)$ 以及绝对距离 $|r_i - r_j|$ 。

把绝对距离 $

r_i - r_j

$ 直接作为输入送入网络这一点很重要，这一种显式的输入其实算是强调这一特征的学习。由于距离函数在零点是不光滑的，深度网络可以通过非线性变换直接模拟出波函数在粒子接触时的尖峰（Cusps）行为，从而省去了显式的 Jastrow 因子。

1.2 Hidden Layer

这一层的构造有许多要点。首先，我们知道整个网络是必须满足反对性的。即拟合的神经网络应该满足

\[\Psi(x_1...x_i,x_j...x_N)=-\Psi(x_1...x_j,x_i...x_N)\]

虽然在Output Layer中有一个Slater行列式，但仍然需要满足行列式中的单元会随着坐标的交换而交换，如果使用简单的全连接网络肯定会完蛋，因为最后输出的单元不可分辨。

也就是说，若交换任意两个输入电子，其在中间层对应的特征向量应该仅仅发生位置对调，而特征内容保持一致。为了满足这种置换等变性（Permutation Equivariance），中间层绝对不能使用像全连接层（对输入顺序敏感）或卷积层（对空间绝对位置敏感）那样的常规连接，而必须采用平移不变的聚合算子，例如求平均（Mean）。

FermiNet 的中间层（假设为第 $l$ 层）同样包含两组并行的特征流动，这两组流动通过特定的池化操作进行交叉耦合：

单电子流（Single-electron stream）：第 $l$ 层的输出记为 $h_i^l$，它代表第 $i$ 个电子在当前层被提取出的高维特征向量。
双电子流（Two-electron stream）：第 $l$ 层的输出记为 $h_{ij}^l$，它代表电子对 $(i, j)$ 在当前层被提取出的高维特征向量。

同时，由于体系中存在自旋向上（$\uparrow$）和自旋向下（$\downarrow$）两种电子，网络会对这两组电子分别进行聚合。

在第 $l$ 层向第 $l+1$ 层演进时，为了让第 $i$ 个电子知道其他电子的状态，网络会计算四种不同的均值向量。

特征类型 \ 自旋方向	上自旋 ($\uparrow$)	下自旋 ($\downarrow$)
单电子特征均值 (Single-electron)	$g^{\uparrow, l} = \frac{1}{n^{\uparrow}} \sum_{m=1}^{n^{\uparrow}} h_m^l$	$g^{\downarrow, l} = \frac{1}{n^{\downarrow}} \sum_{m=1}^{n^{\downarrow}} h_m^l$
双电子特征均值 (Two-electron, 含电子 $i$)	$f_i^{\uparrow, l} = \frac{1}{n^{\uparrow}} \sum_{m=1}^{n^{\uparrow}} h_{im}^l$	$f_i^{\downarrow, l} = \frac{1}{n^{\downarrow}} \sum_{m=1}^{n^{\downarrow}} h_{im}^l$

得到这些全局环境特征后，网络将它们与电子 $i$ 自身的当前特征拼接在一起，作为一个巨大的向量输入到一个标准的线性层（带有激活函数）中。单电子流的更新： $f_i^l = \left[ h_i^l \;;\; g^{\uparrow, l} \;;\; g^{\downarrow, l} \;;\; f_i^{\uparrow, l} \;;\; f_i^{\downarrow, l} \right]$ $h_i^{l+1} = \tanh \left( W^l f_i^l + b^l \right) + h_i^l \quad \text{（残差连接）}$

Ferminet独具匠心的一点是，为了控制计算复杂度，双电子流的更新不需要从单电子流接收信息（单向哺育），也不跨电子对进行复杂的交叉聚合。它只对自己进行线性变换： $h_{ij}^{l+1} = \tanh \left( V^l h_{ij}^l + c^l \right) + h_{ij}^l$

1.3 Output Layer

经过Hidden Layer的层层变换后，我们将在最后把所有单电子信息转化为Slater行列式中的单电子波函数，Ferminet网络的最后一层输出会被乘以一个各向异性的指数衰减包络函数：

\[\phi_{i}^{k\alpha}(r_j^\alpha; \{r_{/j}\}) = \underbrace{\left( w_i^{k\alpha} \cdot h_j^{L\alpha} + g_i^{k\alpha} \right)}_{\text{网络特征投影}} \times \underbrace{\sum_{m} \pi_{im}^{k\alpha} \exp\left(-| \Sigma_{im}^{k\alpha} (r_j^\alpha - R_m) |\right)}_{\text{物理边界包络}}\]

该设计的精髓在于通过参数 $\Sigma$ 和 $\pi$ 学习电子远离原子核时的行为，物理上严格保证了当电子远离原子核时，波函数能正确衰减到 0（边界条件）。

$\phi_{i}^{k\alpha}(r_j^\alpha; {r_{/j}})$这个形式说明每个单电子轨道方程的位置只与$r_j^\alpha$有关，当其他坐标${r_{/j}}$进行交换时其位置维持不变。此即为Hidden Layer中置换等变性的体现。由此保证了Slater行列式能够真正实现置换反对称性。

\[\Psi_{\text{single}} = \det[\mathbf{A}^\uparrow] \det[\mathbf{A}^\downarrow]\]

理论上，只需要单一个（$K=1$）广义斯拉特行列式，只要里面的神经网络无限宽、无限深，就足以完美逼近任何形式的费米子基态波函数。但从图例中可以看到我们其实从同一组单电子流特征向量中提取了多个行列式，然后再进行线性组合

\[\Psi_{\text{total}} = \sum_{k=1}^K \omega_k \det[\mathbf{A}_k^\uparrow] \det[\mathbf{A}_k^\downarrow]\]

这么写当然也是满足反对称性。其主要的工程思想是在不怎么增加计算开销的前提下进一步提升网络深度。至于能提升什么程度，我持保守态度（

最后可以参考一下论文的架构流程总结

2. 网络拟合策略

2.1 梯度表达式计算

现在我们有了一个看似非常合理的架构，当务之急就是怎么通过VMC（在神经网络里就是梯度下降）的手段把拟设参数优化到最佳，也就是最小化体系多电子波函数的能量期望值 $\mathcal{L}(\theta)$ ：

\[\mathcal{L}(\theta) = \frac{\langle\psi_{\theta}|\hat{H}|\psi_{\theta}\rangle}{\langle\psi_{\theta}|\psi_{\theta}\rangle} = \frac{\int dX \psi_{\theta}^*(X)\hat{H}\psi_{\theta}(X)}{\int dX \psi_{\theta}^*(X)\psi_{\theta}(X)}\]

令 $p_\theta(X) = \frac{\psi_\theta^2(X)}{\int \psi_\theta^2(X) dX}$，并引入局部能量（Local Energy） $E_L(X) = \frac{\hat{H}\psi_\theta(X)}{\psi_\theta(X)}$。此时，损失函数可以写为对 $p_\theta(X)$ 的期望值：$\mathcal{L}(\theta) = \int p_\theta(X) E_L(X) dX = \mathbb{E}_{p_\theta(X)}[E_L(X)]$

现在我们对参数 $\theta$ 求梯度。 $\nabla_\theta \mathcal{L} = \int \left[ \nabla_\theta p_\theta(X) \right] E_l(X) dX + \int p_\theta(X) \left[ \nabla_\theta E_l(X) \right] dX$

来看第二项 $\int p_\theta(X) \nabla_\theta E_l(X) dX$。将 $p_\theta(X)$ 和 $E_l(X)$ 的定义代入： $\int p_\theta(X) \nabla_\theta E_l(X) dX = \frac{1}{\int \psi_\theta^2 dX} \int \psi_\theta^2 \nabla_\theta \left( \frac{\hat{H}\psi_\theta}{\psi_\theta} \right) dX$

根据商的求导法则，括号内部为 $\frac{(\nabla_\theta \hat{H}\psi_\theta)\psi_\theta - (\hat{H}\psi_\theta)(\nabla_\theta \psi_\theta)}{\psi_\theta^2}$。将其与外面的 $\psi_\theta^2$ 约去，得到： $\frac{1}{\int \psi_\theta^2 dX} \int \left[ \psi_\theta \hat{H} (\nabla_\theta \psi_\theta) - (\hat{H}\psi_\theta) \nabla_\theta \psi_\theta \right] dX$

因为哈密顿量 $\hat{H}$ 是厄米算符（Hermitian），满足 $\int \psi \hat{H} \phi dX = \int (\hat{H}\psi) \phi dX$。因此： $\int \psi_\theta \hat{H} (\nabla_\theta \psi_\theta) dX = \int (\hat{H}\psi_\theta) \nabla_\theta \psi_\theta dX$

这意味着上面括号内的两项积分后能够完全抵消 $\int p_\theta(X) \nabla_\theta E_l(X) dX = 0$

所以，损失函数的梯度完全取决于概率分布本身随参数的变化

\[\nabla_\theta \mathcal{L} = \int \left[ \nabla_\theta p_\theta(X) \right] E_l(X) dX\]

由于我们无法直接从 $\nabla_\theta p_\theta(X)$ 中采样，需要将其重新转化为关于 $p_\theta(X)$ 的期望形式。这里使用一个微积分技巧： $\nabla_\theta p_\theta(X) = p_\theta(X) \nabla_\theta \log p_\theta(X)$ ，代入上式：

\[\nabla_\theta \mathcal{L} = \int p_\theta(X) \nabla_\theta \log p_\theta(X) E_l(X) dX = \mathbb{E}_{p(X)} [E_l(X) \nabla_\theta \log p_\theta(X)]\]

因为 $p_\theta(X) = \frac{\psi_\theta^2(X)}{Z(\theta)}$（其中 $Z(\theta) = \int \psi_\theta^2 dX$），取对数得：

\[\log p_\theta(X) = 2 \log |\psi_\theta(X)| - \log Z(\theta)\]

求梯度得： $\nabla_\theta \log p_\theta(X) = 2 \nabla_\theta \log |\psi_\theta(X)| - \nabla_\theta \log Z(\theta)$

左右两边取期望（对 $\int p_\theta(X)dX=1$ 两边求导，容易知道 $\mathbb{E}{p(X)}[\nabla\theta \log p_\theta(X)] = 0$ ），由此可得恒等式：

\[\nabla_\theta \log Z(\theta) = 2 \mathbb{E}_{p(X)}[\nabla_\theta \log |\psi_\theta(X)|]\]

代回后得到： $\nabla_\theta \log p_\theta(X) = 2 \left( \nabla_\theta \log |\psi_\theta(X)| - \mathbb{E}_{p(X)}[\nabla_\theta \log |\psi_\theta(X)|] \right)$

将这个式子代回梯度的期望表达式中：

\[\nabla_\theta \mathcal{L} = 2 \cdot \mathbb{E}_{p(X)} \left[ E_l(X) \left( \nabla_\theta \log |\psi_\theta(X)| - \mathbb{E}_{p(X)}[\nabla_\theta \log |\psi_\theta(X)|] \right) \right]\]

继续转化 $\nabla_\theta \mathcal{L} = 2 \left( \mathbb{E}_{p(X)} \left[ E_l(X) \nabla_\theta \log |\psi_\theta(X)| \right] - \mathbb{E}_{p(X)}[E_l(X)] \cdot \mathbb{E}_{p(X)}[\nabla_\theta \log |\psi_\theta(X)|] \right)$

不难注意到这其实就是协方差的形式

\[\nabla_\theta \mathcal{L} = 2 \cdot \text{Cov}_{p(X)} \left( E_l(X), \nabla_\theta \log |\psi_\theta(X)| \right)\]

根据统计学中协方差的性质：$\mathbb{E}[AB] - \mathbb{E}[A]\mathbb{E}[B] = \mathbb{E}[(A - \mathbb{E}[A])B] = \mathbb{E}[A(B - \mathbb{E}[B])]$，我们可以最终得到论文中工程实用的形式（原文中差了个系数$2$，没有本质差别）

\[\nabla_\theta \mathcal{L} = 2 \cdot \mathbb{E}_{p(X)} \left[ \left( E_l(X) - \mathbb{E}_{p(X)}[E_l(X)] \right) \nabla_\theta \log |\psi_\theta(X)| \right]\]

工程上，我们可以在代码中显式构建以下标量函数：

\[\mathcal{L}_{\text{surr}}(\theta) = \frac{1}{M} \sum_{m=1}^{M} \left( E_l(X_m) - \bar{E}_l \right) \cdot \log |\psi_\theta(X_m)|^2\]

当我们直接对 L_surr 调用自动微分 jax.grad 时，框架根据链式法则对 $\theta$ 求导，吐出的梯度刚好就是： $\nabla_\theta \mathcal{L}_{\text{surr}} = \frac{2}{M} \sum_{m=1}^{M} \left( E_l(X_m) - \bar{E}_l \right) \nabla_\theta \log |\psi_\theta(X_m)|$

利用MCMC采样使样本点符合$p(X)$分布后，只要样本数够多，我们就能很轻松得到这个梯度数值。

2.2 自然梯度下降与Fisher矩阵

论文中没有采用传统的梯度下降和优化器（如Adam） $\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta \mathcal{L}$

因为多体波函数这玩意自带Cusp，在电子-电子，电子-原子核重叠时波函数变化很剧烈，所以容易无法正常收敛。这要求我们用一些更先进的梯度下降算法。比如自然梯度下降（NGD）。

直观理解一下，考虑两对高斯分布：

左侧：$N(0,0.2)$与$N(1,0.2)$
右侧：$N(0,10)$与$N(1,10)$

两组分布在参数空间中的欧几里得距离相同，但右侧分布显然更接近。两组分布在参数空间中的欧几里得距离相同，但右侧分布显然更接近。这说明参数空间的欧几里得距离无法正确刻画概率分布的相似性。为此我们可以采用信息论中经典的 KL 散度（Kullback-Leibler Divergence）来严格衡量这两个概率分布之间的实质物理距离。 $D_{\text{KL}}(p(x; \theta) \parallel q(x; \theta)) = \int p(x; \theta) \log \frac{p(x; \theta)}{q(x; \theta)} dx$

对其进行泰勒展开 $D_{\text{KL}}(p(x; \theta) \parallel p(x; \theta + d\theta)) = \int p(x; \theta) \log \frac{p(x; \theta)}{p(x; \theta + d\theta)} dx$

可以证明零阶项和一阶项都是0，即 $D_{\text{KL}}(p(x; \theta) \parallel p(x; \theta + d\theta)) \approx \frac{1}{2} d\theta^T \mathcal{F} d\theta$

其中$\mathcal{F}$为Fisher矩阵，表达式为

\[\mathcal{F} = \mathbb{E}_{x \sim p_\theta(x)} \left[ \nabla_\theta \log p_\theta(x) \cdot \nabla_\theta \log p_\theta(x)^T \right]\] \[\mathcal{F}_{ij} = \mathbb{E}_{x \sim p(x; \theta)} \left[ \frac{\partial \log p(x; \theta)}{\partial \theta_i} \cdot \frac{\partial \log p(x; \theta)}{\partial \theta_j} \right]\]

在数学上，“最速下降”的定义是：在给定一个微小的步长约束下，能让损失函数下降最快的那个方向。

标准梯度下降（SGD）：限制的是参数的欧氏距离（$|d\theta|2 \le \epsilon$），也就是代码中写死的步长限制。在这个标准下，最速下降方向就是负梯度方向 $-\nabla\theta L(\theta)$。
自然梯度下降（NGD）：限制的是概率分布之间的KL散度距离（$D_{KL}(P_\theta | P_{\theta+d\theta}) \le \epsilon$），相当于在限制步长之前对空间做了一个变化，平衡了各方向的步长权重。在这个标准下，最速下降方向变成了 $-\mathcal{F}^{-1}\nabla_\theta L(\theta)$。

因此，自然梯度下降的更新公式为： $\theta_{t+1} = \theta_t - \eta \mathcal{F}^{-1} \nabla_\theta L(\theta)$

下面再对Fisher矩阵进行一些简化，首先根据定义展开对数概率 $\log p_\theta(X)$

\[\log p_\theta(X) = \log \left( \frac{\psi_\theta^2(X)}{Z(\theta)} \right) = 2 \log |\psi_\theta(X)| - \log Z(\theta)\]

对参数 $\theta_i$ 求偏导数： $\frac{\partial \log p_\theta(X)}{\partial \theta_i} = 2 \frac{\partial \log |\psi_\theta(X)|}{\partial \theta_i} - \frac{\partial \log Z(\theta)}{\partial \theta_i}$

为了书写简明，定义波函数关于参数的对数导数（即分数函数 Score Function）为$\mathcal{O}_i(X)$： $\mathcal{O}_i(X) \equiv \frac{\partial \log |\psi_\theta(X)|}{\partial \theta_i}$

现在处理右边的 $\log Z(\theta)$ 微分项 $\frac{\partial \log Z(\theta)}{\partial \theta_i} = \frac{1}{Z(\theta)} \frac{\partial Z(\theta)}{\partial \theta_i} = \frac{1}{\int \psi_\theta^2(X) dX} \int \frac{\partial \psi_\theta^2(X)}{\partial \theta_i} dX$

由于 $\frac{\partial \psi_\theta^2(X)}{\partial \theta_i} = 2 \psi_\theta(X) \frac{\partial \psi_\theta(X)}{\partial \theta_i} = 2 \psi_\theta^2(X) \frac{\partial \log |\psi_\theta(X)|}{\partial \theta_i}$，代入上式得： $\frac{\partial \log Z(\theta)}{\partial \theta_i} = \int \left( \frac{\psi_\theta^2(X)}{\int \psi_\theta^2(X) dX} \right) \cdot 2 \mathcal{O}_i(X) dX = 2 \cdot \mathbb{E}_{X \sim p_\theta} \left[ \mathcal{O}_i(X) \right]$

将该结果带回，我们得到了未归一化波函数对数概率梯度的精确表达式： $\frac{\partial \log p_\theta(X)}{\partial \theta_i} = 2 \left( \mathcal{O}_i(X) - \mathbb{E}_{X \sim p_\theta}[\mathcal{O}_i(X)] \right)$

代入Fisher矩阵的定义式中：

\[\mathcal{F}_{ij} = \mathbb{E}_{X \sim p_\theta} \left[ 2 \left( \mathcal{O}_i(X) - \mathbb{E}[\mathcal{O}_i] \right) \cdot 2 \left( \mathcal{O}_j(X) - \mathbb{E}[\mathcal{O}_j] \right) \right]\] \[\mathcal{F}_{ij} = 4 \cdot \left( \mathbb{E}_{X \sim p_\theta} [\mathcal{O}_i(X) \mathcal{O}_j(X)] - \mathbb{E}_{X \sim p_\theta}[\mathcal{O}_i(X)] \mathbb{E}_{X \sim p_\theta}[\mathcal{O}_j(X)] \right)\]

考虑到前面的系数最后都可以合并到学习率$\eta$中，记$\tilde{\mathcal{O}}_i(X) = \mathcal{O}_i(X) - \mathbb{E}[\mathcal{O}_i]$，总Fisher矩阵可写为

\[\mathcal{F} = \mathbb{E}_{X \sim p_\theta} \left[ \tilde{\mathbf{\mathcal{O}}}(X) \tilde{\mathbf{\mathcal{O}}}(X)^T \right]\]

2.3 Kronecker-factored Approximate Curvature (KFAC)

理论很美好，但这个东西在工程上问题不小。如果模型有 $N$ 个参数，Fisher矩阵 $F$ 的大小就是 $N \times N$。计算 $F$ 的逆矩阵 $F^{-1}$ 的时间复杂度达 $O(N^3)$，内存消耗 $O(N^2)$，这在工程上是无法直接承受的。

下面介绍一下NGD的核心优化技术KFAC，具体来说其包含两个核心假设

假设一：层间独立假设

KFAC 认为，第 $l$ 层的参数和第 $l+1$ 层的参数，它们之间的二阶相关性可以忽略不计。这样一来，巨大的费舍尔矩阵 $F$ 就变成了一个分块对角矩阵。每一层对应一个独立的子块 $F_l$。
假设二：输入与梯度的克罗内克积近似

对于某一层，前向传播的输入（激活值）为 $a$，后向传播传回来的激活值梯度（损失对该层输出的导数）为 $s$。那么该层权重的梯度可以表示为 $g = s a^T$。

这一层的Fisher矩阵块 $F_l$ 本质上是：$F_l = \mathbb{E}[g g^T] = \mathbb{E}[(s a^T)(s a^T)^T]$ KFAC 提出了一个核心近似：假设前向的激活值 $a$ 和反向的梯度 $s$ 是统计独立的。基于这个独立性假设，期望的积可以拆分为积的期望（克罗内克积 $\otimes$）： $F_l \approx \mathbb{E}[a a^T] \otimes \mathbb{E}[s s^T] = A \otimes S$

克罗内克积的定义如下：$A \otimes B = \begin{bmatrix} a_{11}B & a_{12}B \\ a_{21}B & a_{22}B \end{bmatrix}$

注意到克罗内克积有一个独特的数学性质 $(A \otimes S)^{-1} = A^{-1} \otimes S^{-1}$

正是这个方程大大减少了整个求逆的计算量。也就是说把大矩阵的求逆看作是两个小矩阵的逆的克罗内克积。

具体到Ferminet中，我们单独考察 FermiNet 内部的某一个特定的线性全连接层（第 $l$ 层）。令该层的输入（即上一层的激活值）为单样本列向量 $a \in \mathbb{R}^{d_{\text{in}}}$，当前的权重矩阵为 $W \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$。该层在激活前的输出向量为 $s \in \mathbb{R}^{d_{\text{out}}}$：

\[e = W a\]

在反向传播过程中，定义损失函数（此处为波函数对数项）关于未激活输出 $s$ 的敏感度（一阶梯度）列向量为：

\[s = \nabla_e \log |\psi_\theta(X)| \in \mathbb{R}^{d_{\text{out}}}\]

根据多元微积分的一阶全微分形式，损失函数关于权重矩阵中任意单个元素 $W_{ij}$（第 $i$ 行，第 $j$ 列）的偏导数为：

\[\mathcal{O}_{W_{ij}} = \frac{\partial \log |\psi_\theta(X)|}{\partial W_{ij}} = \frac{\partial \log |\psi_\theta(X)|}{\partial e_i} \cdot \frac{\partial e_i}{\partial W_{ij}} = s_i \cdot a_j\]

也可以写成矩阵形式，它恰好构成敏感度向量 $e$ 与激活向量 $a$ 的外积：

\[\mathbf{\mathcal{O}}_W = s a^T \in \mathbb{E}^{d_{\text{out}} \times d_{\text{in}}}\]

根据线性代数性质 $\text{vec}(u v^T) = v \otimes u$，可将拉平后的整层梯度长向量写为：

\[\mathbf{\mathcal{O}}_{\text{vec}(W)} = \text{vec}(s a^T) = a \otimes s\]

考虑到未归一化波函数修正要求，我们对输入和反向梯度分别进行均值中心化：

\[\tilde{a} = a - \mathbb{E}_{X \sim p_\theta}[a], \quad \tilde{s} = s - \mathbb{E}_{X \sim p_\theta}[s]\]

该层权重对应的中心化梯度长向量便可以近似表示为：

\[\tilde{\mathbf{\mathcal{O}}}_{\text{vec}(W)} \approx \tilde{a} \otimes \tilde{s}\] \[\mathcal{F}_l \approx \mathbb{E}_{X \sim p_\theta} \left[ (\tilde{a} \otimes \tilde{s}) (\tilde{a} \otimes \tilde{s})^T \right]\]

根据克罗内克积的转置代数性质 $(A \otimes B)^T = A^T \otimes B^T$，上式可变形为：

\[\mathcal{F}_l \approx \mathbb{E}_{X \sim p_\theta} \left[ (\tilde{a} \otimes \tilde{s}) (\tilde{a}^T \otimes \tilde{s}^T) \right]\]

再引入克罗内克积与矩阵乘法的混合乘法性质，即 $(A \otimes B)(C \otimes D) = (AC) \otimes (BD)$。我们将期望符号内部的两项进行合并：

\[\mathcal{F}_l \approx \mathbb{E}_{X \sim p_\theta} \left[ (\tilde{a} \tilde{a}^T) \otimes (\tilde{s} \tilde{s}^T) \right]\]

根据KFAC核心假设二，前向激活值的协方差变动与反向敏感度的协方差变动在统计学上是近似独立的，即满足$\mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y]$，我们将期望算子推入克罗内克积的内部：

\[\mathcal{F}_l \approx \mathbb{E}_{X \sim p_\theta} \left[ \tilde{a} \tilde{a}^T \right] \otimes \mathbb{E}_{X \sim p_\theta} \left[ \tilde{s} \tilde{s}^T \right]\]

我们现在单独定义这两个拆分出来的、维度较小的自协方差矩阵：

\[\mathbf{A} = \mathbb{E}_{X \sim p_\theta} \left[ \tilde{a} \tilde{a}^T \right] = \mathbb{E}[a a^T] - \mathbb{E}[a]\mathbb{E}[a]^T \quad \in \mathbb{R}^{d_{\text{in}} \times d_{\text{in}}}\] \[\mathbf{S} = \mathbb{E}_{X \sim p_\theta} \left[ \tilde{s} \tilde{s}^T \right] = \mathbb{E}[s s^T] - \mathbb{E}[s]\mathbb{E}[s]^T \quad \in \mathbb{R}^{d_{\text{out}} \times d_{\text{out}}}\]

至此，原先大到无法计算的层级费希尔矩阵块 $\mathcal{F}_l$，被完美因式分解为两个小矩阵的克罗内克积：$\mathcal{F}_l \approx \mathbf{A} \otimes \mathbf{S}$

梯度下降因此可写为

\[\text{vec}(\Delta W) = - \eta \cdot \left( \mathbf{A}^{-1} \otimes \mathbf{S}^{-1} \right) \cdot \text{vec}(\nabla_W \mathcal{L})\]

利用恒等式

\[(A \otimes B) \cdot \text{vec}(C) = \text{vec}(B \cdot C \cdot A^T)\]

得到最终工程上的计算公式。

\[\Delta W = - \eta \cdot \mathbf{S}^{-1} \cdot (\nabla_W \mathcal{L}) \cdot \mathbf{A}^{-1}\]

当然真实的工程计算大概率还得再加一点细节，这里就点到为止。

3. 结果分析

这部分就不写了，神经网络这玩意懂得都懂，论文中肯定只会拿具有说服力的结果，自己对着论文复述一遍也没有意义。

不过不可否认的是这个网络本身的确具有很强的启发意义，通读一遍后自己收获不少。这也算是自己的第一篇论文精读笔记，希望能够坚持。

果然还是应该抓紧时间学习更多才行。

[1] 好吧，其实还是在复述。

密度泛函理论（DFT）

2026-05-23T19:30:00+08:00

密度泛函理论（DFT）应该算应用最广的量子力学数值计算方法了，在计算规模和精度上取得了不错的平衡（不像QMC大多数时候都只能算几十个原子），是学习计算凝聚态绕不过的一关。

60年前的理论应该还是很好看懂的吧，大概（。

1. Hohenberg-Kohn 定理

1.1 从波函数到电荷密度

量子多体的第一性原理是多体薛定谔方程，在Born-Oppenheimer近似下，一个包含 $N$ 个电子的非相对论的哈密顿量可写为：

\[\hat{H} = \hat{T} + \hat{V}_{ee} + \hat{V}_{ext}\]

具体展开长这样

\[\hat{H}_e = -\frac{1}{2} \sum_{i=1}^{N}\nabla_i^2 + \sum_{i < j}^{N} \frac{1}{|\mathbf{r}_i - \mathbf{r}_j|} + \sum_{i=1}^{N} v_{ext}(\mathbf{r}_i)\]

（因为懒所以）本文使用原子单位制（$\hbar = m_e = e = 1$）

注意到，如果一个系统有 $N$ 个电子，它的波函数 $\Psi(x_1, x_2, …, x_N)$ ^[1] 就有 $3N$ 个空间自由度。当电子数量增加时，计算量指数级爆炸。也就是大家喜闻乐见（并非）的指数墙（Exponential Wall）。

DFT的天才设想就是将这个$3N$维多电子波函数转化为$3$维的电荷密度 $n(r)$

\[n(r) = N \sum_{s_1} \int \dots \int |\Psi(r, s_1, x_2, x_3, \dots, x_N)|^2 dx_2 dx_3 \dots dx_N\]

不难看出这里的积分其实是全同性的体现，选择哪个变量做主元并不会有差别，前面乘以系数 $N$ 就行。

那么关键的问题其实是，这个看起来是从波函数中简化过来的东西，能不能和波函数一样告诉我们体系的物理量。这个想法听着就很大胆，但神奇的就是，系统的所有基态性质还真就是基态电子密度 $n(r)$ 的唯一泛函。

下面就来介绍一下DFT的基石，在1964年提出的 Hohenberg-Kohn 定理 ^[2]

1.2 HK 第一定理（唯一性定理）

Theorem 1：外势 $V_{ext}(r)$ 是基态电子密度 $n(r)$ 的唯一泛函（在相差一个常数项的意义下）。

唯一性定理大都异曲同工，先反证法起手。我们假设定理不成立。即假设存在两个本质上不同的外势 $V_{ext}^{(1)}(r)$ 和 $V_{ext}^{(2)}(r)$（即$V_{ext}^{(1)} - V_{ext}^{(2)} \neq \text{const}$），但它们经过薛定谔方程求解后，得到了完全相同的基态电子密度 $n(r)$。

这两个不同的外势对应两个不同的哈密顿量 $\hat{H}_1$ 和 $\hat{H}_2$。假设它们的基态波函数分别为 $\Psi_1$ 和 $\Psi_2$（这里先讨论非简并基态），对应的基态能量为 $E_1$ 和 $E_2$。根据薛定谔方程：

\[\hat{H}_1 \Psi_1 = E_1 \Psi_1\] \[\hat{H}_2 \Psi_2 = E_2 \Psi_2\]

由于 $\Psi_1$ 是 $\hat{H}_1$ 的唯一基态波函数，任何其他波函数在 $\hat{H}_1$ 下的能量期望值都必然严格大于 $E_1$。我们将 $\Psi_2$ 作为试探波函数代入 $\hat{H}_1$，理应有

\[E_1 < \langle \Psi_2 | \hat{H}_1 | \Psi_2 \rangle\]

由于 $\hat{H}1 = \hat{H}_2 + \hat{V}{ext}^{(1)} - \hat{V}_{ext}^{(2)}$，我们将上式展开：

\[E_1 < \langle \Psi_2 | \hat{H}_2 + \hat{V}_{ext}^{(1)} - \hat{V}_{ext}^{(2)} | \Psi_2 \rangle\] \[E_1 < \langle \Psi_2 | \hat{H}_2 | \Psi_2 \rangle + \langle \Psi_2 | \hat{V}_{ext}^{(1)} - \hat{V}_{ext}^{(2)} | \Psi_2 \rangle\]

因为 $\langle \Psi_2

\hat{H}_2

\Psi_2 \rangle = E_2$，且根据算符定义，外势能期望值可以用电子密度表示为 $\int n_2(r) V_{ext}(r) dr$。于是上式变为：

\[E_1 < E_2 + \int n_2(r) \left[ V_{ext}^{(1)}(r) - V_{ext}^{(2)}(r) \right] dr\]

同样的逻辑可以把符号调转一下得到

\[E_2 < E_1 + \int n_1(r) \left[ V_{ext}^{(2)}(r) - V_{ext}^{(1)}(r) \right] dr\]

由于我们假设这两个系统的基态电子密度是相同的，即 $n_1(r) = n_2(r) = n(r)$。将这个条件代入上述两个不等式

\[E_1 < E_2 + \int n(r) \left[ V_{ext}^{(1)}(r) - V_{ext}^{(2)}(r) \right] dr\] \[E_2 < E_1 + \int n(r) \left[ V_{ext}^{(2)}(r) - V_{ext}^{(1)}(r) \right] dr\]

两式左右分别相加

\[E_1 + E_2 < E_1 + E_2\]

因此直接得到初始的假设错误。结论成立：基态电子密度 $n(r)$ 与外势 $V_{ext}(r)$ 之间存在一一对应的映射关系。 而唯一能够区分不同物理系统（比如水分子 vs. 铁块）的，其实也只有外势 $V_{ext}(r)$。

由于外势唯一决定了哈密顿量^[3]，而哈密顿量决定了系统的所有性质，因此可以大胆说系统的各种基态性质都可以写成基态电子密度 $n(r)$ 的唯一泛函。例如对于能量

\[E[n] = T[n] + V_{ee}[n] + \int n(r)V_{ext}[n]dr\]

其中 $T[n]$ 是电子动能泛函，$V_{ee}[n]$ 是电子间的相互作用能泛函。

可喜可贺可喜可贺。但这个定理并没有告诉我们，如果给定外势 $V_{ext}(r)$，其对应的具体的电荷密度应该如何求出，为此还需要稍微更进一步。

1.3 HK 第二定理（变分原理）

Theorem 2：对于给定的外势 $V_{ext}(r)$，可以定义一个关于电子密度 $n(r)$ 的全能泛函 $E_v[n]$。当且仅当输入真实的基态电子密度 $n_0(r)$ 时，该泛函取得全局最小值，且极小值等于系统的真实基态能量 $E_0$。

根据Theorem 1，由于 $n(r)$ 唯一定义了系统的哈密顿量，它自然也唯一对应着基态波函数 $\Psi$。前面已经提到，系统的总能量泛函可以写为：

\[E[n] = T[n] + V_{ee}[n] + \int n(r)V_{ext}(r)dr\]

由于只有基态波函数和基态电荷密度有这种一一对应关系。现在，如果对于一个确定的外势 $V_{ext}(r)$，我们输入一个错误的、非基态的试探电子密度 $n’(r)$。根据第一定理，这个 $n’(r)$ 必然对应另一个不同的波函数 $\Psi’ = \Psi[n’]$。我们根据量子力学的传统变分原理，用错误的波函数 $\Psi’$ 去计算正确哈密顿量 $\hat{H}$ 的能量期望值，结果必然大于基态能量 $E_0$：

\[E_0 < \langle \Psi' | \hat{H} | \Psi' \rangle\]

也就是说，真实的基态电子密度 $n_0(r)$ 能够使能量泛函最小化。在实际计算中，只要对 $E[n]$ 进行泛函求导（满足电子数守恒条件 $\int n(r)dr = N$），即可解出真实的基态密度。^[4]

2. KS方程与交换相关能拟设

2.1 Kohn-Sham方程

在HK定理的讨论中，我们似乎通过一一对应的方式很自然地用起了动能 $\hat{T}$ 和电子排斥 $\hat{V}_{ee}$的泛函，但实际上我们还是没法显式地写出它们关于电荷密度$n$的直接表达式，依然只能用最朴素的定义

\[T[n] = -\frac{1}{2} \sum_{i=1}^N \int \Psi^*(x) \nabla_i^2 \Psi(x) dx\] \[V_{ee}[n] = \sum_{i < j}^{N} \int \Psi^*(x) \frac{1}{|\mathbf{r}_i - \mathbf{r}_j|} \Psi(x) dx\]

这肯定是没办法让人接受的，为了对方程做简化，我们尝试虚构一个完全没有相互作用的单粒子参考系统：

假设该系统包含 $N$ 个没有相互作用的非真实电子。
因为没有相互作用，该系统的全同多体波函数可以精确地写为一个斯莱特行列式 $\Phi_{KS}$，它由一组单粒子波函数 $\psi_i(r)$构成。^[5]
为了与真实体系对应，强加一个虚拟的有效势场 $V_{eff}(r)$，使得这个虚拟系统的基态电子密度，恰好等于真实体系的真实基态电子密度。

在这个体系下，电子密度可以由单粒子轨道直接模平方求和得到

\[n(r) = \sum_{i=1}^N |\psi_i(r)|^2\]

同时，单粒子轨道相当于系统的本征态，满足正交条件。

\[\int \psi_i^*(r) \psi_j(r) dr = \delta_{ij}\]

那么现在我们可以自然地写出这个系统的动能$T_s[n]$和电子相互能$E_H[n]$

\[T_s[n] = -\frac{1}{2} \sum_{i=1}^N \langle \psi_i | \nabla^2 | \psi_i \rangle = -\frac{1}{2} \sum_{i=1}^N \int \psi_i^*(r) \nabla^2 \psi_i(r) dr\] \[E_H[n] = \frac{1}{2} \iint \frac{n(r)n(r')}{|r - r'|} drdr'\]

这两项肯定会和真实系统有所差异，但我们可以把真实系统里所有“算不清、写不出纯密度公式”的尾巴强行扔进一个叫交换相关能（Exchange-Correlation Energy）的垃圾桶里，这也是整个DFT理论里最dirty的地方

\[E_{xc}[n] \equiv (T[n] - T_s[n]) + (V_{ee}[n] - E_H[n])\]

至此，真实系统的总能量泛函被改写为：$E[n] = T_s[n] + E_H[n] + \int n(r)V_{ext}(r)dr + E_{xc}[n]$

接下来，为了寻找让总能量最低的真实基态密度，我们需要对上述能量泛函进行变分。但由于 $T_s[n]$ 是通过轨道 $\psi_i(r)$ 表达的，我们需要直接对单粒子波函数 $\psi_i^*(r)$ 进行变分。

这部分推导有点烦人，skip

总之通过一通操作我们可以得到下面的单粒子轨道方程

\[\left[ -\frac{1}{2}\nabla^2 + V_{ext}(r) + V_H(r) + V_{xc}(r) \right] \psi_i(r) = \epsilon_i \psi_i(r)\]

其中

外部势场 $V_{ext}(r) = -\sum_{I=1}^M \frac{Z_I}{ r - R_I }$
Hartree势 $V_H(r) = \int \frac{n(r’)}{ r - r’ } dr’$
$V_{xc}(r) = \frac{\delta E_{xc}[n]}{\delta n(r)} = 不知道什么玩意$

不妨定义有效势场 $V_{eff}(r)$

\[V_{eff}(r) = V_{ext}(r) + V_H(r) + V_{xc}(r)\]

于是我们便得到了大名鼎鼎的 Kohn-Sham 单粒子方程^[6]

\[\boxed{ \left[ -\frac{1}{2}\nabla^2 + V_{eff}(r) \right] \psi_i(r) = \epsilon_i \psi_i(r) }\]

KS方程在1965年提出，是的没错，Kohn的两篇重量级论文之间只间隔了一年。

求解这些单粒子方程后，我们就可以近似得到整个真实体系的波函数。可喜可贺。

2.2 交换相关势

wait，我们显然不能把$V_{xc}(r)$视而不见，它直接来自我们凑出来的交换相关能$E_{xc}$。但由于$E_{xc}$包含了多个复杂效应（主要是交换能和相关能），导致甚至很难定性地给它一个描述。

但是没办法，这部分能量不能直接无视，只能硬着头皮去凑一个泛函出来。

在最经典的局域密度近似 LDA 中，我们假设，真实体系（如分子、晶体）中某一点 $r$ 的交换相关能，恰好等于一个拥有“相同电子密度”的均匀电子气在该密度下的交换相关能。

基于这个粗糙的假设，真实体系的 LDA 交换相关能泛函可以写成空间积分的形式

\[E_{xc}^{LDA}[n] = \int n(r) \epsilon_{xc}^{HEG}(n(r)) dr\]

$\epsilon_{xc}^{HEG}(n)$为每个电子在密度为 $n$ 的均匀电子气中所拥有的交换相关能。我们可以把交换（Exchange）和相关（Correlation）这两项量子效应拆开分别处理

\[E_{xc}^{LDA}[n] = \int n(r) \left[ \epsilon_x(n) + \epsilon_c(n) \right] dr\]

其中的交换能$\epsilon_x(n)$（又称 Dirac 交换能）是有解析形式的

\[\epsilon_x(n) = -\frac{3}{4} \left( \frac{3}{\pi} \right)^{1/3} n^{1/3}\]

而$\epsilon_c$只能靠数值拟合，1980年Cepeley用QMC解了均匀电子气的模型后，有人就把论文里离散的数据一通拟合得到了$\epsilon_c(n)$的经验方程。由此DFT才得以真正使用。

接着后人还慢慢发明出GGA、meta-GGA等形式的交换相关能拟设，求解精度确实是在上升，但具体是怎么上升的你就别问了（

3. 自洽场（SCF）循环

如果你还没有被前面一堆逻辑看上去没什么毛病的式子给糊弄过去，并真正打算动手算算看，你就会发现你还是没法开始。倒不是方程有问题，而是这玩意是耦合在一起的。

你想算出虚拟的单粒子波函数 $\psi_i(r)$，给我先算有效势 $V_{eff}(r)$。
你想算有效势 $V_{eff}(r)$ ，给我先算电子密度 $n(r)$。
你想算电子密度 $n(r)$？很简单，$n = \sum \psi_i ^2$，气笑了。

但说实在这也不是不能做，先猜个解然后慢慢迭代等收敛什么的也就是家常便饭。最不过脑子的设想是下面这样的

Ⅰ.初始化固定项

输入原子坐标，生成不变的外势 $V_{ext}(r)$。
基组展开：先随便猜几个单电子波函数，一般会用已知基函数（高斯或平面波）的线性组合：$\psi_i = \sum_\mu C_{\mu i} \phi_\mu$。
生成初始电子密度$n_{0}(r)$

Ⅱ.开始迭代

获取本轮输入密度 $n_{in}$
计算有效势 $V_{eff}$
计算KS方程，解得新的一组波函数基底${\psi_i}$
计算新的电荷密度作为下一轮输入$n_{out}$

大体的思路其实没问题，但是结果会不会收敛是未知数，大概率最后会反复横跳。工业上（数值模拟软件）采用的规范的自洽场求解方式大概是下面这样

一、初始化与基组展开

确定系统哈密顿量的固定项：输入原子核坐标 ${\vec{R}_I}$ 和外场，直接构建不变的外势：

\[V_{ext}(\vec{r}) = -\sum_{I} \frac{Z_I}{|\vec{r} - \vec{R}_I|}\]

波函数的基组展开：将未知的虚拟单粒子波函数 $\psi_i(\vec{r})$ 用一组已知的基函数（基础波） $\phi_\mu(\vec{r})$ 进行线性组合展开：

\[\psi_i(\vec{r}) = \sum_{\mu=1}^{M} C_{\mu i} \phi_\mu(\vec{r})\]

计算重叠矩阵 $S$：计算基函数之间的非正交重叠程度：

\[S_{\mu\nu} = \int \phi_\mu^*(\vec{r}) \phi_\nu(\vec{r}) d\vec{r}\]

二、 SCF 迭代

生成初始/当前电子密度 $n^{(k)}(\vec{r})$

第 1 步循环 ($k=1$)：通过孤立原子电荷密度的线性叠加（SAD）生成一个初始密度 $n^{(1)}(\vec{r})$。
后续循环 ($k>1$)：使用上一步经由混合算法优化后得到的输入密度 $n_{in}^{(k)}(\vec{r})$。

利用当前的电子密度 $n^{(k)}(\vec{r})$，在空间网格上计算当前轮次的有效势能：

\[V_{eff}^{(k)}(\vec{r}) = V_{ext}(\vec{r}) + \int \frac{n^{(k)}(\vec{r}')}{|\vec{r} - \vec{r}'|} d\vec{r}' + V_{xc}[n^{(k)}(\vec{r})]\]

随后，计算哈密顿矩阵的每一个矩阵元（包含动能矩阵 $T$ 和势能矩阵 $V$）：

\[H_{\mu\nu}^{(k)} = \int \phi_\mu^*(\vec{r}) \left[ -\frac{1}{2}\nabla^2 + V_{eff}^{(k)}(\vec{r}) \right] \phi_\nu(\vec{r}) d\vec{r}\]

KS 方程是偏微分方程，为了数值上能快速求解，将其转化为广义矩阵特征值问题（Roothaan-Hall 方程形式）：

\[\mathbf{H}^{(k)} \mathbf{C}^{(k)} = \mathbf{S} \mathbf{C}^{(k)} \mathbf{E}^{(k)}\]

求解完成后，挑选出能量最低的 $N$ 个占据态单粒子轨道（就是对应着整个费米子体系的基态），重新组合计算出这一轮对角化自发产生的输出电荷密度：

\[n_{out}^{(k)}(\vec{r}) = \sum_{i=1}^{N_{occ}} f_i \left| \sum_{\mu=1}^{M} C_{\mu i}^{(k)} \phi_\mu(\vec{r}) \right|^2\]

同时，根据当前的 $n_{out}^{(k)}$ 算得当前步的系统总能量 $E^{(k)}$。

每次循环后，计算当前步与上一步的残差。只有当能量变化和电荷密度残差同时小于阈值时，循环才允许终止：

能量判据：$\Delta E = E^{(k)} - E^{(k-1)} < 10^{-6} \text{ eV}$
密度判据：$\Delta n = \int n_{out}^{(k)}(\vec{r}) - n_{in}^{(k)}(\vec{r}) d\vec{r} < 10^{-5}$

如果满足条件就退出循环。但如果不满足条件，不能直接将 $n_{out}^{(k)}$ 代入第 $k+1$ 步。需要调用一些额外的算法生成平滑的 $n_{in}^{(k+1)}$。比如将本轮的输入与输出进行线性加权。

\[n_{in}^{(k+1)} = \alpha n_{out}^{(k)} + (1-\alpha) n_{in}^{(k)}\]

又或者可以参考前 $M$ 步（通常 $M=5\sim8$）的历史轨迹。这部分有点类似机器学习的Optimizer，可以有多种选取形式。^[7]

初学者需要了解的内容应该不会超出这些了吧，大概（

那么，以上。

[1] $x_i = (r_i, s_i)$ 是一个复合坐标，包含自旋坐标 $s_i$。

[2] P. Hohenberg and W. Kohn, “Inhomogeneous Electron Gas,” Phys. Rev. 136, B864 (1964).

[3]其实还有一个变量即电子数$N$，但这个同样可由电荷密度直接得到$N = \int n(r) dr$

[4]这里的论证忽略了简并，但我懒得写了，感兴趣的可以查查看，至少核心结论是不会变的。

[5]形式上很像HF方法，但两个模型差异还是很大的。

[6]W. Kohn and L. J. Sham, “Self-Consistent Equations Including Exchange and Correlation Effects,” Phys. Rev. 140, A1133 (1965).

[7]也由此显得有些不靠谱

量子蒙特卡洛（QMC）

2026-05-22T09:30:00+08:00

当前计算凝聚态物理中QMC是非常常用的第一性原理计算方法之一（其他还包括密度泛函理论DFT等，之后肯定会写），当今QMC领域与前沿机器学习方法有许多交叉，不过这篇文章将主要以介绍传统概念为主。

Ⅰ. 第一性原理（Ab initio）

1. 多体薛定谔方程

计算凝聚态领域，第一性原理的源头自然就是多体薛定谔方程，一个由 $M$ 个原子核（每个原子核电荷量为 $Z_I e$，质量为 $M_I$）和 $N$ 个电子（每个电子电荷量为 $-e$，质量为 $m_e$）组成的系统，其完整的非相对论哈密顿量由 5 个部分组成：

\[\hat{H} = \hat{T}_n + \hat{T}_e + \hat{V}_{n-n} + \hat{V}_{e-e} + \hat{V}_{n-e}\]

具体数学形式如下：

\[\hat{H} = -\sum_{I=1}^{M} \frac{\hbar^2}{2M_I} \nabla_I^2 - \sum_{i=1}^{N} \frac{\hbar^2}{2m_e} \nabla_i^2 + \sum_{I < J}^{M} \frac{Z_I Z_J e^2}{4\pi\varepsilon_0 |\mathbf{R}_I - \mathbf{R}_J|} + \sum_{i < j}^{N} \frac{e^2}{4\pi\varepsilon_0 |\mathbf{r}_i - \mathbf{r}_j|} - \sum_{i=1}^{N}\sum_{I=1}^{M} \frac{Z_I e^2}{4\pi\varepsilon_0 |\mathbf{r}_i - \mathbf{R}_I|}\]

一般具体问题中我们都可以采Born-Oppenheimer近似，将原子核动能项 $\hat{T}n$ 设为 0，并将核-核排斥项 $\hat{V}{n-n}$ 视为一个常数，其电子哈密顿量简化为：

\[\hat{H}_e = -\sum_{i=1}^{N} \frac{\hbar^2}{2m_e} \nabla_i^2 + \sum_{i < j}^{N} \frac{e^2}{4\pi\varepsilon_0 |\mathbf{r}_i - \mathbf{r}_j|} + \sum_{i=1}^{N} v_{ext}(\mathbf{r}_i)\]

其中 $v_{ext}(\mathbf{r}i) = -\sum{I=1}^{M} \frac{Z_I e^2}{4\pi\varepsilon_0

\mathbf{r}_i - \mathbf{R}_I

}$ 为电子感受到的外势场。

2. Hartree-Fock Method

哈特里-福克方法（HF 方法）是求解多体薛定谔方程最经典的第一性原理近似方法。为了解开多电子体系乱七八糟的薛定谔方程，做出了几个物理假设：

单粒子近似

整个体系的多体波函数，可以拆解为由一个个独立的单电子波函数（轨道 $\psi_i$）组合而成。
Slater行列式

多体波函数的形式为单个Slater行列式

\[\Psi(\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N) = \frac{1}{\sqrt{N!}} \begin{vmatrix} \psi_1(\mathbf{x}_1) & \psi_2(\mathbf{x}_1) & \cdots & \psi_N(\mathbf{x}_1) \\ \psi_1(\mathbf{x}_2) & \psi_2(\mathbf{x}_2) & \cdots & \psi_N(\mathbf{x}_2) \\ \vdots & \vdots & \ddots & \vdots \\ \psi_1(\mathbf{x}_N) & \psi_2(\mathbf{x}_N) & \cdots & \psi_N(\mathbf{x}_N) \end{vmatrix}\]

由此可以写出能量表达式 $E = \int \Psi^*(\mathbf{x}_1, \mathbf{x}_2,...,\mathbf{x}_N) \hat{H}_e \Psi(\mathbf{x}_1, \mathbf{x}_2,...,\mathbf{x}_N) d^N\mathbf{x}$

对单个单电子波函数作变分 $\frac{\delta E}{\delta \psi_i} = 0$

可以得到单电子波函数的HF方程 $\hat{f} \psi_i(\mathbf{x}) = \varepsilon_i \psi_i(\mathbf{x})$

这里 $\varepsilon_i$ 是该轨道的单粒子能量，而 $\hat{f}$ 称为 Fock算符，其完整展开形式为：

\[\hat{f} = -\frac{\hbar^2}{2m_e}\nabla^2 + v_{ext}(\mathbf{r}) + \hat{J} - \hat{K}\]

其中前两项是传统单电子物理项，后两项分别体现了多电子的平均场近似和交换反对称性的等效排斥效应

平均场近似项

\[\hat{J}\psi_i(\mathbf{x}_1) = \left( \sum_{j=1}^{N} \int \frac{e^2 |\psi_j(\mathbf{x}_2)|^2}{4\pi\varepsilon_0 |\mathbf{r}_1 - \mathbf{r}_2|} d\mathbf{x}_2 \right) \psi_i(\mathbf{x}_1)\]

不难看出它把其他电子看作一团连续的静止电荷云，计算当前电子在这团电荷云中受到的排斥力。

交换项

\[\hat{K}\psi_i(\mathbf{x}_1) = \left( \sum_{j=1}^{N} \int \frac{e^2 \psi_j^*(\mathbf{x}_2) \psi_i(\mathbf{x}_2)}{4\pi\varepsilon_0 |\mathbf{r}_1 - \mathbf{r}_2|} d\mathbf{x}_2 \right) \psi_j(\mathbf{x}_1)\]

这一项在空间中拉开相同自旋电子之间的距离，可以说就是由于交换反对称性体现的等效排斥效应。

个人理解是，如果说薛定谔方程本身是在受限（交换反对称性限制）的希尔伯特空间寻找本征解，那么HF近似的本质，可以看作是在空间的一个子集（单行列式）里寻找最优解。这种方法确实可以找到一个基态的近似，但其他凑出来的非基态解就显得没什么用。

咳咳，好了以上其实和QMC没什么关系）））只是一点背景介绍，总之QMC的直接拟合目标就是多体系统的波函数$ \Psi $，而主要实现思路则有变分蒙特卡洛和扩散蒙特卡洛两种。

Ⅱ. 变分蒙特卡洛（VMC）

1. 基本原理

首先我们肯定知道，试探波函数 $\Psi(\mathbf{R}; \boldsymbol{\alpha})$（这里波函数并不一定归一化，因为高维空间求归一化因子本身很耗算力）它关于系统哈密顿量 $\hat{H}$ 的能量期望值 $E(\boldsymbol{\alpha})$，永远大于或等于系统的基态能量 $E_0$：

\[E(\boldsymbol{\alpha}) = \frac{\langle \Psi(\boldsymbol{\alpha}) | \hat{H} | \Psi(\boldsymbol{\alpha}) \rangle}{\langle \Psi(\boldsymbol{\alpha}) | \Psi(\boldsymbol{\alpha}) \rangle} \ge E_0\]

$\boldsymbol{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_m)$ 是变分参数（例如轨道指数、Jastrow因子的参数，现代方法已经有模型开始使用神经网络权重）。

所以目标自然就是寻找一组最优参数 $\boldsymbol{\alpha}^*$，使得 $E(\boldsymbol{\alpha})$ 最小，这件事和神经网络梯度下降本身非常的相似。甚至损失函数就是能量本身，非常典型的无监督学习。

如果直接去写上述期望值的坐标表象积分，我们会得到：

\[E(\boldsymbol{\alpha}) = \frac{\int \Psi^*(\mathbf{R}; \boldsymbol{\alpha}) \hat{H} \Psi(\mathbf{R}; \boldsymbol{\alpha}) d\mathbf{R}}{\int |\Psi(\mathbf{R}; \boldsymbol{\alpha})|^2 d\mathbf{R}}\]

进行一个简单的代数变换

\[E(\boldsymbol{\alpha}) = \int \left( \frac{|\Psi(\mathbf{R}; \boldsymbol{\alpha})|^2}{\int |\Psi(\mathbf{R}'; \boldsymbol{\alpha})|^2 d\mathbf{R}'} \right) \cdot \left( \frac{\hat{H} \Psi(\mathbf{R}; \boldsymbol{\alpha})}{\Psi(\mathbf{R}; \boldsymbol{\alpha})} \right) d\mathbf{R}\]

现在，这个公式可以拆为两部分：

A. 概率密度函数 (PDF)

\[P(\mathbf{R}) = \frac{|\Psi(\mathbf{R}; \boldsymbol{\alpha})|^2}{\int |\Psi(\mathbf{R}'; \boldsymbol{\alpha})|^2 d\mathbf{R}'}\]

B. 局部能量 (Local Energy)

定义一个算符作用于波函数后的比值函数，称为局部能量 $E_L(\mathbf{R})$：

\[E_L(\mathbf{R}) = \frac{\hat{H} \Psi(\mathbf{R}; \boldsymbol{\alpha})}{\Psi(\mathbf{R}; \boldsymbol{\alpha})}\]

最终，我们的奖励函数，也就是能量期望值可以换个角度理解为局部能量在概率分布 $P(\mathbf{R})$ 下的期望：

\[E(\boldsymbol{\alpha}) = \int P(\mathbf{R}) E_L(\mathbf{R}) d\mathbf{R} = \langle E_L \rangle_P\]

2. 蒙特卡洛积分与马尔可夫链采样

有了上述期望值形式，利用蒙特卡洛方法，将高维积分转化为随机采样求和：

\[E(\boldsymbol{\alpha}) \approx \bar{E} = \frac{1}{M} \sum_{i=1}^M E_L(\mathbf{R}_i)\]

当采样数 $M \to \infty$ 时，统计平均值 $\bar{E}$ 趋近于真实的期望值 $E(\boldsymbol{\alpha})$。其统计误差（标准差）为 $\sigma / \sqrt{M}$。

由于我们不知道 $P(\mathbf{R})$ 分母上的归一化常数（即那个高维积分本身），可以采用Metropolis 算法来构造马尔可夫链，使得采样点walker的分布正好符合波函数概率密度的分布

\[A(\mathbf{R} \to \mathbf{R}') = \min\left(1, \frac{P(\mathbf{R}')}{P(\mathbf{R})}\right) = \min\left(1, \frac{|\Psi(\mathbf{R}'; \boldsymbol{\alpha})|^2}{|\Psi(\mathbf{R}; \boldsymbol{\alpha})|^2}\right)\]

即通过随机游走，计算游走前后的波函数概率相对值，若相对值大于1，则接受新状态 $\mathbf{R} \to \mathbf{R}’$；否则以概率$ \frac{

\Psi(\mathbf{R}’; \boldsymbol{\alpha})

^2}{

\Psi(\mathbf{R}; \boldsymbol{\alpha})

^2} $接受新状态$\mathbf{R} \to \mathbf{R}’$。

接下来的思路很简单，对能量进行参数空间${\alpha_i}$进行梯度下降即可，具体的方法则和拟设的波函数形式有关，而如何拟设恰恰是VMC最大的问题。

3. 如何拟设（ansatz）

不难发现，VMC理想很美好，但是最大的问题就是，其能达到的精度上限完全由拟设的质量决定，而我们根本没办法写出一个完美的拟设函数形式$\Psi(\mathbf{R}; \boldsymbol{\alpha})$，只能在一些经验凑出的参数空间里强行拟合。

神经网络这种靠暴力堆参数的我们先暂且不谈，来介绍几个相对合理且常用的拟设形式。

一个好的拟设起码需要满足三个基本要求：满足费米子反对称性、满足尖峰条件（Cusp Conditions）、并且能高效计算波函数的值及其一阶和二阶导数（用于动能计算）。

A. Slater-Jastrow Ansatz

这算是 VMC 中最经典、应用最广泛的拟设。它的数学核心是将描述单粒子行为的Slater行列式与描述电子间关联的Jastrow因子相乘。

\[\Psi_{\text{SJ}}(\mathbf{R}) = \mathcal{J}(\mathbf{R}) \sum_{m=1}^{N_{det}} c_m D_m^{\uparrow}(\mathbf{R}_{\uparrow}) D_m^{\downarrow}(\mathbf{R_\downarrow})\]

Slater Determinant一般是用多行列式的线性叠加，其内部的单电子波函数$ \psi_i $一般通常预先通过HF方程或密度泛函理论（DFT）计算得到，其基组可以是高斯基（分子系统）或平面波基（周期性固体）。

由于行列式忽略了电子间的即时排斥。我们通过Jastrow 因子用来强行引入电子关联。最常用的形式是：

\[\mathcal{J}(\mathbf{R}) = \exp \left( \sum_{i} \chi(\mathbf{r}_i) + \sum_{i

一体项 $\chi(\mathbf{r}_i)$：电子-原子核关联，用于微调原子附近的电子密度。

**二体项 $u(\mathbf{r}{ij})$：电子-电子关联。它的数学形式（如 Pade 近似）被精心设计，用以显式满足尖峰条件**（当 $r{ij} \to 0$ 时消除库仑势能的发散）。

三体项 $f_I$：电子-电子-原子核三体关联，提供更高级的微调。

对应的变分参数通常是多项式展开的系数。

B. 强关联系统：Jastrow-Slater-Backflow ansatz

在电子密度很高或强关联的系统（如液氦-3、均匀电子气或超导材料）中，电子的运动会引起周围电子海的集体屏蔽，单个电子就像包裹着一层乌云（准粒子）。传统的固定轨道行列式无法很好地描述这种现象。回流拟设（Backflow Ansatz）可以一定程度解决这个问题，但由于自己也不太懂，这里就不乱写了。

Ⅲ. 扩散蒙特卡洛（DMC）

1.基本原理

相比VMC的简单粗暴，DMC的想法要天才得多，对于求解含时薛定谔方程（取$\hbar=1$ ） $i\frac{\partial \Psi(\mathbf{R}, t)}{\partial t} = \hat{H}\Psi(\mathbf{R}, t)$

把时间替换为虚时间 $\tau = it$，含时薛定谔方程变成

\[-\frac{\partial \Psi(\mathbf{R}, \tau)}{\partial \tau} = \left(\hat{H} - E_T\right)\Psi(\mathbf{R}, \tau)\]

其中 $E_T$ 是一个常数偏移（试探能量值，相当于选取一个基态能量，对原薛定谔方程本身没什么影响）。则理论上通解可以写作

\[\Psi(\mathbf{R}, \tau) = e^{-(\hat{H} - E_T)\tau}\,\Psi(\mathbf{R}, 0) = \sum_n c_n\,e^{-(E_n - E_T)\tau}\,\psi_n(\mathbf{R}).\]

这就很有意思了，因为可以发现虚时间演化本质上是一个过滤器。如果选取$E_T=E_0$，当 $\tau \to \infty$，所有激发态（$E_n > E_0$）相对基态以 $e^{-(E_n - E_0)\tau}$ 的速率指数衰减；只要初态与基态不正交（$c_0 \neq 0$），剩下的就只有基态分量$\psi_0$。用蒙特卡洛的视角，似乎只要让一堆随机选取的walker采样点在这个方程下自由演化，就能得到我们需要的基态波函数了。（当然肯定是不可能让你捡这么大便宜的，还是要对NP-hard有基本的尊重）

具体一点，现在的演化方程形式为

\[\frac{\partial \Psi(\mathbf{R}, \tau)}{\partial \tau} = \underbrace{\frac{1}{2}\nabla^2 \Psi}_{\text{扩散项}} - \underbrace{\bigl[V(\mathbf{R}) - E_T\bigr]\Psi}_{\text{分支项}}.\]

形式上就是一个自带源/汇的扩散方程

数学项	随机过程对应
$\tfrac{1}{2}\nabla^2 \Psi$	扩散：高斯随机游走，扩散系数 $D = 1/2$
$-(V - E_T)\Psi$	分支：walker 按 $V(x) > E_T$ 处死亡、$V(x) < E_T$ 处复制

注意 $\Psi$ 必须是正的才能把walker的分布解释为波函数分布。对玻色子基态这天然成立（基态无节点），对费米子就显然不可能了，这就是DMC最致命的符号问题，绕不开的大坑，后面再讲。

2.演化过程

精确的演化算子 $e^{-(\hat{H} - E_T)\Delta\tau}$ 没法直接计算，但当选取小步长$\Delta\tau$ ，可以用 Trotter 分解（一阶）：

\[e^{-(\hat{T} + \hat{V} - E_T)\Delta\tau} \approx e^{-\hat{T}\Delta\tau}\, e^{-(\hat{V} - E_T)\Delta\tau} + \mathcal{O}(\Delta\tau^2).\]

两个因子各自有具体的物理意义，对应的格林函数是：

扩散部分

\[G_{\text{diff}}(x \to x'; \Delta\tau) = \frac{1}{\sqrt{2\pi\Delta\tau}}\,\exp\!\left[-\frac{(x'-x)^2}{2\Delta\tau}\right].\]

也就是步长服从 $\mathcal{N}(0, \sqrt{\Delta\tau})$ 的高斯随机游走。

分支部分

\[w= G_{\text{branch}}(x; \Delta\tau) = \exp\!\bigl[-(V(x) - E_T)\,\Delta\tau\bigr].\]

权重$w$的具体含义就是此处的walker密度流需要以权重$w$进行膨胀或收缩，每个 walker 携带这个权重，为了避免权重方差爆炸，把它转换成离散的复制数：

\[m = \lfloor w + u \rfloor,\quad u \sim \mathcal{U}(0, 1).\]

$m = 0$：walker 消亡；
$m = 1$：保留；
$m \geq 2$：分裂为 $m$ 份。

期望复制数 $\langle m \rangle = w$，与连续权重一致。

如果 $E_T = E_0$，walker 总数的期望随时间不变；偏离时 walker 数会指数爆炸或灭绝。实际算法用反馈机制把总数稳定在目标值 $N_{\text{target}}$：

\[E_T \leftarrow \langle V \rangle_{\text{walkers}} \;-\; \alpha\,\ln\!\left(\frac{N}{N_{\text{target}}}\right),\]

其中 $\alpha$ 是自定义的反馈强度。如果$N$能保持稳定，理论上收敛后 $E_T$ 的时间平均就是基态能量 $E_0$ 的估计。

3.负符号问题和固定节点近似

不难注意到两个小问题，一是DMC的数学讨论似乎都没有设计到交换反对称性。这意味着如果真让它自然演化，最终剩下来的只会是能量更低的玻色子基态而不是我们需要的费米子基态。

另一个则是前面提到的符号问题，看起来，似乎简单地给walker带一个“+1”或者“-1”的符号标签就可以解决问题。确实如此，但当我们最后计算某个物理量 $O$ 的期望值时，我们需要做如下统计：$\langle \hat{O} \rangle = \frac{\int \Psi^+ \hat{O} d\mathbf{R} - \int \Psi^- \hat{O} d\mathbf{R}}{\int \Psi^+ d\mathbf{R} - \int \Psi^- d\mathbf{R}} = \frac{\langle \hat{O} \rangle_+ - \langle \hat{O} \rangle_- \cdot z}{1 - z}$

其中 $z = \frac{\int \Psi^- d\mathbf{R}}{\int \Psi^+ d\mathbf{R}}$ 是正负符号的重叠度。而费米子独特的交换反对称告诉我们其波函数正负符号的walker数期望值一定是完全相同的，这意味着分母的$1-z$会相当的小，由此得到的期望值信噪比将会非常高，几乎没法得到一个合理的统计值。

这两个问题的本质其实是一样的，因为费米子的基态波函数独特的交换反对称必然导致有多个区域是完全等价的，因此全局的统计完全可以转化为对单个区域的统计，整个空间的波函数可以通过这单个“格子”扩展出来。同时这样拓展出的波函数也能自然满足交换反对称。

于是所有问题的核心就是如何找到不同区域间的节点面，显然节点面为基态的零点，满足方程

\[\Psi_0(\mathbf{R})=0\]

一般的做法是利用VMC或者DFT求出一个试探解，把试探解的节点面当作真正节点面进行DMC演化得到最终解。如果节点面完全准确，那么理论上演化得到的答案是没有误差的，因此可以认为DMC的误差完全来源于节点面选取的精确程度。

Ⅳ. 实例：QMC求解均匀电子气模型

作为QMC最经典的工作之一，让我们来欣赏一下Cepeley发表在1980年PRL的代表性文章《Ground State of the Electron Gas by a Stochastic Method》

1.均匀电子气模型

先简单做一些背景介绍，在真实的金属中电子不仅受到相互之间的库仑排斥，还受到周期性排列、具有吸引力的原子核的拉扯。这种非均匀的环境让多体薛定谔方程几乎很难求解。

均匀电子气模型（jellium）把真实金属中的原子核简化为一团均匀分布的正电荷背景，只保留电子之间的库仑相互作用和电子的量子动能。

具体地说，把 $N$ 个点电荷电子放在体积 $V$ 中，再叠加一团均匀正电荷背景 $n_+(\mathbf r) = n = N/V$ 保证全局电中性。Hartree 原子单位（$e = m_e = \hbar = 1$）下：

\[\hat H \;=\; \hat T \;+\; \hat V_{ee} \;+\; \hat V_{eb} \;+\; \hat V_{bb}\]

四项分别是：

项	表达式	物理含义
动能	$\hat T = -\dfrac{1}{2}\sum_{i=1}^N \nabla_i^{2}$	电子量子动能
电-电	$\hat V_{ee} = \dfrac{1}{2}\sum_{i\ne j}\dfrac{1}{\lvert\mathbf r_i - \mathbf r_j\rvert}$	电子两两排斥
电-背景	$\hat V_{eb} = -\sum_i \displaystyle\int_V d^3r’\,\dfrac{n}{\lvert\mathbf r_i - \mathbf r’\rvert}$	每个电子被背景吸引
背景-背景	$\hat V_{bb} = \dfrac{1}{2}\displaystyle\int_V d^3r\,d^3r’\,\dfrac{n^2}{\lvert\mathbf r - \mathbf r’\rvert}$	背景自能

如果$n$为常数，后面三个势能项在 $V\to\infty$ 时都是发散的，但数学上可以证明三项的和是收敛的。

\[\lim_{V\to\infty}\bigl(\hat V_{ee} + \hat V_{eb} + \hat V_{bb}\bigr) \;=\; \text{有限}\]

但具体数值计算我们不能硬着头皮用这个式子，在数值计算中，我们一般也不会在全空间进行采样，而是在 $L^3$ 立方盒子里用 周期边界条件 模拟无限大。此时的总静电能（对所有盒子求和）是

\[V_{\text{tot}} \;=\; \frac{1}{2}\sum_{i,j}\sum_{\mathbf n}{}'\,\frac{1}{\lvert\mathbf r_i - \mathbf r_j + \mathbf n L\rvert} \;-\; N\!\sum_{\mathbf n}\!\int_{V_{\text{cell}}}\!\frac{n}{\lvert\mathbf r - \mathbf r'\rvert}d^3r' \;+\; \frac{N^2}{2}\sum_{\mathbf n}\!\iint\!\frac{n^2}{\lvert\mathbf r - \mathbf r'\rvert}d^3r\,d^3r'\]

撇号意思是排除自相互作用 ${i=j, \mathbf n = 0}$。

数学上一通推导可以得到下面这个收敛的哈密顿量形式

\[\boxed{\;\hat H \;=\; -\frac{1}{2}\sum_i \nabla_i^{\,2} \;+\; \frac{1}{2}\sum_{i\ne j} v_E(\mathbf r_i - \mathbf r_j) \;+\; \frac{N}{2}\,v_M\;}\]

所有单粒子-单粒子（包括所有镜像、背景一切）的有效相互作用合并为Ewald 对势 $v_E(\mathbf r)$

\[{\;v_E(\mathbf r) \;=\; \sum_{\mathbf n}\frac{\operatorname{erfc}(\alpha\lvert\mathbf r + \mathbf n L\rvert)}{\lvert\mathbf r + \mathbf n L\rvert} \;+\; \frac{4\pi}{V}\sum_{\mathbf k\ne 0}\frac{e^{-k^2/4\alpha^2}}{k^2}\cos(\mathbf k\!\cdot\!\mathbf r)\;}\]

电子与自身镜像（$i=j$ 但 $\mathbf n\ne 0$）的作用 + 与背景的零模贡献，记作Madelung 自像常数 $v_M$，对简单立方 Bravais 格子，这个数值化解出

\[v_M \;=\; -\xi_{sc}/L, \qquad \xi_{sc} = 2.8372974795\ldots\]

有了这个形式后，我们不难对模型进行一些定性的分析。选取一个无量纲数$r_s$来刻画电子密度

\[r_s \;=\; \left(\frac{3}{4\pi n}\right)^{1/3}, \qquad n = \frac{N}{L^3}\]

它就是每个电子占据体积的等效 Wigner-Seitz 半径，单位是 Bohr。

如果取两个极限，会发现均匀电子气存在相变现象

$r_s$ 极小：电子极密，相互拥挤，根据海森堡不确定性原理，电子动能巨大（动能 $\propto 1/r_s^2$），相互作用可以忽略不计，方程退化为自由费米子理想方程，其数学解为平面波行列式。

$r_s$ 极大：电子极稀，动能衰减极快，电子间的即时库仑排斥能（势能 $\propto 1/r_s$）主导系统，其数学解为空间离散位置的 $\delta$ 函数（即Wigner晶体相）

而二者间具体发生了什么事情，就需要我们的QMC来帮忙一探究竟了。

2.改进的DMC算法

相比起前面的DMC一般方程，论文中使用了重要性采样（Importance Sampling）方法。引入试探波函数 $\Psi_T$ 引导采样，令 $f(\mathbf{R}, \tau) = \Psi_T(\mathbf{R})\Psi(\mathbf{R}, \tau)$，对原DMC演化方程两边同乘 $\Psi_T$，可以把方程变形为如下形式

\[\frac{\partial f}{\partial \tau} = \frac{1}{2}\nabla^2 f - \nabla \cdot \big[\mathbf{V}_D(\mathbf{R}) f\big] - \big[E_L(\mathbf{R}) - E_T\big] f\]

改进后的方程引入了漂移项（$-\nabla \cdot [\mathbf{V}_D f]$），等效为引入了一个由 $\Psi_T$ 漂移力

\[\mathbf{V}_D(\mathbf{R}) = \nabla \ln |\Psi_T(\mathbf{R})|^2 = \frac{2\nabla \Psi_T(\mathbf{R})}{\Psi_T(\mathbf{R})}\]

直观理解，这个力可以把 Walker 从节面（$\Psi_T=0$）处推开，并引导它们高效走向高概率区。也就是说$\Psi_T(\mathbf{R})$的形式其实直接决定了最重要的固定节点面（$\Psi_T(\mathbf{R})=0$），同时合适的试探解$\Psi_T(\mathbf{R})$能够加速算法的收敛速度。

3. 拟设形式与计算结论

论文中试探解$\Psi_T(\mathbf{R})$来自VMC的初步迭代，采用的是经典的Slater-Jastrow Ansatz

\[\Psi_{\text{SJ}}(\mathbf{R}) = \mathcal{J}(\mathbf{R}) \sum_{m=1}^{N_{det}} c_m D_m^{\uparrow}(\mathbf{R}_{\uparrow}) D_m^{\downarrow}(\mathbf{R_\downarrow})\]

理论上随着$r_s$的变化，均匀电子气会经历三个相变过程

Jastrow因子在不同的相中大同小异，Slater多项式里的单电子波函数的形式才是相变的根本差异。为了拟合出论文中不同相的基态能量（顺磁费米流体 $E_{\text{PMF}}$、铁磁费米流体 $E_{\text{FMF}}$、维格纳晶体 $E_{\text{bcc}}$、以及用于对比的玻色流体 $E_{\text{BF}}$），必须为每一个相量身定制不同的试探波函数 $\Psi_T(\mathbf{R})$。

在戴维·塞珀利（David Ceperley）1980年的那篇划时代论文中，为了分别计算出四个不同的相（顺磁费米流体 $E_{\text{PMF}}$、铁磁费米流体 $E_{\text{FMF}}$、玻色流体 $E_{\text{BF}}$、以及维格纳晶体 $E_{\text{bcc}}$）的基态能量，他必须为每一个相量身定制不同的试探波函数 $\Psi_T(\mathbf{R})$。

顺磁费米流体（$\Psi_T^{\text{PMF}}$）：

动能主导，波函数由两个独立的Slater行列式相乘组成

\[\Phi_{\text{PMF}} = \det[\mathbf{D}_{\uparrow}] \times \det[\mathbf{D}_{\downarrow}]\]

矩阵元素为自由费米子的平面波解 $\exp(i \mathbf{k} \cdot \mathbf{r})$。

铁磁费米流体（$\Psi_T^{\text{FMF}}$）：

随着$r_s$增大，势能开始作为主导。电子为了减少在空间中相遇的概率慢慢趋于自旋相同，因此其波函数形式由一个单Slater行列式组成

\[\Phi_{\text{FMF}} = \det[\mathbf{D}_{\text{all}\uparrow}]\]

矩阵元素依然选取平面波 $\exp(i \mathbf{k} \cdot \mathbf{r})$。

玻色流体（$\Psi_T^{\text{BF}}$）：

作为其他相的对照组，整个试探波函数退化为纯粹的 Jastrow 形式

\[\Psi_T^{\text{BF}} = \prod_{i维格纳晶体（$\Psi_T^{\text{bcc}}$）：

势能完全主导，单电子波函数必须体现出空间局域化，因此改用高斯型局域波函数作为骨架

\[\phi_{\mathbf{R}_I}(\mathbf{r}_i) = \exp\left( -C \|\mathbf{r}_i - \mathbf{R}_I\|^2 \right)\]

论文中对四种不同的波函数拟设在不同的$r_s$下进行VMC+DMC演化，得到了基态能量的分布$E_0(r_s)$

如果认为相同$r_s$下能量最低的为真实物态，则不难绘图看出整个模型的相变过程

可以看见均匀电子气确实经历了从顺磁性费米流体到铁磁性费米流体到Wigner晶体的两次相变，与理论预测恰好一致，同时也反过来说明我们拟设的函数形式是合理的。

谨以此篇粗糙肤浅的文章代表自己科研工作的正式开始。

以上。

XGBoost

2026-05-11T13:30:00+08:00

XGBoost（Extreme Gradient Boosting），在kaggle中非常常用，还是很有必要学习一下的。

简单地说，XGBoost就是一个朴素地靠堆叠数量取胜的学习机，依赖的是简单的决策树模型，但是通过集成的神奇方式将多个“弱学习器”组合成一个“强学习器”。

1. 目标函数 (Objective Function)

对于给定的包含 $n$ 个样本的数据集，XGBoost 的预测输出是 $K$ 棵树的累加：

\[\hat{y}_i = \sum_{k=1}^K f_k(x_i) \quad ,\quad i=1,2...n\]

每棵树都是在前面所有树的优化成果上进行进一步的修正，可以说本质上下一棵树是在拟合前面结果的残差。

用于优化的目标函数由两部分组成：损失函数（预测误差）和正则化项（复杂度惩罚）。

\[\text{Obj}(\Theta) = \sum_{i=1}^n L(y_i, \hat{y}_i) + \sum_{k=1}^K \Omega(f_k)\]

2. 泰勒展开：目标函数的近似

在第 $t$ 轮迭代时，我们要在保留前 $t-1$ 轮预测结果 $\hat{y}_i^{(t-1)}$ 的基础上，寻找一个新的函数 $f_t$ 来最小化：

\[\text{Obj}^{(t)} = \sum_{i=1}^n L(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t) + \text{constant}\]

为了快速求得最优解，XGBoost 对损失函数 $L$ 进行 二阶泰勒展开：

\[L(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) \approx L(y_i, \hat{y}_i^{(t-1)}) + g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i)\]

其中：

$g_i = \partial_{\hat{y}^{(t-1)}} L(y_i, \hat{y}_i^{(t-1)})$ 是一阶导数（梯度）。
$h_i = \partial^2_{\hat{y}^{(t-1)}} L(y_i, \hat{y}_i^{(t-1)})$ 是二阶导数（海森矩阵/Hessian）。

移除常数项后，第 $t$ 步的简化目标函数为：

\[\tilde{\text{Obj}}^{(t)} = \sum_{i=1}^n [g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i)] + \Omega(f_t)\]

为什么用二阶导？ 相比只用一阶导的 GBDT，二阶导提供了梯度的变化信息，能更准确地逼近真实损失，从而加快收敛速度。

3. 定义树的复杂度 (Regularization)

XGBoost的正则化项定义为：

\[\Omega(f_t) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^T w_j^2\]

$T$：叶子节点的数量。
$w_j$：第 $j$ 个叶子的权重。
$\gamma, \lambda$：惩罚系数（超参数）。

第一项用于限制节点数产生的过拟合，第二项用于限制树之间的贡献差，防止结果主要只由少数树贡献。同时也平滑单棵树的叶子权重差异，防止对某些局部特征过于敏感。

4. 最优叶子权重与得分计算

将树的结构代入目标函数，并将求和方式从样本遍历改为叶子遍历：

\[\tilde{\text{Obj}}^{(t)} = \sum_{j=1}^T [(\sum_{i \in I_j} g_i) w_j + \frac{1}{2} (\sum_{i \in I_j} h_i + \lambda) w_j^2] + \gamma T\]

令 $G_j = \sum_{i \in I_j} g_i$（叶子 $j$ 内样本的一阶导和），$H_j = \sum_{i \in I_j} h_i$（二阶导和）。

对 $w_j$ 求导并令其为 0，得到最优权重 $w_j^*$：

\[w_j^* = -\frac{G_j}{H_j + \lambda}\]

将 $w_j^*$ 代回目标函数，得到该树结构下的最小目标值（即结构分数）：

\[\text{Obj}^* = -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j + \lambda} + \gamma T\]

5. 分裂准则 (Greedy Algorithm)

注意一下，会发现前面很多过程是和树本身的结构没有关系的，也就是说这个决策树究竟怎么决策的，无人在意，关注的只是叶子节点$\omega_j$的值。那么树的结构究竟在哪里体现？其实就是$G_j$和$H_j$，树的不同会影响叶子节点中最终包含的是哪个样本，从而影响到$G_j$和$H_j$。因此通过优化树结构来优化$G_j$和$H_j$是另一个优化点。

在实际建立树时，不可能遍历所有树结构。XGBoost 采用贪心算法。对于一个节点，XGBoost会遍历每一个特征，对每一个特征遍历一遍阈值，尝试将其分裂为左子树 $L$ 和右子树 $R$，计算分裂后的 增益（Gain）：

\[\text{Gain} = \frac{1}{2} \left[ \frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda} - \frac{(G_L+G_R)^2}{H_L+H_R + \lambda} \right] - \gamma\]

$\frac{G_L^2}{H_L + \lambda}$：左子树的分数。
$\frac{G_R^2}{H_R + \lambda}$：右子树的分数。
$\frac{(G_L+G_R)^2}{H_L+H_R + \lambda}$：不分裂时的分数。
$\gamma$：引入新叶子节点的复杂度代价。

然后选取最大的$\text{Gain}$进行分裂，把对应的特征和阈值记录到这个节点上。

以上即为XGBoost的基本思想。

特征类型 \ 自旋方向	上自旋 ($\uparrow$)	下自旋 ($\downarrow$)
单电子特征均值 (Single-electron)	\(g^{\uparrow, l} = \frac{1}{n^{\uparrow}} \sum_{m=1}^{n^{\uparrow}} h_m^l\)	\(g^{\downarrow, l} = \frac{1}{n^{\downarrow}} \sum_{m=1}^{n^{\downarrow}} h_m^l\)
双电子特征均值 (Two-electron, 含电子 $i$)	\(f_i^{\uparrow, l} = \frac{1}{n^{\uparrow}} \sum_{m=1}^{n^{\uparrow}} h_{im}^l\)	\(f_i^{\downarrow, l} = \frac{1}{n^{\downarrow}} \sum_{m=1}^{n^{\downarrow}} h_{im}^l\)