ニューラルネットワークはなぜ「物理学賞」に値したのか

物理の問い、計算機科学の答え

2024年のノーベル物理学賞は、人工ニューラルネットワークという、一般にはCS(計算機科学)の領域と見なされている仕事に贈られました。多くの読者がまず持つ感想はおそらくこうでしょう──これは本当に物理学の賞なのか。本記事の立場を先に述べておくと、受賞対象の中核にあるアイデアは統計力学の直系の子孫であり、物理が隣の分野に移し替えられた稀有な成功例として読める、と考えます。「境界線のぎりぎり」に授与された賞ではなく、「物理の発想が、物理の外でどれほどの射程を持つか」を明らかにした賞だ、というのがここでの見方です。

以下では、受賞対象のアイデアをイジング模型からたどり直し、ホップフィールドネットワーク、ボルツマンマシン、そして深層学習の復活期までを、物理の語彙で並べ直します。

イジング模型という源流

物語の起点は、1920年代のドイツ物理学です。ヴィルヘルム・レンツは1920年に弟子のエルンスト・イジングに修士論文のテーマとして「1次元のスピン格子」を与え、イジングは1924年、ハンブルク大学で博士論文としてこれをまとめました。隣り合ったスピンが±1のどちらを取るかだけで決まる、いわば鉄の磁性の最小模型です。

1次元のイジング模型には相転移が生じません。この事実はある意味で失望でしたが、20年後の1944年、ラース・オンサーガーが2次元の場合の厳密解を導き、そこには有限温度での相転移が明確に存在することを示します。磁性体や合金の相転移の、最もシンプルで最も教育的な模型──それが以降の統計力学の共通語になりました。そして何より、「系全体のエネルギー関数を一つ書くと、低エネルギー状態が物理的に意味を持つ」という発想そのものが、のちのニューラルネットワークに直接つながっていきます。

ホップフィールドネットワーク(1982)

1982年、プリンストンと全米科学アカデミーで活動していたジョン・ホップフィールドは"Neural networks and physical systems with emergent collective computational abilities"と題する論文を発表します。『PNAS』第79巻第8号、pp. 2554–2558。この論文が、統計力学の語彙でニューラルネットを書き直す、という選択を明確に示しました。

各ユニットはイジングのスピンと同じく $+1$ か $-1$ を取ります。ユニット間の結合 $w_{ij}$ は対称(自己結合はゼロ)に取り、系全体のエネルギーは以下のように定義されます。

# Hopfield エネルギー: 対称重み、対角は 0
def energy(state, weights):
    # state: ±1 のベクトル、weights: 対称行列で diag=0
    return -0.5 * state @ weights @ state

各ユニットを非同期に更新すると、このエネルギーは単調に減少します。したがってネットワークは、重み $w$ が定めたエネルギー地形の局所最小値のどれかに必ず到達します。記憶したいパターンを局所最小値として埋め込んでおけば、ノイズの混じった入力から「連想記憶」で元のパターンが呼び戻される──これがホップフィールドの核心的な提案でした。

記憶の埋め込みにはヘッブ則が使われます。文章で書くなら「記憶パターン同士の外積を足し合わせ、ニューロン数 $N$ で割る」という形です。どれくらい詰め込めるかは、ダニエル・アミット、ハノック・グトフロイント、ハイム・ソンポリンスキーが1985年の『Physical Review Letters』でスピングラス理論の道具を使って解析しました。彼らは容量比 $\alpha = p/N$ が約 $0.138$ を超えると再生誤差が跳ね上がることを示し、以後この数字が標準的な「容量係数」として定着します。

ボルツマンマシン(1985)

決定的なユニットで記憶を読み出すだけでは、複雑なデータの構造を捉えきれません。そこで1985年、デヴィッド・アックリー、ジェフリー・ヒントン、テレンス・セイノフスキーの3人は『Cognitive Science』第9巻 pp. 147–169 に"A Learning Algorithm for Boltzmann Machines"を発表し、次の3点を導入します。

第一に、可視ユニットに加えて隠れユニットを置き、入力には直接現れない潜在構造を表現できるようにしました。第二に、各ユニットの更新を決定的ではなく確率的にし、ボルツマン分布 $P \propto \exp(-E/T)$ にしたがって状態をサンプリングするようにしました。温度パラメータ $T$ を持つ、文字通り統計力学のシステムです。第三に、学習規則として「データを固定したクランプフェーズ」と「系を自由に走らせるフェーズ」の平均統計量の差を使った、KLダイバージェンス最小化に対応する更新を提案しました。

この定式化は美しかったのですが、実装上は厄介でした。両フェーズとも平衡分布からのサンプリングが必要で、ネットワークが少し大きくなるだけで学習時間が跳ね上がってしまいます。1990年代、この計算コストが「深いネットワーク」への前進を阻み続けることになります。

RBM から Deep Belief Net へ

突破口は2006年に訪れます。ヒントンは構造を大胆に制限し、制限付きボルツマンマシン(RBM)──可視層と隠れ層の二部グラフで、層内結合を持たないもの──に焦点を絞りました。二部構造のおかげで、Gibbsサンプリングが層ごとに並列化でき、学習コストが劇的に下がります。

同じ年、ヒントン、サイモン・オシンデロ、イー・ウェ・テフの3人は"A fast learning algorithm for deep belief nets"を『Neural Computation』第18巻第7号 pp. 1527–1554 に発表します。RBMを積み重ねて一層ずつ事前学習し、最後に全体を微調整する──この手法によって、1990年代の「深いネットワークは学習できない」という壁を越えられることが示されました。同年7月には『Science』誌でヒントンとルスラン・サラフトディノフによる、自己符号化器を用いた次元削減の論文も発表されます。物理由来の事前学習が、深層学習の第二の春の号砲になりました。

ヘッブ則から勾配降下へ、共通するもの

ここで一度、学習規則の流れを整理しておきます。1949年、ドナルド・ヘッブは著書『The Organization of Behavior』で「同時に発火する細胞どうしはつながりを強める」という原則を提示しました。これがホップフィールドネットワークの重み構成(記憶パターンの外積の和)として直接的に実装されます。ボルツマンマシンの学習は、対数尤度の勾配に対応する統計量の差を使い、これも自由エネルギーを下げる方向の更新として読めます。現代の深層学習における確率的勾配降下(SGD)も、広い意味で見れば「損失関数という人工的な自由エネルギーの地形を下る」ダイナミクスです。

つまり、1949年のヘッブ則から2020年代のTransformerまで、学習をめぐる道具立ての骨格には「あるエネルギー地形を降りていく」という一貫したモチーフがあります。このモチーフを最初に強く意識して持ち込んだのが、ホップフィールドとヒントンの仕事でした。

いま鳴っている残響

統計力学の遺産は、授賞対象の仕事だけに留まりません。最近のいくつかの話題を挙げておきます。

2015年、ヤシャ・ゾル=ディックスタインらが"Deep Unsupervised Learning using Nonequilibrium Thermodynamics"を発表しました。非平衡熱力学の拡散過程をデータ生成に応用するという発想で、10年後にはStable DiffusionやImagenといった画像生成AIの基盤となる「拡散モデル」の起点になります。生成AIは、見方によっては逆時間確率微分方程式を解いている統計力学の装置なのです。

エネルギーベースモデルの再評価、くりこみ群と深層ネットワークの対応関係をめぐる数理物理学からの攻勢──いずれも物理と機械学習の境界を薄くする方向で進んでいます。

ただし、誠実に言い添えるなら、現代AIの主役すべてが物理の系譜に連なるわけではありません。Transformerは系列モデリングとアテンション機構から出てきたアイデアであって、物理由来の道具立てだけで説明できるものではありません。それでも、「この系譜に限って言えば」2024年の物理学賞は筋が通っています。磁性体のスピンから連想記憶、ボルツマン分布から深層学習、そして拡散モデルへ。ひとつの物理的発想が、半世紀をかけて別の分野の中核にまで根を張った稀な例──それが今回の授賞対象だった、というのが本稿の結論です。

物理の問い、計算機科学の答え

イジング模型という源流

ホップフィールドネットワーク(1982)

ボルツマンマシン(1985)

RBM から Deep Belief Net へ

ヘッブ則から勾配降下へ、共通するもの

いま鳴っている残響

関連する受賞者

この記事を共有

関連する記事

2024年物理学賞を振り返る — 研究最前線