A generalization of correlation coefficient

Author
Affiliation

Ryota Suzuki

Ef-prime, Inc.

Published

September 6, 2025

First draft uploaded on March 25, 2025

Abstract

This paper proposes a generalization of the correlation coefficient for arbitrary random variables, including continuous and discrete cases.

For pairs of random variables \((X,Y)\), the generalized correlation measure takes values in \([0,1]\) and can capture both linear and nonlinear relationships.

When the joint distribution is bivariate normal, it coincides with the absolute value of the correlation coefficient.

Several other measures are also introduced from relevant perspectives, including predictive performance of \(X\) to \(Y\).

This paper presents basic concepts and mainly discusses theoretical aspects. The development of estimation methods and numerical experiments are currently in progress, and further validation is planned for the future.

Note that this is a preliminary draft subject to corrections, as well as modifications to the definitions of terminology as further progress is made. The latest version is available at: https://r-suzuki.github.io

The manuscript is currently available only in Japanese. An English version is planned and will be released once finalized. Readers are encouraged to make use of translation services as needed.

概要

連続または離散の場合を含む任意の確率変数の組\((X,Y)\)について、相関係数を一般化した指標を提案する。

一般化相関尺度\([0,1]\)に値をとる実数値で、線形および非線形の関係についても捉えることができる。同時分布が2変量正規分布の場合、相関係数の絶対値と一致する。また\(X\)から\(Y\)を予測する際の性能といった視点に基づき、関連する他の指標についても導入される。

本稿では基本的な構想を提示し、理論的考察を中心に議論を展開する。推定手法の開発や数値実験等については現在進行中であり、今後さらなる検証を行う予定である。

なお本稿は草稿段階であり、今後の進捗に応じて誤りの訂正、用語の変更などが生じる可能性があることに注意されたい。最新版は以下にて公開されている:https://r-suzuki.github.io

相互依存度の定義

導入

連続確率変数の組\((X,Y)\)が同時分布\(P_{X,Y}\)に従い、同時密度関数\(f_{X,Y}\)および周辺密度関数\(f_X,f_Y\)をもつとする。このとき相互情報量(mutual information)(Gray 2011; Shannon 1948)は以下で定義される: \[ \begin{align*} I(X;Y) &= \mathbb{E}_{P_{X,Y}} \Bigg[ \log \bigg( \frac{f_{X,Y}(X,Y)}{f_X(X)f_Y(Y)} \bigg) \Bigg] \\ &= \iint f_{X,Y}(x,y)\log \bigg( \frac{f_{X,Y}(x,y)}{f_X(x)f_Y(y)} \bigg) dx dy \end{align*} \] ここで\(\mathbb{E}_{P_{X,Y}}\)は同時分布のもとでの期待値を表し、積分範囲は同時密度が正となる領域のみとする。

本稿では、相互情報量の定義から対数変換を除いた \[ \begin{align*} \psi(X;Y) &= \mathbb{E}_{P_{X,Y}} \bigg[ \frac{f_{X,Y}(X,Y)}{f_X(X)f_Y(Y)} \bigg] \\ &= \iint \frac{f_{X,Y}(x,y)^2}{f_X(x)f_Y(y)} dx dy \end{align*} \]相互依存度(mutual dependency)と呼び、これを用いて確率変数間の関係について評価することを提案する。

定義の一般化

上記の導入では、議論の対象を同時密度関数をもつ連続確率変数に限定した。相互情報量と同様、相互依存度はより一般の確率変数について定義することができる。

例として離散確率変数の組\((X,Y)\)が同時分布\(P_{X,Y}\)に従い、同時確率関数\(p_{X,Y}\)および周辺確率関数\(p_X,p_Y\)をもつとする。このとき相互依存度は、前述の定義における密度関数を確率関数に置き換えた \[ \begin{align*} \psi(X;Y) &= \mathbb{E}_{P_{X,Y}} \bigg[ \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)} \bigg] \\ &= \sum_x \sum_y \frac{p_{X,Y}(x,y)^2}{p_X(x)p_Y(y)} \end{align*} \] によって定義される。ただし、和をとる範囲は周辺確率がいずれも正となる場合のみとする。

このように、連続および離散のいずれの場合においても、相互依存度は「相互情報量の定義から対数変換を除いたもの」として定義することができる。一方でより広い範囲の問題に適用するため、以下のような例についても考慮したい:

  • 確率変数のうち一方が連続、他方が離散である場合
  • 連続確率変数の条件付き分布が一点分布になる場合
  • 確率変数が連続値と離散値のいずれも取り得る場合

これらの場合についても適切な取り扱いを定めるため、以下に測度論に基づく正式な定義を与える。

本稿における記法

正式な定義を与える前に、本稿における記法を整理しておく。

「確率変数\(X\)が分布\(P_X\)に従う」というとき、\(P_X\)は確率測度を指すものとする。確率分布関数を\(F_X\)、確率密度関数を\(f_X\)、確率関数を\(p_X\)のように表す。分布\(P_X\)のもとでの可測関数\(g\)の期待値を\(\mathbb{E}_{P_X}[g]\)で表す。

正式な定義

確率変数の組\((X,Y)\)が同時分布\(P_{X,Y}\)に従い、その支持集合を\(\mathcal{S}_{X,Y}\)とする。\(X\)の周辺分布を\(P_X\)、その支持集合を\(\mathcal{S}_X\)で表し、同様に\(Y\)の周辺分布を\(P_Y\)、その支持集合を\(\mathcal{S}_Y\)とする。\(P_X\)\(P_Y\)の直積分布を\(P_X \otimes P_Y\)で表す。

このとき相互情報量は \[ I(X;Y) = \begin{cases} \displaystyle \mathbb{E}_{P_{X,Y}} \Bigg[ \log \bigg( \frac{dP_{X,Y}}{d P_X \otimes P_Y} \bigg) \Bigg] & (P_{X,Y} \ll P_X \otimes P_Y) \\ \infty & (\text{otherwise}) \end{cases} \] で定義される。ここで\(dP/dQ\)はラドン=ニコディム微分であり、\(P \ll Q\)\(P\)\(Q\)に対して絶対連続であることを示す。\(\mathbb{E}_{P_{X,Y}}\)は同時分布のもとでの期待値を表し、積分範囲は支持集合\(\mathcal{S}_{X,Y}\)とする。

本稿ではこれに基づき、相互依存度を \[ \psi(X;Y) := \begin{cases} \displaystyle \mathbb{E}_{P_{X,Y}} \bigg[ \frac{dP_{X,Y}}{d P_X \otimes P_Y} \bigg] & (P_{X,Y} \ll P_X \otimes P_Y) \\ \infty & (\text{otherwise}) \end{cases} \] として定義する。文脈から明らかな場合は、\(\psi(X;Y)\)を単に\(\psi\)と略記する。

相互情報量と同様、積分範囲は支持集合\(\mathcal{S}_{X,Y}\)のみとするが、相互依存度については\(\mathcal{S}_X \times \mathcal{S}_Y\)を積分範囲としても等価である。

相互依存度の性質

変換に対する不変性

相互情報量と同様、相互依存度は変数変換に対する不変性をもつ。すなわち\(X,Y\)を変換した確率変数\(g(X),h(Y)\)を考えたとき、変換\(g,h\)が可測同型(全単射かつ写像および逆写像がいずれも可測関数)であれば \[ \psi(g(X); h(Y)) = \psi(X; Y) \] である。

確率変数が実数値をとる場合、これは非零定数の加減乗除、指数変換や対数変換などの連続な単調変換を含む。

値域

相互依存度は\(1 \le \psi \le \infty\)の範囲に値をとり(証明)、\(X\)\(Y\)が独立のとき最小値\(1\)をとる。逆数をとると\(0 \le \psi^{-1} \le 1\)となり、\(X\)\(Y\)が独立のとき最大値\(1\)をとる。

\(X\)または\(Y\)のいずれかが有限離散確率変数の場合、\(\psi\)は有限の最大値をもつ。いま確率変数\(X\)の基数\(k_X\)を以下のように定める: \[ k_X := \begin{cases} \# \mathcal{S}_X & (\mathcal{S}_X\text{が有限集合})\\ \infty & (\text{otherwise}) \end{cases} \] すなわち周辺分布\(P_X\)における支持集合の基数について、無限集合における濃度を違いを区別しないものに相当する。確率変数\(Y\)に対する基数\(k_Y\)も同様に定める。

このとき相互依存度について以下の関係を示すことができる(証明): \[ \psi(X;Y) \le \min \{k_X, k_Y \} \]

したがって、相互依存度の値域を以下のように整理することができる: \[ 1 \le \psi \le \min \{k_X, k_Y \} \le \infty \]

関連性の評価

\(X\)による\(Y\)の条件付き分布が一点分布となる場合、\(Y\)\(X\)完全従属するという(Lancaster 1963)\(X\)\(Y\)がともに離散確率変数であれば、\(\mathcal{S}_X \times \mathcal{S}_Y\)において\(p_{Y|X}(y|x) \in \{0, 1\}\)である。より一般には、全射をなす可測関数\(g: \mathcal{S}_X \to \mathcal{S}_Y\)が存在し、\(P(Y = g(X)) = 1\)が成り立つことに対応する。

相互依存度\(\psi(X;Y)\)は確率変数\(X\)\(Y\)が独立のとき最小値\(1\)をとり、一方が他方に完全従属する場合に最大値をとる:

  • \(Y\)を離散確率変数とする。\(Y\)\(X\)に完全従属するとき、相互依存度は最大値\(k_Y\)をとる。このとき\(k_X \ge k_Y\)であり、\(k_Y = \min \{k_X, k_Y \} = \max \psi(X;Y)\)である(証明)。
  • \(Y\)を連続確率変数とする。\(Y\)\(X\)に完全従属するとき、全射\(g: \mathcal{S}_X \to \mathcal{S}_Y\)が存在することから、\(X\)もまた連続確率変数である。このとき\(P_{X,Y} \not\ll P_X \otimes P_Y\)であるから、定義より\(\psi = \infty\)となり最大値をとる。逆数については最小値\(\psi^{-1} = 0\)が得られる。

このような性質から、相互依存度を用いて確率変数間の近さを測る尺度を定めることができる。特に逆数をとると \[ 0 \le \frac{1}{\min \{k_X, k_Y \}} \le \psi^{-1} \le 1 \] となり、応用上および具体的な計算においても取り扱いやすい。

以降の議論では、任意の確率変数の組に対して\(\psi\)を算出し、特に\(\psi^{-1} \in [0,1]\)を用いて確率変数間の関連性を評価する指標を設計していく。

正規分布における相関係数との関係

連続確率変数の組\((X,Y)\)が相関係数\(\rho\)をもつ2変量正規分布に従う場合について考える。このとき\(\psi\)を評価すると、\(-1 < \rho < 1\)のとき以下が得られる(証明): \[ \psi = \frac{1}{1-\rho^2} \] \(\rho = \pm1\)のときは定義より\(\psi = \infty\)である。\(\rho^2 < 1\)において\(\rho^2 \to 1\)のとき\(\psi \to \infty\)となるので、\(\rho^2\)\(\psi\)の対応は拡大実数系において連続かつ全単射である。

この関係に基づき、一般の連続確率変数の組\((X,Y)\)について値 \[ \rho_\psi = \sqrt{1 - \psi^{-1}} \] を定めることができる。ここで\(0 \le \rho_\psi \le 1\)であり、\((X,Y)\)が2変量正規分布に従う場合は相関係数の絶対値に等しい。すなわち相関係数\(\rho\)に対して\(\rho_\psi = |\rho|\)である。

ここで任意の連続確率変数\(X,Y\)について、\((g(X), h(Y))\)が2変量正規分布に従うような変換\(g,h\)があると仮定する。相互依存度の性質により、この変換が可測同型であれば、\(\psi(X;Y)\)に基づく\(\rho_\psi\)\({\rm Cor}(g(X),h(Y))\)の絶対値に等しい。

このことからもわかるように、相互依存度\(\psi\)を通じて評価される\(X,Y\)の関連性は線形関係に限定されない。これに基づく\(\rho_\psi\)は相関係数との関係を保ちつつ、より一般に関連の強さを評価するように拡張された指標と考えることができる。

指標の定義

以上の準備のもとで、相互依存度に基づいた実用的な指標を定義することができる。

予測スコア

一般の確率変数\(X,Y\)について 予測スコア(predictability score)\[ \mathrm{Pred}(X \to Y) := \begin{cases} \displaystyle \sqrt{\frac{1-\psi^{-1}}{1-k_Y^{-1}}} & (k_Y > 1) \\[2em] 1 & (k_Y = 1) \end{cases} \] と定義する。ここで\(\psi\)は相互依存度\(\psi(X;Y)\)\(k_Y\)\(Y\)の基数である。\(0 \le \mathrm{Pred}(X \to Y) \le 1\)であり、\(X\)\(Y\)が独立のとき\(0\)\(Y\)\(X\)に完全従属するとき\(1\)となる。

\(k_Y = 1\)の場合\(Y\)は定数であり、\(X\)による条件付けに関わらず常に一点分布となる。したがって\(\mathrm{Pred}(X \to Y) = 1\)と定義する。

\(Y\)の値域が無限集合の場合は\(k_Y = \infty\)となるため、\(\mathrm{Pred}(X \to Y) = \sqrt{1-\psi^{-1}}\)となる。したがって\(X,Y\)がともに連続(または可算無限)であれば、\(\mathrm{Pred}(X \to Y)\)は予測の方向に関して対称的である。

また\(m\)個の確率変数の組\(\mathbf{X} = (X_1, X_2, \cdots, X_m)\)について、 予測スコア行列(predictability matrix)\[ (\mathbf{S})_{ij} = \mathrm{Pred}(X_i \to X_j) \] なる\(m\)次元正方行列と定義する。定義より対角成分は\((\mathbf{S})_{ii} = 1\)であり、また\(\mathbf{X}\)が多変量正規分布に従うとき、通常の相関行列の成分\(\rho_{ij}\)を絶対値\(|\rho_{ij}|\)に置き換えたものと一致する。

予測スコアの定義は自明とは言い難いが、\(0\)から\(1\)の値を取るという点で解釈しやすく、相関係数の絶対値に対応するという意味もあるため、実用上も受け入れやすいものと考えられる。データ解析での利用においては、値をパーセント表記することも推奨される。

一般化相関尺度

予測スコアは予測の観点における説明変数と被説明変数の非対称性を反映している。一方で相関係数のように対称的な特性が望ましい場面もあり、ここではそのような指標を設計する。

一般化相関尺度(generalized correlation measure) または 一般化絶対相関係数(generalized absolute correlation coefficient) を以下で定義する: \[ \mathrm{gCor}(X,Y) := \begin{cases} \displaystyle \sqrt{\frac{1-\psi^{-1}}{1-\big(\sqrt{k_Xk_Y}\big)^{-1}}} &(k_X k_Y > 1) \\[2em] 1 & (k_X k_Y = 1) \end{cases} \] \(X,Y\)がともに無限集合に値をとれば予測スコアと一致し、特に同時分布が2変量正規分布の場合は相関係数の絶対値\(|\rho|\)に等しい。

定義よりこれは対称的、すなわち\(\mathrm{gCor}(X,Y) = \mathrm{gCor}(Y,X)\)である。また以前の議論より\(k_{\min} = \min\{k_X,k_Y\}\)に対して \[ 1 \le \psi \le k_{\min} \] であり、また \[ k_{\min} \le \sqrt{k_X k_Y} \] であるから、 \[ \big(\sqrt{k_Xk_Y}\big)^{-1} \le k_{\min}^{-1} \le \psi^{-1} \le 1 \] となることがわかる。すなわち\(0 \le \mathrm{gCor}(X,Y) \le 1\)であり、\(k_X = k_Y\)かつ予測スコアが\(1\)のとき\(\mathrm{gCor}(X,Y) = 1\)となる。これは\(X\)\(Y\)が相互に完全従属する状態であり、両者が定数(すなわち\(k_X k_Y = 1\))の場合も含まれる。

予測スコアと同様に、\(m\)個の確率変数の組\(\mathbf{X} = (X_1, X_2, \cdots, X_m)\)について、このとき 一般化相関行列(generalized correlation matrix)\[ (\mathbf{C})_{ij} = \mathrm{gCor}(X_i,X_j) \] なる\(m\)次元正方行列と定義する。定義より\((\mathbf{C})_{ij} = (\mathbf{C})_{ji}\)となる対称行列で、また対角成分は\((\mathbf{C})_{ii} = 1\)であり、\(\mathbf{X}\)が多変量正規分布に従うとき、通常の相関行列の成分を絶対値に置き換えたものと一致する。

一般化非類似度

一般化相関尺度は\([0,1]\)に値をとり、\(X\)\(Y\)が独立のとき\(0\)、相互に完全従属するとき\(1\)となる。この特性を活かして、 一般化非類似度(generalized dissimilarity measure) を以下で定義する: \[ \begin{align*} d(X,Y) &:= \sqrt{1 - \mathrm{gCor}(X,Y)^2} \\[1em] &= \begin{cases} \displaystyle \sqrt{\frac{\psi^{-1}-\big(\sqrt{k_Xk_Y}\big)^{-1}}{1-\big(\sqrt{k_Xk_Y}\big)^{-1}}} &(k_X k_Y > 1) \\[2em] 0 & (k_X k_Y = 1) \end{cases} \end{align*} \] 定義よりこちらも\([0,1]\)に値をとり、一般化相関尺度とは逆に\(X,Y\)が独立のとき\(1\)、値域の基数が等しく相互に完全従属するとき\(0\)となる。また定義より対称性を満たし、\(d(X,Y) = d(Y,X)\)である。

\(m\)個の確率変数の組\(\mathbf{X} = (X_1, X_2, \cdots, X_m)\)について、 一般化非類似度行列(generalized dissimilarity matrix)\[ (\mathbf{D})_{ij} = d(X_i,X_j) \] なる\(m\)次元正方行列と定義する。定義より\((\mathbf{D})_{ij} = (\mathbf{D})_{ji}\)となる対称行列で、また対角成分は\((\mathbf{D})_{ii} = 0\)であり、\(\mathbf{X}\)が多変量正規分布に従うとき、通常の相関行列の成分\(\rho_{ij}\)に対して\(d(X_i,X_j) = \sqrt{1 - \rho_{ij}^2}\)である。

考察

ここで定義した指標は、いずれも\(\psi^{-1} \in [k_{\min}^{-1}, 1]\)\([0, 1]\)に基準化することで得られている。このような変換は一意ではなく、異なる基準化のもとで同様の指標を定義することも考えられる。これについては補足において詳述する。

関連して、もし一般化非類似度が三角不等式\(d(X,Y) + d(Y,Z) \ge d(X,Z)\)を満たせば、一定の条件のもとで距離とみなすことができ望ましい。このような性質についても指標の基準化の影響を受ける可能性があり、また実用上は推定手法によっても異なる挙動を示すものと考えられる。

したがってひとまずは上述のとおり指標を定義したうえで、これらを現実のデータから推定する方法について議論を進める。その上であらためて指標の改善についても考えることとする。

今後の方針

本稿で定義した指標の推定手法を提案し、数値シミュレーションによって実用性を評価することを予定している。仮説検定および信頼区間の構成法などについても議論したい。

進捗状況

現時点での進捗について、概略を示しておく。まず数値以外の離散変数、すなわちカテゴリ変数については、分割表に対して\(\psi\)の推定量を構成することができる。分割表に対する独立性の検定を\(\chi^2\)検定等で行うことができ、これは\(\psi = 1\)を帰無仮説とした検定に相当する。信頼区間についても、ブートストラップ法を用いるなどして構成することが可能とみている。

連続の場合を含む数値変数に関しては、値域を適当に分割して離散化し、上述の離散変数に対する手法を適用することが簡便である。分割には標本分位点を用い、サンプルサイズに応じて適切な分割数を定めることで、現状において良好な結果が得られている。上述の検定および区間推定についても形式上適用することができる。

変数\(X,Y\)の従う分布が2変量正規分布である、または本稿で示したように、適当な全単射\(u,v\)に対して\(u^{-1}(X), v^{-1}(Y)\)が2変量正規分布に従う場合は、通常の標本相関係数などを用いることで、上記の離散化よりも効率的な推定が可能とみられる。ただし現実のデータ解析において、このような仮定が妥当であるかどうかは事前には判定が困難であることも多く、汎用性の意味でも離散化の手法は有力と考えられる。

また離散化の方法を用いることで、数値とカテゴリが混在する変数を分析の対象とすることができる。特に欠損値を「欠損という状態」を表す値として積極的に取り扱うことができる。すなわち欠損値を\(\texttt{NA}\)で表すことにすると、\(X \in \mathbb{R} \cup \{\texttt{NA}\}\)という定義が可能になる。

これは現実のデータ生成過程における構造を明らかにするうえで、大きな役割を果たすことが期待できる。例えば温度計のデータが欠損しているとき、測定対象となる温度が仕様上の測定範囲を超えている、といった状況があるとする。このとき欠損値を平均値で置き換えるといった方法で欠損値を補完してしまうと、きわめて誤った結果に陥ることになる。

ここでもし「温度計のデータが欠損しているとき、最終製品の不良率が高い」といった関係が見出されれば、上記のような構造を明らかにすることに繋がる。通常の相関係数では欠損値は除外する必要があり、また多重代入法のような手法においても、あくまで他の変数に基づいて情報を補完する形になる。したがって欠損そのものを情報として利用する方法論には、一定の意義があるものと考えられる。

実装

本稿で定義した指標を推定するRパッケージを https://github.com/r-suzuki/gcor にて公開している。現時点では上記の離散化を用いた手法を採用しており、今後さらに改良を行う予定である。

References

Cover, T. M., and Thomas, J. A. (2006), Elements of information theory, John Wiley & Sons.
Csiszár, I. (1967), “Information-type measures of difference of probability distributions and indirect observation,” Studia Scientiarum Mathematicarum Hungarica, 2, 229–318.
Gray, R. M. (2011), Entropy and information theory, Springer.
Lancaster, H. O. (1963), “Correlation and complete dependence of random variables,” The Annals of Mathematical Statistics, Institute of Mathematical Statistics, 34, 1315–1321. https://doi.org/10.1214/aoms/1177703867.
Polyanskiy, Y., and Wu, Y. (2025), Information theory: From coding to learning, Cambridge University Press.
Seber, G. A. F., and Lee, A. J. (2003), Linear regression analysis, John Wiley & Sons.
Shannon, C. E. (1948), “A mathematical theory of communication,” Bell System Technical Journal, 27, 379–423, 623–656.

Appendix

補足

\(f\)ダイバージェンスによる整理

相互情報量と相互依存度の関係を\(f\)ダイバージェンス(Csiszár 1967; Polyanskiy and Wu 2025)を用いて整理することができる。

KLダイバージェンスと相互情報量

確率分布\(P,Q\)について、Kullback-Leibler(KL)ダイバージェンスは以下で定義される: \[ \begin{align*} D_{\rm KL}(P \Vert Q) &= \begin{cases} \displaystyle \mathbb{E}_Q \Bigg[ \frac{dP}{dQ} \log \bigg(\frac{dP}{dQ}\bigg) \Bigg] & (P \ll Q) \\ \infty & (\text{otherwise}) \end{cases} \end{align*} \] ただし未定義値について\(0 \log 0 = 0\)と規約する。相互情報量はKLダイバージェンスを用いて \[ I(X;Y) = D_{\rm KL}(P_{X,Y} \Vert P_X \otimes P_Y) \] として定義される。ここで \[ \begin{align*} \mathbb{E}_Q \Bigg[ \frac{dP}{dQ} \log \bigg(\frac{dP}{dQ}\bigg) \Bigg] &= \int \log \bigg(\frac{dP}{dQ}\bigg) dP \\ &= \mathbb{E}_P \Bigg[ \log \bigg(\frac{dP}{dQ}\bigg) \Bigg] \end{align*} \] であるから、 \[ \begin{align*} I(X;Y) &= D_{\rm KL} (P_{X,Y} \Vert P_X \otimes P_Y) \\ &= \begin{cases} \displaystyle \mathbb{E}_{P_{X,Y}} \Bigg[ \log \bigg(\frac{dP_{X,Y}}{dP_X \otimes P_Y}\bigg) \Bigg] & (P_{X,Y} \ll P_X \otimes P_Y) \\ \infty & (\text{otherwise}) \end{cases} \end{align*} \] となり、前出の定義と一致することが確認できる。

\(\chi^2\)ダイバージェンスと相互依存度

\(f\)ダイバージェンスは\(f(1) = 0\)を満たす凸関数\(f: (0,\infty) \to \mathbb{R}\)の期待値 \[ \mathbb{E}_Q \Bigg[ f \bigg(\frac{dP}{dQ}\bigg) \Bigg] \] を用いて定義される。KLダイバージェンスは\(f(x) = x \log x\)の場合に対応する。

\(f(x) = (x - 1)^2\)を用いたものは\(\chi^2\)ダイバージェンスと呼ばれ、以下で定義される: \[ \begin{align*} D_{\chi^2}(P \Vert Q) &= \begin{cases} \displaystyle \mathbb{E}_Q \Bigg[ \bigg( \frac{dP}{dQ} - 1 \bigg)^2 \Bigg] & (P \ll Q) \\ \infty & (\text{otherwise}) \end{cases} \end{align*} \]

\(\chi^2\)ダイバージェンスに基づく相互情報量は以下で定義される: \[ I_{\chi^2}(X;Y) = D_{\chi^2} (P_{X,Y} \Vert P_X \otimes P_Y) \]

ここで \[ \begin{align*} \mathbb{E}_Q \Bigg[ \bigg( \frac{dP}{dQ} - 1 \bigg)^2 \Bigg] &= \int \frac{dP}{dQ}dP - 1 \\ &= \mathbb{E}_P \bigg[ \frac{dP}{dQ}\bigg] - 1 \end{align*} \] であるから、\(\chi^2\)ダイバージェンスに基づく相互情報量は \[ \begin{align*} I_{\chi^2}(X;Y) &= D_{\chi^2} (P_{X,Y} \Vert P_X \otimes P_Y) \\ &= \begin{cases} \displaystyle \mathbb{E}_{P_{X,Y}} \bigg[ \frac{dP_{X,Y}}{dP_X \otimes P_Y}\bigg] - 1 & (P_{X,Y} \ll P_X \otimes P_Y)\\ \infty & (\text{otherwise}) \end{cases} \end{align*} \] と表すことができる。

したがって、相互依存度は\(\chi^2\)ダイバージェンスを用いて \[ \begin{align*} \psi(X;Y) &= I_{\chi^2}(X;Y) + 1 \\ &= D_{\chi^2} (P_{X,Y} \Vert P_X \otimes P_Y) + 1 \end{align*} \] と表すことができる。

したがって本稿における議論は、相互依存度\(\psi(X;Y)\)を定義する代わりに、\(\chi^2\)ダイバージェンスに基づく相互情報量\(I_{\chi^2}(X;Y)\)を用いて展開することも可能である。ただし指標の定義や推定にあたっては\(\psi\)およびその逆数が多く現れ、また本来の着想としても「相互依存度から対数変換を除いた、尤度比の期待値に相当する値」とするのが直感的にも解釈しやすいものと思われる。以上の理由から、相互依存度\(\psi\)を明示的に定義することとした。

指標の基準化について

本稿で定義した指標は、いずれも\(\psi^{-1} \in [k_{\min}^{-1}, 1]\)\([0, 1]\)に変換することで得られている。

以下、このような基準化を\(\xi: [k_{\min}^{-1}, 1] \mapsto [0, 1]\)のように表す。基準化の自然な候補として、以下の線形変換が考えられる: \[ \begin{align*} \xi_0(\psi^{-1}) &= \frac{\psi^{-1} - \min{\psi^{-1}}}{\max{\psi^{-1}} - \min{\psi^{-1}}} \\ &= \frac{\psi^{-1} - k_{\min}^{-1}}{1 - k_{\min}^{-1}} \end{align*} \]

上式の\(k_{\min}\)を任意の値\(k\)に置き換えることを考え、以下の変換を定義する: \[ \xi_L(\psi^{-1},k) = \frac{\psi^{-1} - k^{-1}}{1 - k^{-1}} \] これを用いれば以下が得られる: \[ \begin{align*} \sqrt{1 - \xi_L(\psi^{-1},k)} &= \sqrt{1 - \frac{\psi^{-1} - k^{-1}}{1 - k^{-1}}} \\ &= \sqrt{\frac{1 - \psi^{-1}}{1 - k^{-1}}} \\ \end{align*} \] ここで\(k\)\(k_Y\)で置き換えれば予測スコアが得られ、\(\sqrt{k_X k_Y}\)で置き換えれば一般化相関尺度、およびそれに基づいて一般化非類似度が得られる。

このような変換\(\xi\)の候補は上記に限らず、\(\xi(k_{\min}^{-1}) = 0\)かつ\(\xi(1) = 1\)を満たす単調変換であれば基準化としての要求を満たす。例として任意の実数\(p > 0\)に対して、\(\xi_L(\psi^{-1}, k)\)\(p\)乗にあたる関数 \[ \xi_L^p(\psi^{-1}, k) = \bigg( \frac{\psi^{-1} - k^{-1}}{1 - k^{-1}} \bigg)^p \] はこの条件に当てはまる。

このように基準化の方法は一意には定まらず、線形変換\(\xi_L\)の採用は(少なくとも導入段階においては)便宜的なものといえる。

証明

相互依存度の値域

\(P_{X,Y} \ll P_X \otimes P_Y\)、すなわち\(P_{X,Y}\)\(P_X \otimes P_Y\)に対して絶対連続であると仮定する。\(P_{X,Y} = P_X \otimes P_Y\)のときも仮定を満たすため、これは\(X\)\(Y\)が独立である場合を含む。

このとき相互依存度の対数変換に対してJensenの不等式を適用すると、相互情報量との間に以下の関係が得られる: \[ \begin{align*} \log \psi(X;Y) &= \log \bigg( \mathbb{E}_{P_{X,Y}}\bigg[ \frac{dP_{X,Y}}{dP_X \otimes P_Y} \bigg] \bigg) \\ &\ge \mathbb{E}_{P_{X,Y}} \bigg[ \log \bigg( \frac{dP_{X,Y}}{dP_X \otimes P_Y} \bigg) \bigg] \\ &= I(X;Y) \end{align*} \] 相互情報量について\(0 \le I(X;Y) \le \infty\)であり、\(X\)\(Y\)が独立のとき、かつそのときに限って最小値\(0\)をとる。

\(X\)\(Y\)が独立のとき\(\psi(X;Y) = \mathbb{E}[1] = 1\)である。このとき\(\log \psi(X;Y) = 0\)となり、\(I(X;Y)\)と一致する。

\(P_{X,Y} \not\ll P_X \otimes P_Y\)の場合は定義より\(\psi(X;Y) = \infty\)となる。

以上より\(1 \le \psi(X;Y) \le \infty\)であり、\(X\)\(Y\)が独立のとき、かつそのときに限って最小値\(1\)をとる。

相互依存度の最大値

相互依存度\(\psi(X;Y)\)について \[ \psi(X;Y) \le \min \{ k_X, k_Y\} \] が成り立つことを示す。ここで\(k_X, k_Y\)は本文で定義した通り、\(X,Y\)の支持集合の基数において、無限集合の濃度を区別せず\(\infty\)としたものに相当する。

不等式の証明

\(X\)\(Y\)がともに無限集合に値をとる場合、この不等式は常に成り立つ。したがって\(X\)または\(Y\)のいずれかが有限離散集合に値をとる場合について示せばよい。

以下、\(Y\)を有限離散確率変数とする。記法の簡便のため\(Y\)を整数値確率変数とし、支持集合\(\mathcal{S}_Y = \{1, \cdots, k_Y\}\)において\(p_Y(y) > 0\)を満たすものとする。

\(X\)は任意の確率変数とし、\(X\)に関する期待値は支持集合\(\mathcal{S}_X\)においてとるものとする。

このとき同時分布\(P_{X,Y}\)は直積分布\(P_X \otimes P_Y\)に対して絶対連続であり、任意の\(X \in \mathcal{S}_X\)に対して条件付き分布\(P_{Y|X}\)が存在する。

以上の準備のもとで、相互依存度\(\psi\)は次のように書くことができる: \[ \begin{align*} \psi(X;Y) &= \mathbb{E}_{P_{X,Y}} \bigg[ \frac{dP_{X,Y}}{d P_X \otimes P_Y} \bigg]\\ &= \mathbb{E}_{P_{X,Y}} \bigg[ \frac{dP_{Y|X}}{d P_Y} \bigg]\\ &= \mathbb{E}_{P_X} \Bigg[\mathbb{E}_{P_{Y|X}} \bigg[ \frac{dP_{Y|X}}{d P_Y} \bigg] \Bigg]\\ &= \mathbb{E}_{P_X} \Bigg[\mathbb{E}_{P_{Y|X}} \bigg[ \frac{p_{Y|X}(Y|X)}{p_Y(Y)} \bigg] \Bigg] \end{align*} \]

ここで条件付き期待値の部分を \[ \mathbb{E}_{P_{Y|X}} \bigg[ \frac{p_{Y|X}(Y|X)}{p_Y(Y)} \bigg] = \sum_{y=1}^{k_Y} \frac{p_{Y|X}(y|X)^2}{p_Y(y)} \] と書けることから、 \[ \begin{align*} \psi(X;Y) &= \mathbb{E}_{P_X} \Bigg[\mathbb{E}_{P_{Y|X}} \bigg[ \frac{p_{Y|X}(Y|X)}{p_Y(Y)} \bigg] \Bigg] \\ &= \mathbb{E}_{P_X} \bigg[\sum_{y=1}^{k_Y} \frac{p_{Y|X}(y|X)^2}{p_Y(y)} \bigg] \\ &= \sum_{y=1}^{k_Y} \frac{1}{p_Y(y)} \int p_{Y|X}(y|x)^2 dP_X(x) \end{align*} \] となる。ここで\(0 \le p_{Y|X}(y|x) \le 1\)より\(p_{Y|X}(y|x)^2 \le p_{Y|X}(y|x)\)であるから、 \[ \int p_{Y|X}(y|x)^2 dP_X(x) \le \int p_{Y|X}(y|x) dP_X(x) = p_Y(y) \] が得られる。したがって \[ \begin{align*} \psi(X;Y) &= \sum_{y=1}^{k_Y} \frac{1}{p_Y(y)} \int p_{Y|X}(y|x)^2 dP_X(x) \\ &\le \sum_{y=1}^{k_Y} \frac{1}{p_Y(y)}p_Y(y) \\ &= \sum_{y=1}^{k_Y} 1 = k_Y \end{align*} \] となる。したがって\(\psi(X;Y) \le k_Y\)、すなわち相互依存度\(\psi\)\(Y\)の基数\(k_Y\)を上回らないことが示された。

同様の議論が\(X\)についても言えることから、\(\psi(X;Y) \le k_X\)となる。したがって相互依存度\(\psi(X;Y)\)について \[ \psi(X;Y) \le \min \{ k_X, k_Y\} \] であることが示された。

等式の成立条件

ふたたび\(Y\)を有限離散確率変数とし、\(\mathcal{S}_Y = \{1, \cdots, k\}\)に値をとるものとする。条件付き確率\(p_{Y|X}(y|X)\)が一点分布となるとき、すなわち \[ p_{Y|X}(y|X) \in \{0, 1\} \] が成り立てば、\(\psi(X;Y) = \min\{k_X, k_Y\} = k_Y\)となることを示す。

仮定より\(x \in \mathcal{S}_X\)に対して\(p_{Y|X}(y|X = x) \in \{0, 1\}\)が成り立つ。このとき全射\(g: \mathcal{S}_X \to \mathcal{S}_Y\)が存在して \[ p_{Y|X}(y|x) = \begin{cases} 1 & (y = g(x))\\ 0 & (y \ne g(x)) \end{cases} \] となる。\(g\)が全射であることから\(k_X \ge k_Y\)であり、ゆえに\(\min\{k_X, k_Y\} = k_Y\)が示される。

ここで\(y = g(x)\)となる\(x\)の集合を\(\mathcal{S}_X^{(y)}\)と書くことにすると、\(\mathcal{S}_X\)を直和集合の形で表すことができる: \[ \mathcal{S}_X = \bigsqcup_{y=1}^{k_Y} \mathcal{S}_X^{(y)} \] このとき条件付き確率関数\(p_{Y|X}(y|X = x)\)について、直和分割を用いて\(p_{Y|X}(y|X \in \mathcal{S}_X^{(y)})\)と書くことができる。したがって相互依存度を \[ \begin{align*} \psi(X;Y) &= \mathbb{E}_{P_X} \bigg[\sum_{j=1}^k \frac{p_{Y|X}(j|X)^2}{p_Y(j)} \bigg] \\ &= \sum_{y=1}^{k_Y} \bigg[ P(X \in \mathcal{S}_X^{(y)}) \bigg(\sum_{j=1}^k \frac{p_{Y|X}(j|X \in \mathcal{S}_X^{(y)})^2}{p_Y(j)} \bigg) \bigg] \end{align*} \] と変形することができる。ここで\(P(X \in \mathcal{S}_X^{(y)}) = P_Y(y)\)であり、また角括弧の中において \[ p_{Y|X}(j|X \in \mathcal{S}_X^{(y)}) = \begin{cases} 1 & (j = y)\\ 0 & (j \ne y) \end{cases} \] に注意すれば、 \[ \begin{align*} \psi(X;Y) &= \sum_{y=1}^{k_Y} \bigg[ P(X \in \mathcal{S}_X^{(y)}) \bigg(\sum_{j=1}^k \frac{p_{Y|X}(j|X \in \mathcal{S}_X^{(y)})^2}{p_Y(j)} \bigg) \bigg]\\ &= \sum_{y=1}^{k_Y} p_Y(y) \frac{1}{p_Y(y)} \\ &= \sum_{y=1}^{k_Y} 1 = k_Y \end{align*} \] が得られる。したがって\(\psi(X;Y) = \min\{k_X,k_Y\} = k_Y\)が示された。\(X\)\(Y\)を入れ替えても同様の議論が成り立ち、このとき\(\psi(X;Y) = \min\{k_X,k_Y\} = k_X\)が得られる。

正規分布における相互依存度

定義から\(\psi\)は位置およびスケール変換に対して不変であるため、\((X,Y)\) が相関係数 \(-1 < \rho < 1\) をもつ2変量標準正規分布に従う場合について証明する。同時密度関数を\(f_{X,Y}(x,y)\)、周辺密度関数を\(f_X(x), f_Y(y)\)とすると \[ \begin{align*} f_{X,Y}(x,y)^2 &= \Bigg[\frac{1}{2\pi\sqrt{1-\rho^2}} \exp \bigg(\frac{-x^2 +2\rho xy -y^2}{2(1-\rho^2)} \bigg) \Bigg]^2\\ &= \frac{1}{4\pi^2(1-\rho^2)} \exp \bigg(\frac{-x^2 +2\rho xy -y^2}{1-\rho^2} \bigg) \\ f_X(x)f_Y(y) &= \frac{1}{2\pi} \exp \bigg( \frac{-x^2-y^2}{2} \bigg) \end{align*} \] であるから、 \[ \begin{align*} \frac{f_{X,Y}(x,y)^2}{f_X(x)f_Y(y)} &= \frac{1}{2\pi(1-\rho^2)} \exp \bigg( \frac{-2x^2 + 4\rho xy - 2y^2 + (1-\rho^2)(x^2+y^2)}{2(1-\rho^2)} \bigg) \\ &= \frac{1}{2\pi(1-\rho^2)} \exp \bigg( \frac{-(\rho^2 + 1)(x^2 + y^2) + 4\rho xy}{2(1-\rho^2)} \bigg) \\ &= \frac{1}{2\pi(1-\rho^2)} \exp \bigg( -\frac{1}{2}\frac{(\rho^2 + 1)(x^2 + y^2) - 4\rho xy}{1-\rho^2} \bigg) \\ \end{align*} \] となる。 ここで \[ A = \frac{1}{1-\rho^2} \begin{pmatrix} \rho^2 + 1 & -2\rho \\ -2\rho & \rho^2 + 1 \end{pmatrix} \] とおくと \[ \begin{align*} \frac{f_{X,Y}(x,y)^2}{f_X(x)f_Y(y)} &= \frac{1}{2\pi(1-\rho^2)} \exp \Bigg\{ -\frac{1}{2}\bigg[ \begin{pmatrix} x & y\end{pmatrix} A \begin{pmatrix} x \\ y\end{pmatrix} \bigg] \Bigg\} \\ \end{align*} \] となり、2次元正規分布の密度関数にみられる形となる。ここで \[ \begin{align*} \mathrm{tr} A &= \frac{2(\rho^2 + 1)}{1-\rho^2} > 0 \\ \det A &= \frac{(\rho^2 + 1)^2 - 4\rho^2}{(1-\rho^2)^2} \\ &= \frac{(\rho^2-1)^2}{{(1-\rho^2)^2}} = 1 > 0 \\ \end{align*} \] より\(A\)は正定値対称行列であるから、ガウス積分公式 \[ \iint_{\mathbb{R}^2} \exp \Bigg\{ -\frac{1}{2}\bigg[ \begin{pmatrix} x & y\end{pmatrix} A \begin{pmatrix} x \\ y\end{pmatrix} \bigg] \Bigg\} dxdy = \frac{2\pi}{\sqrt{\det A}} \] を適用することができる。

以上の準備のもとで、同時分布\(P_{X,Y}\)において密度比の期待値をとると \[ \begin{align*} \mathbb{E}_{P_{X,Y}}\bigg[\frac{f_{X,Y}(x,y)}{f_X(x)f_Y(y)}\bigg] &= \iint \frac{f_{X,Y}(x,y)^2}{f_X(x)f_Y(y)} dxdy\\ &= \frac{1}{2\pi(1-\rho^2)} \iint_{\mathbb{R}^2} \exp \Bigg\{ -\frac{1}{2}\bigg[ \begin{pmatrix} x & y\end{pmatrix} A \begin{pmatrix} x \\ y\end{pmatrix} \bigg] \Bigg\} dxdy\\ &= \frac{1}{2\pi(1-\rho^2)} \times \frac{2\pi}{\sqrt{\det A}} \\ &= \frac{1}{1-\rho^2} \end{align*} \] が得られる。左辺はまさに相互依存度\(\psi\)の定義であるから、 \[ \psi = \frac{1}{1-\rho^2} \] が示された。

ラドン=ニコディム微分の条件付き期待値

可測空間\((\Omega, \mathcal{F})\)上に確率測度\(P, Q\)が定められており、\(P \ll Q\)とする。このときラドン=ニコディム微分 \[ g(x) = \frac{dP}{dQ}(x) \] が定義され、可測集合\(A \in \mathcal{F}\)に対して \[ P(A) = \int_A g(x) Q(dx) \tag{1}\] を満たす。ここで\(Q(A) > 0\)であれば、\(Q\)上での\(A\)における\(g\)の条件付き期待値は \[ \begin{align*} \mathbb{E}_Q[g(x)|A] &= \int_\Omega g(x) Q(dx|A) \\ &= \int_\Omega g(x) \frac{Q(dx \cap A)}{Q(A)} \\ &= \frac{1}{Q(A)} \int_A g(x) Q(dx) \end{align*} \] となる。ここで式(Equation 1)に注意して整理すれば、\(Q(A) > 0\)のとき \[ \mathbb{E}_Q \bigg[\frac{dP}{dQ}\bigg|A\bigg] = \frac{P(A)}{Q(A)} \] が得られる。