組成データの問題点

 普段のテーマとは全く違いますが、最近取り組んでいる組成データの話題について、私が理解したことを記録しておきます。

 組成データは「変数が全て正の値を持ち、かつ変数の総和が定数であるデータ」のことで(Aichison, 1986;太田・新井,2006)、かんたんに言えば割合で表されるデータのことです。地質学分野では、化学組成や鉱物組成でおなじみです。これらの組成データを使って、ある試料の成分同士の相関を見たり、ある試料と別の試料を比較したりします。例えば、ある試料のSiO2とAl2O3には相関がある!とか、試料Aと試料Bは同じ岩石だ!とかですね。

 ここで、組成データは相対的な情報のみを表すので、ある変数が他の変数の影響を受ける、という点で実数データとは異なります。ある人の身長が150cmだったとして、その人の指の長さが10cmでも20cmでも、身長は変わりません。ここで、指の長さに対する身長の割合はそれぞれ約94%と約88%になります。この組成データで身長を見た場合、身長は指の長さの影響を受け、本来の量とは異なる傾向を示すことになります。

 と言われても実感が湧かないので、実際にテストしてみましょう。表1に実数データを用意しました。実数Aは10から100まで10刻みで大きくなります。実数Bは10で固定します。

表1 実数データのサンプル

 実数Aと実数Bの関係を散布図で表すと、図1のようになります。

図1 実数データA・Bの散布図

 実数Aと実数Bの組成データは表2のようになります。

表2 実数A・Bの組成データ

  組成Aと組成Bの関係を散布図で表すと、図2のようになります。

図2 組成データA・Bの散布図

 どうでしょう。実数では相関がないのに、組成にすると負の相関が見えてしまいます。これは、BがAの影響を受けて生じたものです。すなわち、組成データで負の相関が見えても、それが実際のものかどうかは分からない、ということになります。では、実際に負の相関がある場合をテストしてみましょう。表3は、負の相関がある実数データと、その組成データです。

表3 負の相関がある実数データA・Bとその組成データ

 表3の実数データと組成データで散布図を作ります。図3は実数データ、図4は組成データの散布図です。

図3 表3の実数データA・Bの散布図

 

図4 表3の組成データA・Bの散布図

 今度は両方同じになりました。図2と図4の両方とも負の相関が見られますが、図2は偽りの相関であり、両者を区別するのは難しいでしょう。では、正の相関ではどうでしょう。

表4 正の相関がある実数データA・Bとその組成データ
図5 表4の実数データA・Bの散布図
図6 表4の組成データA・Bの散布図

 今度は全く違う結果となりました。単純比例だと、当たり前ですが相対的な関係は変わりません。ですので、組成データは同じになります。つまり、実際に相関があっても、組成データでは見えない、ということが分かります。さらに、べき乗の場合はどうでしょう。

表5 実数データAおよびその自乗Bと組成データ
図7 表5の実数データA・Bの散布図
図8 表5の組成データA・Bの散布図

 今度は負の相関がみえてしまいました。次に、視点を変えて、組成データで正の相関が見える場合を再現してみましょう。このような条件は2変数ではありえないので、3変数でやってみます。実数A・Bを正の相関、実数CをA・Bに対して負の相関にしてみます。

表6 組成データAとBに正の相関がある場合の実数データと組成データ(1)
図9 表6の実数データA・Bの散布図
図10 表6の組成データA・Bの散布図

 ついにきた!という感じですね。実数Cを固定値にしても、この傾向は変わりません。では、実数Cも実数A・B同様に増やしてみると、どうなるでしょうか。

表7 実数A・B・Cに正の相関がある場合の実数データと組成データ
図11 表7の実数データA・Bの散布図
図12 表7の組成データA・Bの散布図

 ガッカリです。実数Cを乱数にしても、組成データは負の相関となりました。しかし、組成データで正の相関が認められれば、その2変数には本当に正の相関がある、と言えることが分かりました。ただし、実数Cが実数A・Bと比例する場合、図6と同じになります。

 このように、実数データ間に存在する相関のほとんどは、組成データでは見えないか、本当に存在する関係か判断できない、ということになります。変数の数が増えると個々の変数の影響は薄まりますが、それでも0にはならないので、実際の関係を見ることができる条件はかなり限られます。この問題は「constant-sum constraint」あるいは「定数和制約」と呼ばれています(太田・新井,2006)。

 定数和制約の存在は、実は古くから知られており、その解決に向けた提案もAitchisonらによって1980年代から続けられています。組成データを実数データと同じように扱うことができる方法として、対数比解析(log-ratio analysis)と呼ばれる手法が提案されており、その代表的な方法として、有心対数比変換(clr)、相加対数比変換(alr)、アイソメトリック対数比変換(ilr)があります。これらはいずれも、何らかの変数で元のデータを規格化し(除し)、その自然対数をとることになります。その数学的説明は、WikipediaのCompositional data(組成データ)の項で端的にまとめられています。今回はこのうち、alrをテストしてみます。

 alrは規格化成分として元のデータの1成分を用います。この規格化成分は不変量が望ましいとされているので(Woronow and Love, 1990)、表7の組成Cを固定値に変え、これを規格化成分として、組成AとBの相加対数比変換を行いました。結果は表8・図13のようになり、対数比データで実数の正の相関(図11)を再現することができました。

表8 実数・組成・対数比データ。右2列が組成A・Bの対数比変換後の値。

 

図13 表8のA・Bの散布図(実数・組成・対数比の順)

 alrは、私の解釈ではマスバランス法の応用であり、理解しやすい方法です。ただ、実際のデータに適用する際には規格化成分の選択が難しいという問題があります。規格化成分の選択には、Ohta et al. (2011)で紹介されている不変量検定などもありますが、そのデータの性質に合わせて適切なものを選ぶのが良いと思われます。なお、clrは規格化成分の説明が難しく、あまり意味をなさないという指摘もあります。ilrは私にとっては理解が難しいので、当面はalrを使うつもりでいます。

 以上、定数和制約について長々と述べてきましたが、私自身まだ分かっていないことが多く、これからも勉強する必要があると思っています。組成データの解析に興味のある人は、ぜひ下の引用文献を読んでみてください。

文献

Aitchison, J., 1986, The statistical analysis of compositional data. Chapman ad Hall, London, 416p.

太田亨・新井宏嘉,2006,組成データ解析の問題点とその解決方法,地質学雑誌,112,3,173-187.

Ohta, T., Arai, H. and Noda, A., 2011, Identification of the unchanging reference component of compositional data from the properties of the coefficient of variation, Mathematical Geosciences, 43, 421–434.

Woronow, A. and Love, K.M., 1990, Quantifying and testing differences among means of compositional data suites, Mathematical Geology, 22, 837-852.

コメントを残す