共分散のある多変量ベルヌーイ分布の考察

先の記事で導出した3次元の多変量ベルヌーイ分布の同時確率の形を再掲すると、次のようなものである(記号の説明は、前の記事を参照のこと)。








これを一般ベイズ分類器(Naiveではない)の事前確率として利用し、MNISTデータの読み取りをテストすることが次の課題だ。ただ、昨夜布団に入って、ここでのは、事前学習で標本値を作ることができるが、各係数の前についている符号はどのように決定するのかが気になった。そのまま寝てしまったが、今朝、考えたので、それをメモしておく。(図のは、のことである)


基本は、正の相関のあるピクセル同士が同じ値を持つ確率は高まる、負の相関の場合は低くなるということである。

そうなるとの係数にかかる符号は、次のようにして決まる。まず、それぞれの式の第1の項目は、三つのピクセルの状態と、それらが独立の場合の同時確率を示している。例えば最初の式の場合はで、全てがということは、すべのピクセルの値が負である状態と言うことである。次に、第二の項は、で、その符号は正である。この符号が正である理由は、相関の問題になっている第1ピクセルと第2ピクセルが、ともに0で、同じ方向に動いている、連動しているから、正なのである。その第1式は、全てが連動しているので、すべて正なのである。

第2式を見てみよう。その第1項は、である。ピクセルの状態は、第1,2ピクセルガ0で、第3ピクセルが1となっていることがわかる。第2項は、であるが、この場合も、第1,2ピクセルは連動しているので正である。第3項はで、符号は負だが、これは、第1ピクセルが0で、第3ピクセルは1で、方向が逆になっているので、負なのである。

ちなみに、の前についているのが、であるかであるかは、第1項の組み合わせの中に入っているものがそのまま踏襲されているだけである。

または、三つのピクセル値の符号によって決まる。すなわち、その式の第1項のqが含まれていれば(-1)をかけ、pが含まれているならば(1)をかけ、その三つの値の掛け算の符号で決まるのである。つまり、第2式のような場合は、(-1)(-1)(1) だから、正である。

すなわち、第1項が決まると、式の形は全て決まってしまうと言うことになる。そうすると、3次多変量ベルヌーイ分布の同時確率の一般形もすぐにかけそうだ。それができると、n次多変量ベルヌーイ分布の一般形もかけることになる。ただ、頭の痛くなるほど複雑になるので、今は、書くのをやめておく。