先のいくつかの記事で示しているように、ロボットが知識的文章を短く語る時に、削除した語を繋ぐ助詞をAI的に選択させようとしている。(体言1:名詞・動詞)+(助詞1:助詞・助動詞)+(体言2:名詞・動詞)+(助詞2:助詞・助動詞)の語の並びの中で、体言1、体言2、助詞2が与えられた時に適切な、助詞1を選択させたい。これができれば、うまく、文章を短くできるだろうということである。
そこで、この並びを、日本語wikipediaの前文から拾い出して、それを元に、ディープラーニング用の学習データを作ろうということである。
4語対は、6千万個取れて、語は、word2vecのウェイトベクトルであらわすのだが、そのベクトルを取れる語は、さらに半分以下になってしまう。また、助詞、助動詞部分のパーターンがとてつもなく大きくなってしまう。「の」とか「を」などはたくさんあるが、全体で1回しか現れないようなものも拾ってしまう。これは、広い方のアルゴリズムにも依存するのだが。
そこで、いったいどのような助詞、助動詞が、どのような頻度で現れているのかを調べてみた。
まず、助詞2(ニューラルネットの入力になる)は次のようになっている。

の 4848543
を 3418017
に 3153274
が 2271523
は 1676994
と 1359190
で 1134953
た 833487
な 515517
から 481586
や 449712
も 403445
て 391692
である 384000
として 321609
ている 278220
には 264654
では 242007
ていた 141653
によって 117531
であり 109701
により 109549
であった 107166
による 101919
へ 97715
でも 97698
との 95020
という 95008
まで 94623
への 88007
にも 87645
ない 80116
での 77605
たが 71719
だった 71462
など 69269
ており 69104
だ 68336
ず 64151
などの 62250
より 56385
とは 53537
において 50758
たと 47488
からの 46761
における 45079
について 38801
ば 34365
たり 33421
に対して 32896
なかった 32558
はと 31786
としては 31599
か 31034
に対する 30519
であると 30483
としての 30440
うと 30412
とも 29750
とともに 29742
ていたが 29645
だが 29500
などを 28746
までの 28607
ながら 27353
と共に 26439
へと 25588
に関する 25518
だと 25209
よりも 24233
であるが 24219
などが 23941
ではなく 23687
については 23225
であったが 21177
ているが 20375
にて 20046
てきた 19284
でいる 19168
からは 19166
ても 18992
ていない 18033
などで 17049
に対し 16993
といった 16725
だったが 16552
をと 16238
ていく 15419
などに 15401
ていると 15107
てしまう 14659
までに 14412
にと 14395
においては 13755
でいた 13566
ずに 12898
のみ 12697
なく 12433
たものの 12417
にかけて 12292
明らかに、代表的助詞型を圧倒している。だから、全部を対象にすることはない。だいたい、上位128個くらいの使い方がわかればそれでいいのではないかと思う。入力に関しては次のようになっている。

の 6087401
は 2794515
に 2311801
を 1850357
が 1667993
で 1144968
と 1039936
た 1026311
な 563759
や 531865
から 515033
て 502233
には 461876
では 405320
も 340662
である 297177
として 239221
ている 200314
という 145218
であり 141251
ていた 140480
との 135622
により 135543
による 124273
への 116794
での 114556
たが 110351
によって 100663
まで 99795
などの 99002
ており 98666
など 95691
でも 91841
ず 91712
とは 87425
であった 78465
ない 76015
にも 73529
より 69404
だ 67224
において 65830
からの 63813
における 59617
だった 59331
ば 53503
へ 50134
としての 44902
に対する 40913
に対して 40079
だが 39554
としては 38818
に関する 37624
について 37003
ていたが 36863
までの 35317
とともに 33629
からは 33043
ながら 32942
たり 31465
であるが 31366
については 30835
と共に 30434
か 28826
はと 28675
ではなく 27939
なかった 27507
といった 26896
などを 25960
に対し 25781
であったが 25642
よりも 24764
においては 24509
ているが 24095
ても 22715
にかけて 22410
にて 22061
とも 20988
だったが 20078
てきた 18660
までは 15710
はの 15630
などで 15530
たものの 15429
などが 15169
うと 14569
へと 14314
までに 14160
にとって 13547
ていない 13388
たという 13324
でいる 12949
ずに 12844
についての 12823
のの 12695
でいた 12154
ので 12077
ほど 11709
のみ 11541
であると 11315
だと 11167
はという 11122
がと 11042
をと 11024
ていく 10883
てしまう 10794
などに 10719
においても 10605
にと 10454
を通じて 10373
たと 9804
だけでなく 9448
ての 9116
しか 9065
にの 9027
によっては 8952
かの 8682
であるという 8620
に関しては 8216
てしまった 8172
ほどの 8126
ていて 8058
はなく 8000
からも 7909
ては 7779
てくる 7631
てから 7518
にという 7329
つつ 7309
上位グループの順序は微妙に変わっている。助詞の位置が影響しているのだ。が、上位グループのメンバーはあまり変わらない。