一文章の要約システム(6) : データフォーマットの変更

これまでの話では、「名詞」+「助詞」+「名詞/動詞」の3語のパターンで、深層学習のデータを作ると書いたが、実際できたデータを見ると、前後の語から間の助詞を判断するのは、自分で見ても難しい。そこで、もう一つ助詞をとって、

「名詞」+「助詞」+「名詞/動詞」+「助詞」

のパターンで、はじめの助詞を推定するという構造に変えた。これで日本語wikipediaデータをパースすると、前よりもデータ数は減ったが、それでも、17,588,062対を得ることができた。これで、深層学習のデータを作成しよう。

データ(一部)は次のような感じである。

体:は:羽衣:の
もの:が:付い:て
輸送:において:採算:を
千年:から:エネルギー:を
延長:を:図っ:て
路線:を:中心:に
7日間:しか:目:を
ジラーチ:は:ロシア語:で
ハイダル・アリー:は:戦争:の
その後:も:戦争:は
イギリス:は:マンガロール:に
1784年:に:第二次マイソール戦争:は
マンガロール:で:休戦:と
これ:は:インドの歴史:で
インド:の:民族:にとって
イギリス:に:腰:を
し:て:休戦:を
ウォーレン・ヘースティングス:は:これ:を
国王:と:議会:に
市内:の:殆ど:の
地域:で:最寄駅:まで
線:を:皮切り:に
通常:の:プレイ:で
路線:の:開設:に
210:は:バス路線:の
空白域:を:ピンポイント:で
2004年:から:2008年:にかけて
1780年:は:武装中立同盟:に
ため:に:増発:を
キャンペーン:の:一環:として
ネーデルラント連邦共和国:に対し:先手:を
深夜バス:の:運行:も
武装中立同盟:は:ヨーロッパ:の
6月19日:から:7月17日:まで
間:に:ニンテンドーWi-Fiコネクション:で
結果:は:ヨーロッパ:で
赤字:が:続い:て
7月1日:から:7月31日:まで
イギリス:は:ネーデルラント:が
扇動:と:オランダ政府:の
イギリス:の:攻撃:を
ホウエン地方:の:トクサネシティ:の
フレーズ:を:口:に
これら:の:こと:から
セレビィ:と:ウバメ:の
独立戦争:の:最初:の
これ:を:基:に