短文の要約のアイデア

一つの文章をさらに短くすること、ここをもう一つ高いレベルでクリアしたい。知識は言葉の定義で与えられるとして、それはなんとか使える。が、舞台でしゃべる言葉はごく短くなければならない。一応、そのシステムは作ってあるが、短くした後の言葉が、理解のしやすいものに必ずしもなっていない。

私が目標とするところからして、今、芸ロボットの到達点は50%くらいだと思っている。もし、短文要約が大きな問題なく、人と同じくらいのレベルでできるようになれば、この到達点は70%くらいまでいくだろう。

ではどうすれば良いのか。一つ頭に浮かんでいるのが、ようやく対象が含む語の主要なものが含まれている、より短い文章の用例を探すことだ。ただ、全く同じ語については、あるかもしれないが、探すのが大変すぎる。

そこで、言葉をグループ化する。例えば、りんごとバナナは、果物というグループに属するので、「デザートには〇〇が出た」という文章の〇〇には、等しく使える、置き換えられる。他の「ラーメン」という言葉は、この〇〇にはめることはできない。また、さらに広く、食べ物というグループにも属しているので「彼は〇〇を食べた」の〇〇にも同じように使える。この場合は、ラーメンという言葉もはめることができる。

適用可能な言葉は、ある種の階層性を持っているのである。

このグループ化、階層性を表現するために、類語辞典を使うことができる。類語辞典のコード番号を用いて、日本語ウィキペディアの前文章を用例化する。

そして、ある長い文章が与えられ、そこで使われている用語の重要性について、指標が与えられているとして、コード化した同じ語のグループが使われている用例を拾い出す。ただし、短くする程度に応じて、元の語のいくつかを削ったものにしていく。

コード化した語で、短い用例があれば、それで文章を再構成すれば、単文が要約できることになる。

というアイデアである。