ツイッターの二分木化で、絵文字問題

集めた1億1千万のツイートを二分木化している。ただ、wikipediaと違って、およそ、どこまでが日本語なのかが曖昧で、記号がやたら繰り返されていたり、何よりも膨大な絵文字がはめ込まれている。jumanやknpの自然言語処理でどう扱われるかも、問題だ。

事前に加工して、絵文字などを取り除いたほうがいいかとか、色々迷ったが、まず、やってみようとやったら、特にエラーもなく処理している。検索結果でも、次のようにそれらしく処理できる形だ。

line_436_0: 毎日/1回/ご応募可能ですのでまたのチャレンジをお待ちしてます/☺️❣️//
line_449_0: 新入生の皆さん🌸入学/おめでとうございます/🌸〇〇大学野球サークル/〇〇🐝です野球をするのはもちろん/楽しくて/たまらない/イベント

(〇〇は、元は固有名詞)

このままでいいような気がする。

およそ、元の文章はなるべくいじらないほうがいい。それはつまり、応用が効くということだ。

こう考えると、会社や組織で、膨大な文章を抱えているところで、このprolog二分木は、結構使えるのではないかと思ったりしている。

一体、1億1千万ツイートとで、どれだけコンピュータのリソースを使うか。どれだけ、素早く、シンプルに目的の文章にたどり着くか、調べてみようと思う。