かとじゅんの技術日誌

技術の話をするところ

ネット上のゴミ処理問題

いやー、リアルでもゴミ処理問題は地球温暖化と相まってますます重要視されていますが、、ネット上のゴミってなんだろうと考えたとき、やっはりスパムかなと。ほんとこいつを相手にしているコストは大変なもんでほんとに無駄といってよい。

メールやブログにおいてもスパムは大量に存在していて言わずもがなですが、この膨大な無駄を全く別のパラメータに変換できると大きなビジネスになるわけで、まぁー、一つに順当にスパムフィルターですね。確率論に基づくベイジアンフィルターがあまりに有名ですが、これも使ってみたけど一朝一夕にはいきませんね。
Thunderbirdでもたまに迷惑フォルダに友人や仕事のメールが入っているのに気がつかない場合があります。このフィルターの精度が問題でベイジアンフィルターが元にしている辞書でメールに含まれているワードのスパム率を求めているわけですが、当然100%は無理なんで足りない分は人間が迷惑メールフォルダをたまに見るなどして補完する必要があるわけです。でもこれが結構うざいですよね。

ほんのジャストアイデアですが、これをオントロジを使ってメール内容の意味解析を行ってスパムメールやスパログを排除してしまうというのは結構面白いかも。
この一行でかけてしまうぐらい簡単な話ではないと思いますが、やりがいはありあそう。
そして、もうひとつはこのゴミから新しい価値を得るということで、スパム情報も大量に集めればデータマイニングして黄金の法則を導けばビジネスになるやもしれませんなぁ。