コンピュータが意味を理解することの難しさ

セマンティックウェブは、コンピュータが意味を理解し、より人間に利便性を与える存在となることを目的にしていますが、RDFやOWLに行く前に改めておさらい。
何回かに分けて書きます。

情報の粒度の問題

現在のウェブのデータ表現はHTMLですが、HTMLのタグには文書構造を定義するこができるが、扱われる個々の単語の詳細な意味を定義することはできない。

たとえば、

<html>
<body>
<p>
明日の待ち合わせは、15:30に渋谷のハチ公前にしましょう。
</p>
</body>
</html

というデータは自然言語を処理できる人間が読めば意味は理解できますが、コンピュータは全く理解できません。
「明日の待ち合わせは、15:30に渋谷のハチ公前にしましょう。」の文章の意味を理解するには、各ワードに分解してその意味を理解しなければなりません。しかし、現状のウェブでは情報の粒度に規定がないため、意味の理解が困難です。
この場合、「明日の待ち合わせ」という情報は、待ち合わせ時間が「15:30」で、待ち合わせ場所が「渋谷のハチ公前」というように情報の粒度を細分化しなければコンピュータでは適格な理解ができません。

以下は全くHTMLの範囲を超えたデータ表現ですが、

<明日の待ち合わせ>
    <待ち合わせ時間>
         15:00
    </待ち合わせ時間>
    <待ち合わせ場所>
         渋谷のハチ公前
    </待ち合わせ場所>
</明日の待ち合わせ>

たとえば，このような構造で適切な情報の粒度がなければなりません。

また、データの型については人間は簡単に理解できますが、コンピュータは前提なるデータつまり型情報がないと全く理解できません。
そこで型情報も付与することでデータ理解の厳密性を向上させることができます。

上記のような予定を定義する場合は、iCalendarというデータファーマットも利用できます。
これもセマンティックの一つの実装とも言えるかと思います。

まとめますと，情報を理解する精度を上げるには情報の粒度を細かくするというのがポイント．

情報の関連性の問題

情報同士の関連がわかれば情報の表現が豊富になり，より情報の精度が向上するというものになります．

現状のウェブでは以下のようなハイパーリンクで関連性を定義できます．

<html>
<body>
<a href="./keihi.html">経費申請書</a>
</body>
</html

しかし，ここでも問題あり，このページから経費申請書への関連はハイパーリンクとして定義されているだけで，コンピュータには経費申請書への関連とは読み取れません．そもそも，このページ自体がどのような情報なのかよくわからないという問題もあります．

情報の検索の問題

ウェブ上の膨大な量の情報の中から目的の情報を探し出すための仕組みはいまだ十分とは言えません．

目的のページのURLを指定する．
検索エンジンで目的のページを検索する．

ぐらいが一般的ですが，多くの場合は検索エンジンに頼ることが多いと思います．
現在の検索エンジンは，基本的にはキーワードマッチングなので，その言葉の上位概念や下位概念，また類似概念という広がりを持たせた検索ができません．

たとえば，「銀河系」というキーワードで検索した場合，part-ofの関係である「太陽系」の情報が得られるかというと必ずしもそうではありません．このように検索に多様性を与えることができれば，検索の精度が向上すると考えられます．

ということで，コンピュータに意味を理解させるというのは難しいということだと思います．上記の事柄をRDFやOWLで解決しているので別のエントリでまとめたいと思います．

かとじゅんの技術日誌

技術の話をするところ

コンピュータが意味を理解することの難しさ

情報の粒度の問題

情報の関連性の問題

情報の検索の問題