« データベース・システム概論 | メイン | 備えて覚悟し祈ること »

2005年01月07日

Wiki/blogではじまるSemanticWeb

窓の杜 - 【NEWS】“Wiki”を利用したWebページ作成を学習したいときに便利な「ひとりWiki」

このソフトはなかなか興味深いですね。
このページで使っているMovableTypeをはじめとするblogツールに
並んでこのWikiも最近流行ってますよね。もはやエディタでコツコツ
とHTMLを手入力してウェブサイトをデザインしたり構築したりする
時代は終ったということでしょうか。はじめてHTMLを学んだ1995年の
頃からすると隔世の感がありますね。

MovableTypeやWikiのようなコンテンツを簡易に作成・管理ができて
ウェブページを自動的に生成してくれるツールが普及すると、その先
に来るものはなんでしょうか。私が現段階でこれらのツールに残って
いる課題として認識しているのは、次の2つです。

・各ツール間でのXMLデータの標準化
・blogやWikiで生成されたページを統合するPortalツール

まず1つ目は、現段階では各blogツール毎にデータを内部で保持する
ために使っているXMLの形式に互換性が無いようですので、W3C等が
主導権を取って標準化に取り組む事が望まれます。

そしてXMLデータが標準化されたら、2つ目の各ページを統合する
Portalツールが必然的に必要になります。ウェブ上のコンテンツ
の大多数がblogやWikiで記述されるようになれば完全にデザイン
と文書構造が切り離された状態が実現できます。
しかも、文書構造は前述の通り標準化されたXMLスキーマによって
共通化されている状態ですから、これを利用しない手はありません。
共通化/標準化されたコンテンツを網羅的に収集しインデックス化
したり、カテゴライズして必要なコンテンツに効率的にアクセス
するための手法やツールが必要になるはずです。この時に必要に
なるのが、blogやWikiのXMLデータを解釈可能なPortalツールです。

おそらく今後、blogやWiki専門の検索エンジンが登場するでしょう
間違いなく、テクノロジの方向性は「セマンティックWeb」に向か
って進んでいるようです。

投稿者 abiru : 2005年01月07日 11:26

トラックバック

このエントリーのトラックバックURL:
http://abiru.jp/blog/mt-tb.cgi/28

コメント

 データ形式に関しては、blosxomを使っているわたしは、問題だと感じていません。なんせ単なるテキストですから。便利です。

 XMLはExchange Formatとしては優秀ですが、Store&SearchするためのFormatとしては不向きだと思います。

 それよりなにより、blogやWikiの問題点は、誰でも作れるがゆえにコンテンツの質が低いこと。これまでPortalとして非常に有用だったGoogleが最近、役に立たなくなってきているのは、圧倒的に屑情報のblogが大量にヒットするようになったからだと感じています。

 ボタ山は所詮ボタ山です。

 CMSは今後も発展を続けるでしょうが、Archieが決して主流にならないように、猥雑な方向で、ただし、もっともっとCooperativeな方向で発展するだろう、というのがわたしの予想です。

 あびるさんとはだいぶん違いますね:)

投稿者 みねこ : 2005年01月08日 00:17

みねこさん、コメントありがとうございます。
これまで寄せられたコメントは会社の人からのコメントばかり
だったので、とても嬉しいです。

さて、みねこさんが下さったコメントに対して更にコメント
したいと思います。

>losxomを使っているわたしは、問題だと感じていません。
>なんせ単なるテキストですから。便利です。

みねこさんの仰る通り、ただのテキストデータであれば余計な
事を考えずに利用できて汎用性も高く非常に便利です。
しかし、ブログに限らずコンテンツに何らかの文書構造を持たせ
たい時や、持たせなければならない時、持たせた方が都合が良い時
にはどうでしょうか。単なるテキストデータを書き連ねている
だけでは、文書構造を明確に定義してコンテンツに意味合いを
持たせる事は難しくなってしまうのではないでしょうか。

たしかにplain textは扱いやすく便利である事は確かです。
しかし少しだけ、いぢわるな言い方をすれば、XMLもHTMLも
plain textのデータなのです。重要な事は、そこに文書構造
や意味付けができるような取り決めが予め存在しているという
所なのではないかと考えますが、いかがでしょうか。

>XMLはExchange Formatとしては優秀ですが、Store&Search
>するためのFormatとしては不向きだと思います。

この点については、みねこさんの意見に大いに賛成します。
たしかにXMLQueryなどの手法は検討されていますが、まだXML
ドキュメントは「理想的な汎用データ形式ではあろうが扱いにくい」
という印象を拭えません。
これは、私がRDBMSに関わる仕事をしているから、そのように
感じるのかもしれませんね。

>blogやWikiの問題点は、誰でも作れるがゆえにコンテンツの質が低いこと。

この点については、私は、少し違う意見を持っています。
以下は私の非常に私的な意見です。

WWWは、全人類のために開かれた普遍的メディアであるべきで
誰でもWebのコンテンツを作成・公開できるような状況が整備
されなければなりません。また、そのコンテンツの質が低いか
高いかはそのコンテンツを読む側の人間が総合的に判断する
ものであり、非常に高度で有用な例えば学術論文のような
コンテンツから、私のブログのような駄文や個人の日記、
果ては便所の落書であっても、そのコンテンツを作った人間が、
それをWebで公開したいと望むなら、それを公開できる方法
が提供されていなければなりません。

したがって、私はblogやWikiが普及する事によって、みねこ
さんがおっしゃるような「質の低いコンテンツ」がWebに流入
する事は問題だとは考えません。むしろ、Web上に公開される
コンテンツの多様性が増す事などを歓迎したいと思っています。

それよりも問題なのは、せっかく構造化されているコンテンツが
多数ありながら、その構造を正しく解釈・活用して、きちんと
情報を整理整頓するためのテクノロジが欠けているという事です。

>Portalとして非常に有用だったGoogleが最近、役に立たなく
>なってきているのは、圧倒的に屑情報のblogが大量にヒット
>するようになったからだと感じています。

みねこさんが問題視されているGoogleの検索結果に屑情報が
増えたという点が正にこれに該当するのではないでしょうか。
これは、検索結果に屑情報が増えたのではなく的確な検索結果が
得られない事によって、みねこさんが求めるコンテンツに
たどり着きにくくなっているだけではないでしょうか。

みねこさんが「屑」と評価できるコンテンツも別の人に
とっては非常に有用なコンテンツかもしれませんし・・・。

問題の本質はWeb上に屑情報が増えた事ではなく、屑情報と
有用な情報、より直接的な言い方に言い換えれば、みねこ
さんが欲しい情報と興味の無い情報を正しく分類できていない
現在のコンテンツの表現形式と検索エンジンの機能が問題
なのだと私は考えますがどうでしょう。

もし、ご意見とお時間がありましたら、またコメントを頂ければ
大変光栄に存じます。

----

いやぁ、今日は有意義な思考を巡らせる時間が持てた事が
とても嬉しいです。会社ではなかなかこういったテクノロジの
未来像について議論する機会が得られないので、本当に楽し
かった!またよろしくおねがいします。

投稿者 あびる本人 : 2005年01月08日 03:36

少し論点を絞りましょう。

・データ形式について

 どんな環境(携帯からPDA,PCにいたるまで)でも簡単に、作成、編集、保存でき、簡単に検索できることをわたしは最低条件としています。この最低条件をクリアできるのは、いまのところ、テキスト、HTML、XMLくらいでしょうか。
 それに加えて根が怠け者なので、自分が書きたいこと以上のことを書くのがいやなのです。正直、段落だからといってpタグを入れること自体も面倒でいやなくらい。段落は改行を入れることによって表現する、というのは小学校で習わなかったか、と。なぜそのような文法がPCでは通用しなくなるのか、と。その意味で、Wikiは優秀だと思います。
 でも、WikiはWikiでやっぱり覚えなければならないことがでてきますし、Wikiによって方言があったりするので、それもまたどうかと。
 わたしが書きたいのは、「文章表現」であって、構造でもなければ見栄えでもないのです。そこに注力できないデータフォーマットおよびUIは間違っている、とわたしは感じます。いや、本当に。それを書くのがいやさに書くネタがあってもかかない、ということを繰り返してきましたから。実感として、XMLは面倒くさすぎます。
 ただし、商売となると話は別で、XMLは基本的な交換フォーマットとしては有用で、それを前提とすることで物理フォーマットをあまり意識せずに、のるデータの内容をつめることができます。また、XMLとして正しければタグの省略だのGZIPだので通信路では圧縮をかけたり、最適化することもできますが、通信するデータとしての正しさは保たれることが保証されるわけで、いや、こいつは本当に便利です。
 が、ことWeb、つまり「文章表現」ということになると、少し違うと思うのです。論理構造をもたせたがるのは、論文執筆者とサーチエンジンの設計者です。改行が連続してはいけない、というあの有名なHTMLの制約は詩人にとってはまったく無意味です。それどころか、文字、字間、行間をas isで伝えられない、それを気軽に書けない、字母すら文字コード体系の都合で勝手に変えられてしまうという現状は大いにうれうるところでしょう。

 「Wordで書いてHTMLで保存すれば?」という意見は却下の方向で。

 いろいろ捨てるから便利になっているのです。共通化、標準化、とは多くは妥協の産物です。ANSI Cの規格を見ればわかります。

 と、いうことで、表現者としては、これ以上面倒になると、「自力で表現する」ことができなくなることを憂えておるのです。かつて、「本」は出版社を介在して出版しなくては世に出ないものだったのですが、「同人誌」の一般化でいまや1万円ほど出せばだれでも100部程度の同人誌が発行でき、頒布できる機会も星の数ほどあります。本日のWebの隆盛もその延長にあったと思います。

 誰かに負担を押し付けることなく、誰でも気軽にできる、という意味でHTMLはかなりぎりぎりのラインだったと思うのです。まだ、HTMLは作成した人の統治下に属しています。XMLだと、現状ではそれはなりえません。ツールがXMLを採用したらツールの統治下にはいるでしょう。それは、作成、編集、保存、検索がユーザーの手でどこでも自由に行える環境ではないからです。そして、効率よくそれらを実現する未来像をわれわれは描けていません。

 問題は、XMLを取り巻く現状にあって、それはCMSがXMLをサポートしたから解決するものじゃあないと思うのです。RSSフィードは一般的になってきていますが、それは、「ヘッドラインを配信する」という明確に定義できる目的があったからです。

 それに、いま海外産のツールでXML統合したら無反省にUTF-8使いますよね?小形克宏の「文字の海、ビットの舟」を読む限り、素直に喜べないんですよね……。日本人なら、もう少し、日本語を大切にしたほうがいいんじゃないかな、と。

 と、いうことで、いましばらくは、混沌が支配するし、その混沌はある意味で望ましい混沌なのかな、と思う次第です。母なるNetの海でいましばらくまどろんでみるのも悪くない、と。

 それよりも、SVGがもっとシームレスにならないかなぁ。図を入れたいときに、図を書いて画像に変換して、って言う手間が面倒くさすぎる……。Webでは図が比較的少なく、文字と写真に偏っているのはそのせいでもあると思うのです。

・Googleの屑情報について

 Googleの仕組み上、あるページが他のサイトからリンクされているとPageRankがあがります。これをblogで考えると、1月1日の日記ですばらしい記事を書いて賛同を集めたとして、1月2日の日記に「SendmailのSMTPAuthの設定がうまくいかない。ちくしょう。どうなってるんだ」と書いてしまうと、SMTPAuthの検索で上位にヒットしてしまう、というなんとも笑えない状況が発生します。

 実際には、相互リンクを貼りまくっているblogのトップページにこういう記事が掲載され、なおかつ、Googleのクロールと重なってしまうと、本当に何の情報もないページでも検索エンジンの上位にヒットしてしまいます。blogは簡単に作れるがゆえに、10年前に一世を風靡した日記ページの再来を思わせます。

 それをして、blogという媒体をGoogleがうまく扱えていないからだ、というのを論点にされたと思うのですが、いやいや、そう簡単なものではないかと。

 そもそも、TOPICSをいろいろ取り混ぜて書く、という形式をHTMLはあんまり考えてないんではないか、という節があります。h1タグが頻出するようなHTMLは、ブラウザの採用しているデフォルトのレイアウトを見る限り、あまり想定していませんよね。書けるんだから書けばいいじゃん、というんでは、私的なバックアップは合法だよね、と言っているのとあまり変わりありません。状況が変わっていることは素直に認めなければならないでしょう。いまのHTMLの論理構造フォーマットは、やはり、論文・規格書むきだと思っています。
 また、blogやWikiなどの動的コンテンツが隆盛になってきているのですが、それがそれをHTTP上なりHTML上なり主張することなく、従来のHTMLコンテンツの顔をするということが普通に行われています。と、いいますか、そうすることによってブラウザは何も考えなくてもいいわけですから、共存共栄、なはずなのですが。

 インフラの規格はレガシーの呪縛にしばられているのに、状況だけがどんどん先走っていく、ということに少し疑問をもっているわけです。

 だからといって、レガシーを切り捨てるだけのイノベーションはない。blogだけを検索するシステム、blogだけの通信チャンネル、そういったものを作って果たして役に立つのか、という疑問です。また、その逆も然。とはいえ、現状はなんとかしないと、S/N比は下がる一方です。
 blogやWeb日記に書いた内容と、まじめにHTMLコンテンツを作った内容、どちらが時間がかかっていて、どちらがS/N比が高い情報が多くなるか、といえば、グロスで考えれば後者が多くなるのが当然です。blogは三行記事でも更新しますが、HTMLコンテンツはそこまで適当なスタンスでは更新しないからです。で、面倒くさくなって放置する、と。
 同じインフラを使っていても、性質の違うメディアだと思うのです。
 学会の論文誌と日刊スポーツのようなものです。おなじ印刷というインフラを使っていても、載っている情報はまったく質が異なります。ただ、だからといって、いまは、それらのべつなく検索できる状況なのに、今後は、新聞専用の検索エンジンを作りましょう、といわれて、なるほど、とはあまり思わないのです。両方検索できるから、便利だ、ということを実感してきたからです。でも、あまりに、ピングビラみたいなものが検索されるから辟易としているのもまた事実、ということで。

 そういう自己矛盾の上で毎日葛藤してるわけです(笑)。

 時間がたてば、屑をまき散らす人は淘汰されます。自分でも意味がないということに気がつくからです。Webの自己紹介でもそうでした。もう少し落ち着くのを見届けなくてはならないのかな、と思います。

 個人的には(自分も含め)、ソーシャルネットワークにこそ、そういう情報を乗せておけ、と思うのですがね。でも、技術情報は、そういうところに載せずに、広く公開して、と。人の生活を覗き見るのは、ある種のエンターテイメントであるということには同意しますけどね。

 まとまりがなくなりました。こんなもんでいかがでしょうか。

投稿者 みねこ : 2005年01月08日 15:22

昨日は、友人と飲み会があったのでコメントを書くのが遅くなって
しまいました。ごめんなさい。

> それに加えて根が怠け者なので、自分が書きたいこと以上のことを
> 書くのがいやなのです。
> (中略)
> わたしが書きたいのは、「文章表現」であって、構造でもなければ
> 見栄えでもないのです。そこに注力できないデータフォーマット
> およびUIは間違っている、とわたしは感じます。いや、本当に。それを
> 書くのがいやさに書くネタがあってもかかない、ということを繰り返して
> きましたから。実感として、XMLは面倒くさすぎます。

つまり、みねこさんが仰っておられるのは、コンテンツとしての文章を
書く事に注力したいのであって、コンテンツの構造を定義したり見栄え
を整えたりすることに力を割きたくないということですよね。
そういった意味で言うと現状のXMLなどは構造の定義ばかりが前面に出て
いて面倒くさすぎるというのには賛成です。

> ただし、商売となると話は別で、XMLは基本的な交換フォーマットとして
> は有用で、(中略)
> いや、こいつは本当に便利です。

なるほど、XMLはデータ交換の形式としては有用だけど、データ交換を
あまり重要視しないようなWebのコンテンツを記述するには面倒くさ
すぎるというわけですね。納得です。

> 論理構造をもたせたがるのは、論文執筆者とサーチエンジンの設計者です。
> 改行が連続してはいけない、というあの有名なHTMLの制約は詩人にとって
> はまったく無意味です。

「論理構造をもたせたがるのは、論文執筆者とサーチエンジンの設計者です」
「HTMLの制約は詩人にとってはまったく無意味です。」

うむむ!この2つは格言として頂いておきましょう。
なかなか核心をついた良い一言だと思います。

> いろいろ捨てるから便利になっているのです。

これは、XMLやHTMLのような余計な取り決めを捨てて
極論を言えば、テキスト形式のようなシンプルな形式が
一番便利だという事でしょうか。

でもテキスト形式だとハイパーリンクとかもできませんしねぇ。
シンプルな形式は確かに取扱い易いですが、機能性や利便性とある
程度トレードオフになってしまうのかもしれませんね。扱いやすさを
重視してテキストファイルを選択すると機能性が損なわれますし
機能性や利便性を追求してあらゆるものをXML化しても取り扱い易さ
が無くなってしまいすね。このへんのバランスが難しいところで
今後、Webに関わる多くの人で検討していかなければならない課題
だと思います。

> 共通化、標準化、とは多くは妥協の産物です。

この点については、私はちょっと違う感じがします。
たしかに共通化・標準化する際には、全ての要望を取り込む事が
できませんから、どうしても妥協も必要になりますが、共通化・標準化
する理由は、その規格を策定することによって生じる相互運用性が
重要だからだと思いますし、多少の妥協をしてでも手に入れたい
もっと大きな目的があるからだと思います。個人的には共通化や
標準化をしていくことをより肯定的に捉えています。
ウェブを通じてドキュメントを簡単に流布できるのも、HTMLやHTTP
といった標準化された技術があるからなのですから。

> と、いうことで、表現者としては、これ以上面倒になると、
> 「自力で表現する」ことができなくなることを憂えておるのです。
> (中略)
> 誰かに負担を押し付けることなく、誰でも気軽にできる、という
> 意味でHTMLはかなりぎりぎりのラインだったと思うのです。

たしかに今後Web上のコンテンツのXML化が促進され、そのXMLを
表現者の側が自力で記述しなければならないとしたら、確かに
負担が大きいと思います。

> まだ、HTMLは作成した人の統治下に属しています。XMLだと、
> 現状ではそれはなりえません。ツールがXMLを採用したらツール
> の統治下にはいるでしょう。それは、作成、編集、保存、検索が
> ユーザーの手でどこでも自由に行える環境ではないからです。
> そして、効率よくそれらを実現する未来像をわれわれは描けていません。

たしかに仰る通りだと思います。
HTMLであれば、比較的少ない努力でその全体像を把握できるので、
ツールを利用しなくてもコンテンツの全てを作成することも不可能では
ありませんでしたが、現状のXMLは拡張可能な言語であるが故に従来の
HTMLのようには把握できない状態になっていると思います。
この点をクリアするためにツールを使い出すと今度はツールが持って
いる機能と表現力の限界に束縛されるという状況に陥ります。

やはり、取り扱いのし易さと直観的インターフェースを維持しながら、
ユーザの表現力を束縛しないような理想的なオーサリングシステムを
開発する必要があるでしょう。

> と、いうことで、いましばらくは、混沌が支配するし、その混沌は
> ある意味で望ましい混沌なのかな、と思う次第です。母なるNetの
> 海でいましばらくまどろんでみるのも悪くない、と。

この考え方については私も賛成できます。Webの魅力のひとつは、この
混沌にあると思います。今後、「セマンティックWeb」の考え方が一般化
したとしても、やはり今まで通りHTMLで手入力されたドキュメントは
残るでしょうし、ブラウザもそういった形式をサポートしつづけるでしょう。
また、Webのような多様性を持つメディアが、ある特定のドキュメント形式
で統一されるなどという事はないと思いますし、するべきではないと
おもいます。


・Googleの屑情報について

> それをして、blogという媒体をGoogleがうまく扱えていないからだ、
> というのを論点にされたと思うのですが、いやいや、そう簡単なもの
> ではないかと。

う〜ん、そうでしょうかねぇ。
説明にあったようなエントリ毎の内容の違いによって意図しないページが
上位に上がってしまうという現象については、HTMLやXMLの規格うんぬんの
話ではなくgoogleがかしこくなってくれることを期待したいと思っています。
たとえば、新しいContent-Typeとしてtext/html-weblogみたいなものを
定義して、そのようなContent-Typeが来た時だけgoogleのコンテンツの
解釈方法を変えるというような方法も取れるのではないでしょうか。
まだまだ、技術的に解決できる方法はたくさんあるはずです。

> そもそも、TOPICSをいろいろ取り混ぜて書く、という形式をHTMLはあんまり
> 考えてないんではないか、という節があります。

これはなかなか、的を射たするどい指摘ですね!もともと学術論文の情報共有
のために定義されたという経緯のあるHTMLですから、確かにテーマの異なる
複数のコンテンツが1つのURIの中に含まれるという状態はあまり得意として
いないのかもしれません。

> いまのHTMLの論理構造フォーマットは、やはり、論文・規格書むきだと思っています。
> (中略)
> インフラの規格はレガシーの呪縛にしばられているのに、状況だけがどんどん
> 先走っていく、ということに少し疑問をもっているわけです。

たしかにHTMLやHTTPが当初想定していなかったような使い方をされています
からねぇ、もっと現状にそって緩やかに機能を拡張したり、規格を体系的に
整理したりする時期かもしれませんね。

で、ここまでお互いに書いた事をざっくりとまとめると、こんな感じでしょうか。

1.ドキュメント形式に関する要望とその相違

・コンテンツを創造する側の人間は緩やかで自由なドキュメントの形式を好む
・サーチエンジン開発者はS/N比を上げる為に厳格な文書構造の定義を求める
・両者の要望を汲み取りつつ、より適切なドキュメント形式の策定が必要

2.ドキュメントを生成するツールに求められる理想

・ドキュメントを生成するためツールは簡単に使用できなければならない
・使用法を覚えるためのコストがコンテンツを創造する事を阻害しない程度
に直観的なインターフェースが求められる。
・ツールに実装されている機能の限界がコンテンツを作成する側の人たちの
表現力を束縛しない事が望ましい。

3.現状の問題点

・現状ではドキュメント形式の規格を策定しているメンバーが技術者や
学術系分野に偏っていて、芸術・文学系のコンテンツ創造者の意見が
的確に反映されておらず、厳密な構造定義の方向へ向かいつつある。

・記述のしやすさと、厳密な構造定義はトレードオフになってしまうので
どこでバランスを取るかが課題である。

・ドキュメントを生成するためのツールの使い易さと表現力もトレードオフ
になる可能性あるので、線引きが課題である。

こんな感じでしょうか。まぁ、こういった課題を解決するために私達が
直接関与できる事は非常に少ないのが残念な所ではありますね。

いずれの問題点の項目にも共通して言える事ですが、Webを利用する人
たちの多様性を十分に理解した上で、二律排反する問題をどこでバランスを
取り、柔軟性のあるテクノロジとして維持していくかという事が課題なのでしょう。

私はテクノロジに関わるエンジニアとして、これを決して妥協の産物で
あるとは考えたくはありません。あらゆるテクノロジは人類の幸福に
寄与するため進化を続けるのであり、そのためにあらゆる努力がなされる
と考えています。

みねこさんが下さったコメントを引用しながら書いていたらこんなに
長くなっちゃいました。ごめんなさい♪

投稿者 あびる本人 : 2005年01月10日 01:07

コメントしてください




保存しますか?

(書式を変更するような一部のHTMLタグを使うことができます)