HTML の理念

WWW がどのようにして作られたのか、そしてネットワークがどのようなものであるべきかについての簡単な説明をします。

また、HTML とはどのようなものであるか、そして HTML 文書とはどのようなものであるべきかについての簡単な説明をします。

情報の共有

現代では多数の書籍や論文が発表され、大量の情報が流れる情報洪水の時代となっています。我々が実際に利用する情報は、その中の少数しか有りません。しかし、我々の処理能力を遥かにこえて情報が流され続け、実際に利用したい情報 (金) と、どうでもいい情報 (砂粒) が混じってしまっています。

その中から、本当に欲しい情報 (金) を見分ける作業は結構大変なものです。本屋に行って欲しい本を探し出すのに苦労した経験はあるでしょう? 今日我々が探さなければならない空間は、本屋の比ではありません。或る意味、全世界に広がってしまっています。

そして、本当に欲しい情報を見つけ出しても、その中に書かれてあることをさらに発展させようとイメージを膨らませると、その膨らんだイメージの情報を探し出すために、また膨大な探索空間を探らなくてはなりません。このような関連情報が、ある方面だけに偏って存在していれば、その近くを探せばなんとかなるかもしれませんが、実際そうなっているわけではないのです。古代の美術を研究しようとしても、それだけで古代史やら美術の手法やら、我々の求める「金」は、様々な方面に分散して存在していることが分かります。

より便利に情報を得る為には、関連はあるが分散している情報を連想方式で扱う必要性が生じてきます。即ち、情報と情報をリンク (関連づけ) し、連想的に他の情報を探し出せるようにすることです。情報と情報がリンクされた文書のことを、ハイパーテキストと呼んでいます。

1989 年、ティム・バーナーズリーは、CERN (欧州合同原子核研究機構) 内部の情報システムとして、ネットワークを使ったハイパーテキストシステムの導入を提案しました。CERN では、様々な種類のコンピュータが異なる文書システムを使っていたため、そのままでは情報の共有が困難でした。それを乗り越えるためにティム・バーナーズリーが考えた手法が、WWW と呼ばれる、共通の規則に則って情報を交換する仕組みだったのです。

WWW の標準化と W3C

WWW を普及させる上で、ティム・バーナーズリーは、ユニバーサルという概念が重要であると考えました。つまり、一つの情報空間の中に全てをまとめ、全ての情報を等しく扱うということです。すなわち、全ての文書が等しく簡単にリンクできなければなりません。

記憶に新しいブラウザ戦争(Netscape と、Internet Explorer のシェア争い)によって、HTML 文書を閲覧するためのブラウザは、独自の拡張をし続けていきました。その結果、あるブラウザでは正常に表示されるが、別のブラウザでは崩れて表示されるという困ったことが頻繁に起こる様になりました。今日でも、IE で見てくださいとか、Netscape で見てくださいと書かれたサイトにお目にかかることが屡々あります。また、特定のブラウザのみでしか動作しないスクリプトが使われて、他のプラウザでは見ることの出来ないウェブページも存在します。これらは、ブラウザ戦争が残した一つの負の遺産であります。

このブラウザ戦争によって、WWW からユニバーサルという概念が消えつつありました。ティム・バーナーズリーは、WWW にユニバーサルという概念を取り戻し、そしてそれを維持していこうと 1994 年に、W3C を設立します。W3C では、日々標準化に関する議論が行われ、その結果としての勧告 (Recommendation) は、WWW のユニバーサルという概念を支えるための基盤として機能しています。

HTML の標準へ

W3C では、WWW の発展の為に様々な仕様を制定し、それを勧告していますが、その中に一貫した方法で情報を表現するXMLHTML があります。XML は、マークアップ (文章にタグと呼ばれるものを用いて意味づけを行うこと) の取り決めのみを示すにとどまり、そこからの応用(アプリケーション)として様々な言語 (例えば、XSL, SVG, MathML, XHTML) が策定されています。

この文書では、XML がどういうものであるかをまず簡単に学び、その発展として、XML を用いて定義された XHTML で情報共有を行うことを目指します。現在、XHTML には XHTML1.0 や XHTML1.1 がありますが、ここでは、より厳密で柔軟性の高い、XHTML1.1 を用いたマークアップの方法を学んでいくことにしましょう。現在では XHTML2.0 が議論されていますが、これは今までの HTML から大幅に変わったものになりそうです。従って、普及までには時間がかかると思われます。ここではあまり触れませんが、W3C でなく、ISO からも、HTML 4.0 を基により厳格なルールを適用した ISO/IEC 15445:2000 (通称 ISO-HTML) が 2000 年 5 月 15 日に発表されています。

あるべき HTML の姿

さて、今まで情報がユニバーサルであることの重要性を述べて来ましたが、「これから我々が書くことになる、情報を発進する手段としての HTML は、どのような姿であるべきなのか」ということを考えてみましょう。

我々が情報にアクセスするさいに、その一部だけを取り出すということはよくあります。そのためには、情報がぐちゃぐちゃに納められているのではなく、ある決まった規則の上に整理整頓されていなければなりません。この規則を決めるということは難しいことです。しかし、情報は文書として公開されるということが多いことや、コンピュータと人間の両方に取って分かりやすいことを求めた結果、HTML では文書構造に従って形式的に意味づけを行っていくという方法をとりました。すなわち、ここが文書のタイトルである、ここが見出しである、ここが一つの段落である、ここは強調すべきである……そういった文書構造を、形式的に指定していく方法です。文書構造を表さない意味づけは、理想としては全て排除しなければなりません。すなわち、文書構造に意味の無いレイアウトに関するものは、基本的には全て排除されることになります。しかし、こうすることによって、コンピュータにも人間にも分かりやすい、情報の表現方法となります。

しかし、それではレイアウトが通り一遍の、味気ない文書となりがちです。そこで現在では、レイアウトに関する指定は、 HTML の上に被せるスタイルシートを用いて行うことになっています。スタイルシートは、制作者が何種類も用意できるので、様々なスタイルを提供し、閲覧者が好みのものを選択することも出来ます。スタイルシートを制作者が作成しない場合は、閲覧者のブラウザのデフォルトスタイルシートで、見栄えを制御することになります。

しかし、現状はまだ完全に文書構造と見栄えを排除できているわけではありません。また、文書構造と見栄えを分けることが難しいものもあります。例えば、あるコマンドの出力数行をそのまま表示したい場合は、現状 pre 要素というもので指定する必要があります。これは HTML で或る意味見栄えを制御していることになります。これを表すためのおそらく適当な要素 samp では改行が無視され、通常のブラウザのデフォルトスタイルシートではよくわからない表示になってしまいます。

HTML は、理想的には文書構造と見栄えが切り離されるべきものですが、ブラウザの発展にともなって制定してきたものでもあるため、現実と理想との妥協の産物になっています。XHTML1.1 では、割と理想的なものに近づいて来ました。しかし、制作者はまだ完全に文書構造と見栄えを切り離すことは出来ません。制作側も、屡々妥協して意味づけを行わなくてはいけません。

この文書では、何処は妥協すべきか、何処は妥協すべきでないかということまで、考えていくことにしましょう。そして、現実的な HTML 文書のマークアップの解を探っていきます。

2002-01-01