昨日見つけたHanRSSは、多階層のサブフォルダが作成可能で、動作が軽快という、いくつも探したWebベースRSSリーダーの中で一歩抜きん出たものだった(そのくらい、どこのリーダーでもできると思っていたのだが…)。
しかし、純粋にRSSの更新を検出して閲覧するだけの機能しか持たないようで、受信したRSSをアーカイブしておく機能などはないようだ。
RSSはサイトの最新情報数件しか配信しないところも少なくないので、過去に配信された情報を蓄積しておいて検索できることは、それなりに需要があることだと思うのだが、どうだろうか。
もっと踏み込むなら、RSSには記事の全文が掲載されない場合もあるので、リンクされているHTMLまでダウンロードしてローカルに保存しておけると良いかもしれない。
この際、データ量の増加には目をつぶろう。
そうした場合、蓄積した過去のフィード、あるいはそこからリンクされているHTMLが更新された場合、それをどうやって検出すればいいだろうか。
俺は、いくつかのブログが提供している「コメントRSS」というやつの存在意義が、今までわからなかった。
だが、既にブログ自体のRSS配信の対象外となってしまった過去の記事に対しても新しいコメントが寄せられることは有り得るため、それを検出するためにあるのだとすれば納得はいく。
そのように、新着記事とは別に更新情報だけを集めたRSSがあればいい。MicrosoftのFeedSync技術なども、(使っているサイトがあれば)有用だろう。
しかし、そうしたものを提供していないサイトも多い。
蓄積するフィードはどんどん増加していくため、更新時に所蔵フィードとHTMLすべてについて更新をチェックしていたら、処理時間がいくらあっても足りない。
データ量の無尽蔵な増加はある程度は許容できても、処理時間の方はそうは行かないものである。
斯様に、RSSやHTMLをキャッシュしておいて、検索できるようにするということを重要課題とした場合、実のところ、やってることはGoogleと変わらなくなってくる。
すなわち、規模の差はあれ、いずれは、大量のコンピュータを用いて、24時間グリッドコンピューティングでブン回さなければならなくなってしまうのだろうなぁ、と。
そうしてみると、RSSリーダー利用者の数だけアーカイブストアが存在しているのは無駄なことこの上ないので、どこかの業者がアーカイブを一元管理してくれるとよいのだが…って、もはやRSSリーダーでどうにかなる範疇を超えてしまうわけだ。困った。
そういえば、ページが更新されているかどうかを簡易的に知るには、HTTPヘッダのIf-Modified-Sinceという手段もある。
ところでこれ、広告のローテーションで画像が変わっているとキャッシュが無効だとか、ブログの過去の月を表示したら、本文は変わっていないのに最新の投稿数だけが変わっているために全体が更新されているとみなされてしまうだとかいう問題は無いのだろうか。
本文とそれ以外の、言わばアーカイブしておく価値のある部分とない部分とを分けるような仕組みも必要なんではなかろうか。