投稿数 - 437, コメント - 59540, トラックバック - 156

いつの世も、早すぎる天才は嘲笑される。

HOWS「ISSEI(イッセイ)」

庄司副社長が目を付けていたのは、ファイル検索だ。OSの基本機能であるため、ファイル名の検索速度は速い。そこで検索対象となるファイルに含まれるデータそのものを、すべて「ファイル名」として管理することにした。具体的には、ファイルに含まれる「東京」「大阪」などのデータそのものを、62進数の文字列に変換し、それらをファイル名の集合体として別途管理する(図)。検索対象は、このファイル名の集合体。この方法によって、ハードディスクに保存されているファイル本体にアクセスすることなく、メモリーにキャッシュされたファイル名群を検索することで高速化を図っている。

従来のDBシステムでは、ディスク内のファイルに対してアクセスするのが一般的だ。「ファイルの入出力にかかる時間がボトルネックで、検索速度が上がらないとの問題を抱えていた」(庄司副社長)と言う。

ISSEIはマイクロソフトの「VisualBasic」で開発した。庄司副社長は、「高度な関数を駆使することよりも、処理の高速性を最優先し、シンプルにコードを記述することにこだわった」と話す。庄司副社長は、プログラムが完成するたびにストップウオッチを片手に処理速度を計測したという。

概要だけでは仕組みがよく理解できなかった。

  • ファイル名検索ってハードディスクへのアクセスがなかったのか?
  • 仮にそうだとして、百万件以上もメモリにぶっこんでるのか?
  • リソースを潤沢に使えば速度は上がる、リソースを節約すれば速度が犠牲になる。これ定説じゃなかったっけ?
  • つか、同時実行制御はどうやってんの?
  • Visual Basic ?(これは偏見以外の何ものでもないけど)

と凡人である私はイチャモンしか言えないけど、今後に期待

投稿日時 : 2008年1月22日 17:44

フィードバック

# re: いつの世も、早すぎる天才は嘲笑される。

特許出願ということなので、びしっと決まるまでは何も公表しないでしょうねきっと・・・。

>>Visual Basic ?(これは偏見以外の何ものでもないけど)

とりこびっちに怒られます。

でも。
>>約110万件のデータ検索時間は約1秒になった

はすごいです。
2008/01/22 18:07 | さかもと

# re: いつの世も、早すぎる天才は嘲笑される。

> 具体的には、ファイルに含まれる「東京」「大阪」などのデータそのものを、62進数の文字列に変換し、

というところはとりあえず無視すると、ファイルをパースして、その中身のデータを持ったファイルを作ってしまうように見える。
東京.txt とか 大阪.dat とか(あくまでイメージ)。

> OSの基本機能であるため、ファイル名の検索速度は速い。

で、それを実際に検索するのは、OS が持つファイル検索機構であると。
だとすると、

> ハードディスクに保存されているファイル本体にアクセスすることなく、メモリーにキャッシュされたファイル名群を検索することで高速化を図っている。

確かにファイルの中身を grep することは無いが、ファイル名をメモリーにキャッシュするかどうかは OS の検索機構が決めることなのでは?

> ファイル名検索ってハードディスクへのアクセスがなかったのか?

ファイルシステムにもよるが、ファイルを開いてデータを読むことはせず、ファイルシステムが管理するメタデータ部分を検索するのだろう。
…従来のRDBの仕組みを打ち崩すと言うが、インデックス検索と同じだよなぁ。
2008/01/22 18:23 | シャノン

# re: いつの世も、早すぎる天才は嘲笑される。

> 庄司副社長は今夏、後にISSEIと名付ける技術の開発に着手した。

未来の話みたいですよ。
2008/01/22 18:24 | シャノン

# re: いつの世も、早すぎる天才は嘲笑される。

・・・Visual Basic ?
2008/01/22 18:39 | とりこびと

# re: いつの世も、早すぎる天才は嘲笑される。

なんか、ASテクノロジを思い出した。
2008/01/22 18:49 | シャノン

# re: いつの世も、早すぎる天才は嘲笑される。

>画伯さん
>とりこびとさん

Yes. Visual Basic.


>> 庄司副社長は今夏、後にISSEIと名付ける技術の開発に着手した。
>未来の話みたいですよ。

すっげーわかりにくい書き方だけど、去年の夏の話っぽいです。
2008/01/22 19:33 | 囚人

# re: いつの世も、早すぎる天才は嘲笑される。

> すっげーわかりにくい書き方だけど、去年の夏の話っぽいです。

わかってたけど言ってみた。
なんだか「すげー、未来っぽーい(よくわからずに言ってる)」という揶揄をこめて。
去年中の取材は去年中に記事にしましょうね。
それとも、「今夏」とかって言う場合は年度で考えるとかいうルールがあるのかしら?
2008/01/22 19:55 | シャノン

# re: いつの世も、早すぎる天才は嘲笑される。

さっぱりわかりませんねぇ

DBから作った専用の実装なら、
>約110万件のデータ検索時間は約1秒になった
も内容によっては全然たいしたことないですし。

なにか新機軸な話なら、詳しい情報が欲しいところです。
2008/01/22 20:25 | れい

# re: いつの世も、早すぎる天才は嘲笑される。

ストップウォッチ片手かっ。

と思いました。
2008/01/22 21:52 | NAL-6295

# re: いつの世も、早すぎる天才は嘲笑される。

データを細かなファイルに分けて検索はOSまかせだとするとファイル数が増えてくると性能が極端に劣化するはず。
あと、それってDBのパーティショニングな機能と発想的には一緒。

同様の製品は色々ある(1秒で検索できる件数も1桁とか2桁とか違うものも)あるけれど、それら既存製品との違いがよくわからない。
2008/01/23 5:38 | はつね

# re: いつの世も、早すぎる天才は嘲笑される。

12月30日発行の雑誌記事からなので、去年のうちに記事になってます。

ファイルの中からデータを探して、って、え~と...
2008/01/23 8:32 | Jitta

# re: いつの世も、早すぎる天才は嘲笑される。

>わかってたけど言ってみた。
>なんだか「すげー、未来っぽーい(よくわからずに言ってる)」という揶揄をこめて。
>去年中の取材は去年中に記事にしましょうね。

ボケ殺ししてしまったようだ…。


>DBから作った専用の実装なら、
>>約110万件のデータ検索時間は約1秒になった
>も内容によっては全然たいしたことないですし。

確かに。これからの動きに期待ですね。


>ストップウォッチ片手かっ。
>
>と思いました。

それは確かに思いました^^;


>データを細かなファイルに分けて検索はOSまかせだとするとファイル数が増えてくると性能が極端に劣化するはず。
>あと、それってDBのパーティショニングな機能と発想的には一緒。

一応、ファイル数が100万件でも大丈夫!って事なんですかねぇ…。よくわかりませんが。


>12月30日発行の雑誌記事からなので、去年のうちに記事になってます。

あ、気付かなかった。
2008/01/23 15:42 | 囚人

コメントの投稿

タイトル
名前
URL
コメント