東方中央幻視台

瞼の裏に弾幕が飛び交う程度の能力 - 永夜抄Normalはそれなりに難しい。

目次

Blog 利用状況

ニュース

自己紹介

関連サイト

投稿カレンダー

  • スクリプトをダウンロード!

ブログパーツ

Adsense

書庫

日記カテゴリ

旧わんくま掲示板サルベージ大作戦!

突然某ドアさんに削除されてしまった旧掲示板なのですが、現時点でGoogleのキャッシュにほぼすべてのデータが保持されていました。
というわけで、このキャッシュを蒐集&変換すればデータ復活させられるかもというわけでとりあえず組んでみました。
とりあえずシングルスレッドで組んでみると、案の定応答無しに。
なのでマルチスレッドにしてみると、WebBrowser周りで見事にはまってしまいました。
なので気を取り直してアンマネージMSHTMLで・・・

すごい癖。
インターフェースにキャストしなければまともに動いてくれない不便さ。
そして意味不明にObjectを返してくる or 要求してくるメソッド。

まあ慣れればどうにでもなるが。
それより一番曲者だったのが IHTMLElementCollection.item(object name,object index)。
意味がわからん。
そこで、藁縋で Google Code Search で検索すると SharpDevelop のコードに引っかかった。
どうやら、tags(tagname) で絞り込んで item(index,0) で取得。後は適当にキャストすればいいらしい。
というわけで、ここらへんの処理は完成。

次に解析と変換。
ジャンプ位置指定用のアンカーを目印にしてDHTML DOMと正規表現でぐりぐり解析。
ここらへんのコードはものすごく汚い。

次にシリアライズと読み込み。
XmlSerializer の仕様に多少はまったがとりあえず完成。

最後にビューア。
現在テスト中…動かないorz…動いた。

最終的にビューアはAjaxで実装してWebから見れるようにする予定。


というわけで、最終的に現行ログ、過去ログあわせて約934トピック、6279件の記事をサルベージできました。

実行ファイルとサルベージしたデータはここからダウンロードできます(3.27MB)。

投稿日時 : 2007年1月19日 22:10

コメントを追加

# re: 旧わんくま掲示板サルベージ大作戦! 2007/01/19 23:22 中博俊

ビューアいらないからcbbsの形式に落してほしいです。

# re: 旧わんくま掲示板サルベージ大作戦! 2007/01/19 23:31 Hirotow

>ビューアいらないからcbbsの形式に落してほしいです。
明日やってみます。
調査に半日ほどかかるかも。

# re: 旧わんくま掲示板サルベージ大作戦! 2007/01/20 0:10 中博俊

無理なら静的HTMLとして取り込みます。
頑張ってください。

# 続、旧わんくま掲示板サルベージ大作戦! 2007/01/23 23:09 Hirotow's Craftive Blogs

続、旧わんくま掲示板サルベージ大作戦!

# 続、旧わんくま掲示板サルベージ大作戦! 2007/01/23 23:11 Hirotow's Craftive Blogs

続、旧わんくま掲示板サルベージ大作戦!

タイトル  
名前  
URL
コメント