Linuxを中心とした話題を投稿予定。 使用ディストリビューションであるFedoraが中心になると思われます。http://oedipa.wiki.fc2.com/にてTips Wikiを公開してます。
wgetを使って保存してみる
Irvine で exblog の過去記事を保存

xiaoxiaさんのところで過去記事を保存と言うことをやってらしたので、ここではLinuxらしくwgetコマンドを使ってやってみます。
wgetコマンドは平たく言うとダウンローダーで、レジューム機能やミラーリング機能などオプションがかなり豊富な割に、実装がかなり軽く、バックグラウンドで走らせておくことも出来る便利コマンドです。
こいつを使ってFedoraのインストールCDをDLしたりしたんですが、今回はexblogの保存に挑戦。
ただ、私があまりwgetについて知りませんでして(爆) 有効なオプションを思いつかなかったので、最低限の設定だけでwgetしてみました。

使ったオプション
recursive=on ディレクトリを再帰的にDLする
noclobber=on 既にあるファイルはDLしない
add_hostdir=off Webページなどを保存する際、ドメイン名以下のディレクトリ構造のみ構成する

この設定でDLしてみたところ、無事全記事のバックアップに成功!
したんですが…ディレクトリがめちゃ多いです(爆) 各投稿に対して1つ1つディレクトリを構成して、その中にindex.htmlを作成してるみたいです。そのため、その全てをDLするとディレクトリ構造が冗長になってしまいます。
そこで、DLするページを「以前の記事」の部分にすることをお推めします。ここだと、その月の記事が一挙に保存できます。ただ、それをするのであればwgetでやる価値はあまり無いとも言えてしまうんですが…(苦笑)
でも、全部DLしたらコメントも入ったページを保存できるのがいいかもしれませんね。あと、各投稿のディレクトリ名.1(or 2)というファイルも存在し、これもHTMLファイルのようです。ディレクトリの中のindex.htmlと同じ内容にも見えるんですが、何が違うのかはちょっとハッキリとは分かりません m(_ _)m
あと、投稿に画像を頻繁に用いている方はこれだけでは保存できそうにありません。おそらく違う場所に保存されているためかとは思います。
テキストがメインの方なら、wgetはかなり手っ取りばやくバックアップが取れるので試してみる価値はあるかも知れません。
wgetに関してはGnuプロジェクトによってWindows用のバイナリも公開されていますので、興味のある方は、試してみるのもいいかも。
もう少しスマートに出来る方法がみつかれば、また投稿したいと思います。

関連記事
スポンサーサイト



コメント
この記事へのコメント
トラバ有難うございます。私もwgetの存在すら知らなかったのですが、cookieを設定するオプションがあるみたいです。これを使えばカウンタは回らずに澄みますね。
http://www.geocities.jp/fut_nis/html/wget-ja/HTTP-Options.html
あるディレクトリ以下をだーっとDLするようですが、画像もDLするならば、書いてあるHTMLを多少解析する必要がありますね。それは、Irvineでも一緒ですが。
cron 仕掛けて、月1で前の月の記事を自動DLとか。便利そうです。
2004/05/21(Fri) 19:42 | URL  | xiaoxia #79D/WHSg[ 編集]
なるほど…、cronですか、それだと勝手にちゃきちゃきとDLしてくれますものね。
このへんの柔軟さが、Linuxのよきところですw
自分用に簡単なシェルスクリプトを組んで、自動的にアーカイブするところまで組んでおくと完璧ですね♪
2004/05/21(Fri) 20:06 | URL  | code_air_edge #79D/WHSg[ 編集]
こ、こんばんは。何か書こうと思ったのですが、
ちょっと分かりません・・。あぁ、windows版もあるんですね。
試してみようかな・・。コメントになってなくてすんまそん。
2004/05/21(Fri) 22:38 | URL  | marubegs8 #79D/WHSg[ 編集]
こんばんは~。
Windows版もあるんですけど、そちらの方はコマンドプロンプトでの起動となってます。
かなり柔軟ではあるんですが、Wgetはxiaoxiaさんの仰る通りcron等でタスクを組んで定期的に掛けるとか、そういう使いかたの方が向いているかも知れませんね。
2004/05/22(Sat) 01:37 | URL  | code_air_edge #79D/WHSg[ 編集]
コメントを投稿
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可
 
トラックバック
この記事のトラックバックURL
この記事へのトラックバック