作ったアイキャッチ用画像が、素人感満載!と思いながら、アップ!
おはようございます。ただいま早朝に記載しております、Sparkleです。
さて、サイトのソースなどは、右クリックやF11などから見ることが出来ますが、サイト構成などは見れませんよね。そこで、サイトを丸ごとDLして構成を理解しちゃおう!というコーナーです。
wgetをパソコンに設定する
まず、wgetをダウンロードする。
最初に、Wget for Windowsサイトに飛び、wgetをパソコンにダウンロードします。ページを下り、Binaries、Dependenciesのzipをダウンロードしましょう。
DLファイルを解凍し、フォルダに統合します。
Binaries、Dependenciesのzipファイルをダウンロードしたら、解凍し、各ディレクトリを一つのフォルダに入れましょう。そして、wget-1.11.4-1-binのフォルダ名をwgetに変更します。
wgetディレクトリに必要なファイルを入れる
次に、wget-1.11.4-1-dep\binを開き、そこにあるdllファイルすべてをコピーします。
そして、先ほど名前変更したwgetディレクトリ内binフォルダにペーストします。
次に、ディレクトリーを好みの位置に移動します。
ここまで出来たら、wgetとwget-1.11.4-1-depディレクトリが入っているフォルダを、好みの場所に移動します。ドライブ直下だとわかりやすいです。
自分は、別ドライブに設定しました。
ここは各自、自身のPC構成に合わせてください。
最後にPCにPATHを通します。(ここ大事)
最後に、PCにwgetが使えるように、PATHを通します。スタートボタンよりコンピューターを右クリック。プロパティを選択。
次に、システムの詳細設定をクリック。
続いて詳細設定タブをクリックすると、下に環境変数というボタンが現れますので、こちらをクリックしてください。
続いて、システム環境変数(真ん中から下の設定項目類)から、pathをクリックした後で、編集ボタンを押します。
後は、出てきた画面にwgetへのPATHを設定します。
変数値の最後に、セミコロン(;)を付けてから「設定した場所\dl_tool\wget\bin」を記載します。
PATHが通ったか確認しましょう
最後に、PATHが無事通っているか確認しましょう。コマンドプロンプトを立ち上げ、wget –version と入力してください。以下の画面が出れば成功です!
さぁ、早速サイトをDLしてみよう!
サイトDLするコマンドはこちら。
wget -r -p -E -k -nH -q サイトURL
これで、サイト構成丸ごとを取得します。事前にcdで、DLしたいディレクトリーに移動して実行してください。
このコマンドは、サイトの構成を丸ごと取得するため、サイト規模によりかなり時間がかかります。もし、全部が必要ではない場合は、「-l 数値」でURLリンクから辿る階層をしてしてみてください。
wgetコマンドを理解しよう!
さてそれでは、wgetコマンドを細かく理解してみましょう。
-c : ダウンロードに失敗したら、再度やり直しする
ダウンロードを途中で中断してしまった時などに便利です。
wget -c http://ファイルのURL
-t : リトライする回数を指定する
こちらのコマンドは、リトライする回数を指定します。-t3の場合、3回tryします。
wget -c -t3 http://ファイルのURL
-b: ダウンロードをバックグラウンドで実行する
wget -b http://ファイルのURL
-i : ファイルを読み込んで複数ファイルを連続でダウンロード!
テキストファイルに対象URLを記述しておくことで、連続で複数ファイルをダウンロードできます。
wget -i http://ファイルのURL
-O : ファイルの保存先を指定する
保存先PATHをしてすれば、cdで対象フォルダに移動しなくても、対象フォルダに保存することも可能です。
wget -O 保存先PATH http://ファイルのURL
-x : ディレクトリーを作る
ディレクトリーを作ることも可能だったり。
wget -x ディレクトリ名 http://ファイルのURL
-r : 再帰的にダウンロードをする
サイトの内容をリンク先も含めて全て取得できるコマンドが実はこれです!再帰ダウンロードと呼ばれるもの。一番最初にお伝えしたコマンドでも、rから始まっていますよね。このrコマンド。rコマンドに付随して使えるコマンドがあります。
wget -r http://ファイルのURL
-A : 【付随】条件にマッチしたファイルのみを一括ダウンロード
-Aをつけることで、拡張子を指定することが出来ます。拡張子は複数指定も可能。その場合は、コンマ(,)で区切ってください
wget -r -A jpg,png http://ファイルのURL
-R : 【付随】条件にマッチしたファイルを排除する
こちらは逆に、-Rでダウンロードしない拡張子を指定することが出来ます。こちらも複数指定可能。コンマ(,)で区切ってください。
wget -r -R jpg,png http://ファイルのURL
-l : 【付随】読み込む階層数を指定する
URLから読み込んでいく階層数を指定することが出来ます。この時、-l0(ゼロ)とした場合、無制限になります。
wget -r -l2 http://ファイルのURL
-
-p : 【付随】HTML を表示するのに必要な全ての画像等も取得する
- 純粋に、HTMLを表示するのに必要な画像・音声ファイルを含めて取得するコマンドです。これだけでもいいかもしれないですね。
wget -r -p http://ファイルのURL
他にも色々
他にも色いろあるコマンド。@IT様からコマンド一覧を引用させていただきます。
引用:@IT:HTTP/HTTPSでまとめてデータを取得するwgetコマンドとは?
他、こちらのサイトもわかりやすいので参考にしてみてください。
まとめ
いかがだったでしょうか?かなりのコマンドもあり、利用方法によってはかなり使えます。以前、サイトデーターを丸ごとDLするソフトで、weboxを利用していましたが、その代わりに利用もできそうです。興味がある方は、是非挑戦してみてください。ありがとうございました!