Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente |
cmd:wget [2020/04/20 11:37] – Ajout de "Inclusion / exclusion" : parse 1 root | cmd:wget [2021/02/01 14:26] (Version actuelle) – Ajout de "Proxy" root |
---|
====Algorithme==== | ====Algorithme==== |
===Inclusion / exclusion=== | |
| |
Analyse de la fonction ''download_child'' du fichier ''recur.c''. | Analyse de la fonction ''download_child'' du fichier ''recur.c''. |
Est-ce que l'option ''%%--exclude%%'' / ''-X'' est actif et que l'URL fait partie de la liste interdite ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' est prise en compte. | Est-ce que l'option ''%%--exclude%%'' / ''-X'' est actif et que l'URL fait partie de la liste interdite ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' est prise en compte. |
| |
* Etape 8 : Vérification du niveau de récursion | * Etape 8 : accept-regex / reject-regex |
| |
| Est-ce que l'option ''%%--accept-regex%%'' est actif et que l'URL complet ne fait pas partie de la liste autorisé ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' n'est pas prise en compte. |
| |
| Est-ce que l'option ''%%--reject-regex%%'' est actif et que l'URL complet ne fait partie de la liste interdite ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' n'est pas prise en compte. |
| |
| * Etape 9 : Vérification du niveau de récursion |
| |
Si le niveau maximum de récursion est atteint : on ignore. | Si le niveau maximum de récursion est atteint : on ignore. |
| |
* Etape 9 : Est-ce que le nom du fichier est filtré ? | * Etape 10 : Est-ce que le nom du fichier est filtré ? |
| |
Si ni l'option ''%%--%%accept'' / ''-A'' ni ''%%--reject%%'' / ''-R'' n'est utilisé : passé à l'étape suivante. | Si ni l'option ''%%--%%accept'' / ''-A'' ni ''%%--reject%%'' / ''-R'' n'est utilisé : passé à l'étape suivante. |
Est-ce que l'option ''%%--reject%%'' / ''-R'' est actif et que l'URL fait partie de la liste interdite ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. Si les wildcards ne sont pas utilisés, on compare les suffixes L'option ''%%--ignore-case%%'' est prise en compte. | Est-ce que l'option ''%%--reject%%'' / ''-R'' est actif et que l'URL fait partie de la liste interdite ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. Si les wildcards ne sont pas utilisés, on compare les suffixes L'option ''%%--ignore-case%%'' est prise en compte. |
| |
* Etape 10 : est-ce que l'exploration des autres domaines est autorisé ? | * Etape 11 : est-ce que l'exploration des autres domaines est autorisé ? |
| |
Si les schémas sont compatibles (HTTP/HTTPS), on ignore si l'URL est dans un autre domaine / sous-domaine et que l'option ''%%--%%span-hosts'' / ''H'' n'est pas activé. | Si les schémas sont compatibles (HTTP/HTTPS), on ignore si l'URL est dans un autre domaine / sous-domaine et que l'option ''%%--%%span-hosts'' / ''H'' n'est pas activé. |
| |
* Etape 11 : robots.txt | * Etape 12 : robots.txt |
| |
Est-ce qu'on applique la contrainte de ''robots.txt''. Il existe une option ''use_robots'' qui vaut ''true'' par défaut et qui ne semble pas être personnalisable. | Est-ce qu'on applique la contrainte de ''robots.txt''. Il existe une option ''use_robots'' qui vaut ''true'' par défaut et qui ne semble pas être personnalisable. |
| |
Si toutes les étapes sont respectées, on télécharge le lien. | Si toutes les étapes sont respectées, on télécharge le lien. |
| |
| ====Configuration==== |
| ===Proxy=== |
| |
| Il faut éditer le fichier ''/etc/wgetrc'' et configurer les lignes : |
| |
| <code> |
| https_proxy = http://xx.xx.xx.xx:80/ |
| http_proxy = http://xx.xx.xx.xx:80/ |
| ftp_proxy = http://xx.xx.xx.xx:80/ |
| </code> |
| |
====Exemples==== | ====Exemples==== |
===Télécharger un site entier=== | ===Télécharger un site entier=== |
[[http://www.linuxjournal.com/content/downloading-entire-web-site-wget|Downloading an Entire Web Site with wget]] {{ :cmd:wget:downloading_an_entire_web_site_with_wget_linux_journal_2019-10-16_09_10_44_.html |Archive du 05/09/2008 le 16/10/2019}} | [[http://www.linuxjournal.com/content/downloading-entire-web-site-wget|Downloading an Entire Web Site with wget]] {{ :cmd:wget:downloading_an_entire_web_site_with_wget_linux_journal_2019-10-16_09_10_44_.html |Archive du 05/09/2008 le 16/10/2019}} |
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --span-hosts --domains=website.org,images.website2.org --no-parent www.website.org/tutorials/html/ | wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --span-hosts --no-parent --content-disposition --domains=website.org,images.website2.org www.website.org/tutorials/html/ |
| |
===Pas le bon nom de fichier=== | ===Pas le bon nom de fichier=== |