cmd:wget
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
cmd:wget [2020/10/12 10:43] – [Télécharger un site entier] : réorganisation des arguments pour faciliter leurs modifications root | cmd:wget [2025/06/15 18:53] (Version actuelle) – Mise à jour de la partie algorithme root | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====Algorithme==== | ====Algorithme==== | ||
- | ===Inclusion / exclusion=== | ||
Analyse de la fonction '' | Analyse de la fonction '' | ||
Ligne 16: | Ligne 15: | ||
* Etape 3 : validation du schéma de l'URL | * Etape 3 : validation du schéma de l'URL | ||
- | Est-ce que l'URL commence par HTTP ? Est-ce que l'URL commence par FTP ou FTPS et que '' | + | Est-ce que l'URL commence par '' |
* Etape 4 : filtrer les liens absolus | * Etape 4 : filtrer les liens absolus | ||
- | Est-ce que l' | + | Est-ce |
* Etape 5 : filtrer les domaines | * Etape 5 : filtrer les domaines | ||
Ligne 32: | Ligne 31: | ||
Toutes les conditions doivent être réunies : | Toutes les conditions doivent être réunies : | ||
* '' | * '' | ||
- | * Même schéma : l'URL de base et l'URL cible sont HTTP/HTTP, HTTPS/HTTP, HTTP/HTTPS ou HTTPS/ | + | * Schéma compatible entre l'URL de base et l'URL cible : HTTP/HTTP, HTTPS/HTTP, HTTP/HTTPS ou HTTPS/ |
- | * Même sous-domaine | + | * Même sous-domaine |
- | * Si même schéma, il faut le même port. | + | * Si schéma |
- | * Si '' | + | * Si '' |
On vérifie si le fichier est dans un sous-dossier de l'URL d' | On vérifie si le fichier est dans un sous-dossier de l'URL d' | ||
Ligne 42: | Ligne 41: | ||
Si ni l' | Si ni l' | ||
+ | |||
+ | On ignore le premier caractère ''/'' | ||
Est-ce que l' | Est-ce que l' | ||
Ligne 49: | Ligne 50: | ||
* Etape 8 : accept-regex / reject-regex | * Etape 8 : accept-regex / reject-regex | ||
- | Est-ce que l'option | + | La regex est soit '' |
- | Est-ce que l' | + | Est-ce que l' |
+ | |||
+ | Est-ce que l' | ||
* Etape 9 : Vérification du niveau de récursion | * Etape 9 : Vérification du niveau de récursion | ||
- | Si le niveau maximum de récursion est atteint : on ignore. | + | Si le niveau maximum de récursion est atteint |
* Etape 10 : Est-ce que le nom du fichier est filtré ? | * Etape 10 : Est-ce que le nom du fichier est filtré ? | ||
Ligne 71: | Ligne 74: | ||
* Etape 12 : robots.txt | * Etape 12 : robots.txt | ||
- | Est-ce qu'on applique la contrainte de '' | + | Est-ce qu'on applique la contrainte de '' |
Si toutes les étapes sont respectées, | Si toutes les étapes sont respectées, | ||
+ | |||
+ | ====Configuration==== | ||
+ | ===Proxy=== | ||
+ | |||
+ | Il faut éditer le fichier ''/ | ||
+ | |||
+ | < | ||
+ | https_proxy = http:// | ||
+ | http_proxy = http:// | ||
+ | ftp_proxy = http:// | ||
+ | </ | ||
====Exemples==== | ====Exemples==== |
cmd/wget.1602492228.txt.gz · Dernière modification : de root