cmd:wget
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| cmd:wget [2020/10/12 10:43] – [Télécharger un site entier] : réorganisation des arguments pour faciliter leurs modifications root | cmd:wget [2025/06/15 18:53] (Version actuelle) – Mise à jour de la partie algorithme root | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| ====Algorithme==== | ====Algorithme==== | ||
| - | ===Inclusion / exclusion=== | ||
| Analyse de la fonction '' | Analyse de la fonction '' | ||
| Ligne 16: | Ligne 15: | ||
| * Etape 3 : validation du schéma de l'URL | * Etape 3 : validation du schéma de l'URL | ||
| - | Est-ce que l'URL commence par HTTP ? Est-ce que l'URL commence par FTP ou FTPS et que '' | + | Est-ce que l'URL commence par '' |
| * Etape 4 : filtrer les liens absolus | * Etape 4 : filtrer les liens absolus | ||
| - | Est-ce que l' | + | Est-ce |
| * Etape 5 : filtrer les domaines | * Etape 5 : filtrer les domaines | ||
| Ligne 32: | Ligne 31: | ||
| Toutes les conditions doivent être réunies : | Toutes les conditions doivent être réunies : | ||
| * '' | * '' | ||
| - | * Même schéma : l'URL de base et l'URL cible sont HTTP/HTTP, HTTPS/HTTP, HTTP/HTTPS ou HTTPS/ | + | * Schéma compatible entre l'URL de base et l'URL cible : HTTP/HTTP, HTTPS/HTTP, HTTP/HTTPS ou HTTPS/ |
| - | * Même sous-domaine | + | * Même sous-domaine |
| - | * Si même schéma, il faut le même port. | + | * Si schéma |
| - | * Si '' | + | * Si '' |
| On vérifie si le fichier est dans un sous-dossier de l'URL d' | On vérifie si le fichier est dans un sous-dossier de l'URL d' | ||
| Ligne 42: | Ligne 41: | ||
| Si ni l' | Si ni l' | ||
| + | |||
| + | On ignore le premier caractère ''/'' | ||
| Est-ce que l' | Est-ce que l' | ||
| Ligne 49: | Ligne 50: | ||
| * Etape 8 : accept-regex / reject-regex | * Etape 8 : accept-regex / reject-regex | ||
| - | Est-ce que l'option | + | La regex est soit '' |
| - | Est-ce que l' | + | Est-ce que l' |
| + | |||
| + | Est-ce que l' | ||
| * Etape 9 : Vérification du niveau de récursion | * Etape 9 : Vérification du niveau de récursion | ||
| - | Si le niveau maximum de récursion est atteint : on ignore. | + | Si le niveau maximum de récursion est atteint |
| * Etape 10 : Est-ce que le nom du fichier est filtré ? | * Etape 10 : Est-ce que le nom du fichier est filtré ? | ||
| Ligne 71: | Ligne 74: | ||
| * Etape 12 : robots.txt | * Etape 12 : robots.txt | ||
| - | Est-ce qu'on applique la contrainte de '' | + | Est-ce qu'on applique la contrainte de '' |
| Si toutes les étapes sont respectées, | Si toutes les étapes sont respectées, | ||
| + | |||
| + | ====Configuration==== | ||
| + | ===Proxy=== | ||
| + | |||
| + | Il faut éditer le fichier ''/ | ||
| + | |||
| + | < | ||
| + | https_proxy = http:// | ||
| + | http_proxy = http:// | ||
| + | ftp_proxy = http:// | ||
| + | </ | ||
| ====Exemples==== | ====Exemples==== | ||
cmd/wget.1602492228.txt.gz · Dernière modification : de root
