Les deux révisions précédentesRévision précédente | |
cmd:wget [2021/02/01 14:26] – Ajout de "Proxy" root | cmd:wget [2025/06/15 18:53] (Version actuelle) – Mise à jour de la partie algorithme root |
---|
* Etape 3 : validation du schéma de l'URL | * Etape 3 : validation du schéma de l'URL |
| |
Est-ce que l'URL commence par HTTP ? Est-ce que l'URL commence par FTP ou FTPS et que ''%%--follow-ftp%%'' est activé ? Si non : on ignore. | Est-ce que l'URL commence par ''HTTP''/''HTTPS'' ? Est-ce que l'URL commence par FTP ou FTPS et que ''%%--follow-ftp%%'' est activé ? Si non : on ignore. |
| |
* Etape 4 : filtrer les liens absolus | * Etape 4 : filtrer les liens absolus |
| |
Est-ce que l'option ''%%--%%relative''/''-L'' est actif et que le lien est absolu ? Si oui : on ignore. | Est-ce que l'url est ''HTTP''/''HTTPS'' et que l'option ''-L'' / ''%%--%%relative'' (uniquement) est actif et que le lien est absolu ? Si oui : on ignore. |
| |
* Etape 5 : filtrer les domaines | * Etape 5 : filtrer les domaines |
Toutes les conditions doivent être réunies : | Toutes les conditions doivent être réunies : |
* ''%%--%%no-parent'' actif. | * ''%%--%%no-parent'' actif. |
* Même schéma : l'URL de base et l'URL cible sont HTTP/HTTP, HTTPS/HTTP, HTTP/HTTPS ou HTTPS/HTTPS. | * Schéma compatible entre l'URL de base et l'URL cible : HTTP/HTTP, HTTPS/HTTP, HTTP/HTTPS ou HTTPS/HTTPS. |
* Même sous-domaine | * Même sous-domaine (insensible à la casse) |
* Si même schéma, il faut le même port. | * Si schéma identique, il faut le même port. |
* Si ''%%--%%page-requisites'' n'est pas activé ou que ''%%--%%page-requisites'' est activé et que le fichier n'est pas indispensable au rendu de la page. | * Si ''%%--%%page-requisites'' n'est pas activé ou que ''%%--%%page-requisites'' est activé et que le fichier n'est pas indispensable au rendu de la page (on ne peut filtrer avec ''%%--%%page-requisites'' que si l'élément n'est pas indispensable à l'affichage) |
| |
On vérifie si le fichier est dans un sous-dossier de l'URL d'origine. L'option ''%%--ignore-case%%'' est prise en compte. | On vérifie si le fichier est dans un sous-dossier de l'URL d'origine. L'option ''%%--ignore-case%%'' est prise en compte. |
| |
Si ni l'option ''%%--include%%'' / ''-I'' ni ''%%--exclude%%'' / ''-X'' n'est utilisé : passé à l'étape suivante. | Si ni l'option ''%%--include%%'' / ''-I'' ni ''%%--exclude%%'' / ''-X'' n'est utilisé : passé à l'étape suivante. |
| |
| On ignore le premier caractère ''/''. |
| |
Est-ce que l'option ''%%--include%%'' / ''-I'' est actif et que l'URL ne fait pas partie de la liste autorisé ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' est prise en compte. | Est-ce que l'option ''%%--include%%'' / ''-I'' est actif et que l'URL ne fait pas partie de la liste autorisé ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' est prise en compte. |
* Etape 8 : accept-regex / reject-regex | * Etape 8 : accept-regex / reject-regex |
| |
Est-ce que l'option ''%%--accept-regex%%'' est actif et que l'URL complet ne fait pas partie de la liste autorisé ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' n'est pas prise en compte. | La regex est soit ''posix'', ''pcre'' en fonction de l'option ''%%--%%regex-type''. |
| |
| Est-ce que l'option ''%%--accept-regex%%'' est actif et que l'URL complet ne fait pas partie de la regex autorisée ? Si oui, on ignore. |
| |
Est-ce que l'option ''%%--reject-regex%%'' est actif et que l'URL complet ne fait partie de la liste interdite ? Si oui, on ignore. Les wildcards ''*?[]'' sont autorisés. L'option ''%%--ignore-case%%'' n'est pas prise en compte. | Est-ce que l'option ''%%--reject-regex%%'' est actif et que l'URL complet ne fait partie de la regex interdite ? Si oui, on ignore. |
| |
* Etape 9 : Vérification du niveau de récursion | * Etape 9 : Vérification du niveau de récursion |
| |
Si le niveau maximum de récursion est atteint : on ignore. | Si le niveau maximum de récursion est atteint (''%%--level%%'' / ''-l'') : on ignore. |
| |
* Etape 10 : Est-ce que le nom du fichier est filtré ? | * Etape 10 : Est-ce que le nom du fichier est filtré ? |
* Etape 12 : robots.txt | * Etape 12 : robots.txt |
| |
Est-ce qu'on applique la contrainte de ''robots.txt''. Il existe une option ''use_robots'' qui vaut ''true'' par défaut et qui ne semble pas être personnalisable. | Est-ce qu'on applique la contrainte de ''robots.txt'' (''%%--%%robots'') ? |
| |
Si toutes les étapes sont respectées, on télécharge le lien. | Si toutes les étapes sont respectées, on télécharge le lien. |