web:api:archiveouverte
Différences
Ci-dessous, les différences entre deux révisions de la page.
| web:api:archiveouverte [2020/01/06 11:21] – Création root | web:api:archiveouverte [2020/01/06 15:56] (Version actuelle) – Ajout du script Python "Télécharger les documents liés à un résultat" root | ||
|---|---|---|---|
| Ligne 8: | Ligne 8: | ||
| https:// | https:// | ||
| + | |||
| + | ====Scripts python==== | ||
| + | * Télécharger les documents liés à un résultat | ||
| + | |||
| + | <code python> | ||
| + | import json | ||
| + | import re | ||
| + | import urllib | ||
| + | import urllib.request | ||
| + | import os.path | ||
| + | |||
| + | #Chemin où sont enregistré les résultats des requêtes au format JSON | ||
| + | folder = ' | ||
| + | |||
| + | # JSON contenant les résultats des requêtes | ||
| + | for annee in [' | ||
| + | with open(folder + annee, ' | ||
| + | distros_dict = json.load(f) | ||
| + | |||
| + | regex_num = re.compile(' | ||
| + | |||
| + | for distro1 in distros_dict[' | ||
| + | vide = True | ||
| + | for fichiertype in [' | ||
| + | if fichiertype in distro1: | ||
| + | for files in distro1[fichiertype]: | ||
| + | vide = False | ||
| + | title_search = regex_num.search(files) | ||
| + | filename = files[files.rfind("/" | ||
| + | # On ajoute au nom du fichier le numéro HAL. | ||
| + | newfilename = folder + annee + ' | ||
| + | if not os.path.isfile(newfilename): | ||
| + | try: | ||
| + | urllib.request.urlretrieve(files, | ||
| + | except urllib.error.HTTPError: | ||
| + | print(' | ||
| + | if vide: | ||
| + | print(' | ||
| + | </ | ||
web/api/archiveouverte.1578306111.txt.gz · Dernière modification : de root
