web:api:archiveouverte
Différences
Ci-dessous, les différences entre deux révisions de la page.
web:api:archiveouverte [2020/01/06 11:21] – Création root | web:api:archiveouverte [2020/01/06 15:56] (Version actuelle) – Ajout du script Python "Télécharger les documents liés à un résultat" root | ||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
https:// | https:// | ||
+ | |||
+ | ====Scripts python==== | ||
+ | * Télécharger les documents liés à un résultat | ||
+ | |||
+ | <code python> | ||
+ | import json | ||
+ | import re | ||
+ | import urllib | ||
+ | import urllib.request | ||
+ | import os.path | ||
+ | |||
+ | #Chemin où sont enregistré les résultats des requêtes au format JSON | ||
+ | folder = ' | ||
+ | |||
+ | # JSON contenant les résultats des requêtes | ||
+ | for annee in [' | ||
+ | with open(folder + annee, ' | ||
+ | distros_dict = json.load(f) | ||
+ | |||
+ | regex_num = re.compile(' | ||
+ | |||
+ | for distro1 in distros_dict[' | ||
+ | vide = True | ||
+ | for fichiertype in [' | ||
+ | if fichiertype in distro1: | ||
+ | for files in distro1[fichiertype]: | ||
+ | vide = False | ||
+ | title_search = regex_num.search(files) | ||
+ | filename = files[files.rfind("/" | ||
+ | # On ajoute au nom du fichier le numéro HAL. | ||
+ | newfilename = folder + annee + ' | ||
+ | if not os.path.isfile(newfilename): | ||
+ | try: | ||
+ | urllib.request.urlretrieve(files, | ||
+ | except urllib.error.HTTPError: | ||
+ | print(' | ||
+ | if vide: | ||
+ | print(' | ||
+ | </ |
web/api/archiveouverte.1578306111.txt.gz · Dernière modification : 2020/01/06 11:21 de root