diff --git a/README.md b/README.md index f14d066..6bc6cd2 100644 --- a/README.md +++ b/README.md @@ -7,7 +7,7 @@ Pour lancer le build de la doc, taper:: Pour consulter la documentation en HTML, lancer:: - python -m"http.server" --directory ./build/ + python -m"http.server" --directory ./build/html Ouvrir un navigateur, et allez à l'url suivante:: diff --git a/source/pipeline_actes_princiers.rst b/source/pipeline_actes_princiers.rst index b04bd7e..38a5e55 100644 --- a/source/pipeline_actes_princiers.rst +++ b/source/pipeline_actes_princiers.rst @@ -22,9 +22,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée : - Ce fichier définit des catalogues de données (*data catalog*) : - de type brut (*raw*) : ce sont les données d'origine qui sont immuables et en lecture seule (les XML et les CSV). - - elles se trouvent dans `/actes-princiers/data/01_raw/`. + - elles se trouvent dans `/actes-princiers/data/01_raw/`. - de type intermédiaire (*intermediate*) = ce sont les données créées après le traitement des données brutes. - - elles se trouvent dans `actes-princiers/data/02_intermediate/`. + - elles se trouvent dans `actes-princiers/data/02_intermediate/`. `pipeline.py` ------------- @@ -35,9 +35,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée : - Il y a deux nodes, qui correspondent à chaque point d'entrée : - `parse_xml_collection`, qui correspond au traitement sur le datacatalog `bourbon` vers le datacatlog `bourbon_xmlcontent`. - - La fonction appelée depuis `nodes.py` est `parse_xml_collection()`. + - La fonction appelée depuis `nodes.py` est `parse_xml_collection()`. - `parse_json_collection`, qui correspond au traitement sur le datacatalog `bourbon_json` vers le datacatlog `bourbon_jsonoutput` - - La fonction appelée depuis `nodes.py` est `parse_json_collection()`. + - La fonction appelée depuis `nodes.py` est `parse_json_collection()`. .. code-block:: py @@ -58,7 +58,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée : ), `nodes.py` --------- +------------ - Dans `actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py`. @@ -71,7 +71,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée : - le résultat est stocké dans un fichier avec l'extension `.pseudoxml` car il ne s'agit pas d'un fichier XML bien formé. Le but est d'envoyer ces "bouts" de XML dans un JSON. - la fonction retourne un dictionnaire où le nom du fichier est la clef et le pseudoxml la valeur. -- `make_json_collection` = +- `make_json_collection` = - elle commence par lister les fichiers XML d'un dossier donné (correspondant à une maison princière) - ces fichiers sont parsés avec BeautifulSoup. - BeautifulSoup recherche les metadonnées dans le XML