main
gwen 3 years ago
parent 99717bc384
commit 629a04d295

@ -7,7 +7,7 @@ Pour lancer le build de la doc, taper::
Pour consulter la documentation en HTML, lancer:: Pour consulter la documentation en HTML, lancer::
python -m"http.server" --directory ./build/ python -m"http.server" --directory ./build/html
Ouvrir un navigateur, et allez à l'url suivante:: Ouvrir un navigateur, et allez à l'url suivante::

@ -22,9 +22,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
- Ce fichier définit des catalogues de données (*data catalog*) : - Ce fichier définit des catalogues de données (*data catalog*) :
- de type brut (*raw*) : ce sont les données d'origine qui sont immuables et en lecture seule (les XML et les CSV). - de type brut (*raw*) : ce sont les données d'origine qui sont immuables et en lecture seule (les XML et les CSV).
- elles se trouvent dans `/actes-princiers/data/01_raw/`. - elles se trouvent dans `/actes-princiers/data/01_raw/`.
- de type intermédiaire (*intermediate*) = ce sont les données créées après le traitement des données brutes. - de type intermédiaire (*intermediate*) = ce sont les données créées après le traitement des données brutes.
- elles se trouvent dans `actes-princiers/data/02_intermediate/`. - elles se trouvent dans `actes-princiers/data/02_intermediate/`.
`pipeline.py` `pipeline.py`
------------- -------------
@ -35,9 +35,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
- Il y a deux nodes, qui correspondent à chaque point d'entrée : - Il y a deux nodes, qui correspondent à chaque point d'entrée :
- `parse_xml_collection`, qui correspond au traitement sur le datacatalog `bourbon` vers le datacatlog `bourbon_xmlcontent`. - `parse_xml_collection`, qui correspond au traitement sur le datacatalog `bourbon` vers le datacatlog `bourbon_xmlcontent`.
- La fonction appelée depuis `nodes.py` est `parse_xml_collection()`. - La fonction appelée depuis `nodes.py` est `parse_xml_collection()`.
- `parse_json_collection`, qui correspond au traitement sur le datacatalog `bourbon_json` vers le datacatlog `bourbon_jsonoutput` - `parse_json_collection`, qui correspond au traitement sur le datacatalog `bourbon_json` vers le datacatlog `bourbon_jsonoutput`
- La fonction appelée depuis `nodes.py` est `parse_json_collection()`. - La fonction appelée depuis `nodes.py` est `parse_json_collection()`.
.. code-block:: py .. code-block:: py
@ -58,7 +58,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
), ),
`nodes.py` `nodes.py`
-------- ------------
- Dans `actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py`. - Dans `actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py`.
@ -71,7 +71,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
- le résultat est stocké dans un fichier avec l'extension `.pseudoxml` car il ne s'agit pas d'un fichier XML bien formé. Le but est d'envoyer ces "bouts" de XML dans un JSON. - le résultat est stocké dans un fichier avec l'extension `.pseudoxml` car il ne s'agit pas d'un fichier XML bien formé. Le but est d'envoyer ces "bouts" de XML dans un JSON.
- la fonction retourne un dictionnaire où le nom du fichier est la clef et le pseudoxml la valeur. - la fonction retourne un dictionnaire où le nom du fichier est la clef et le pseudoxml la valeur.
- `make_json_collection` = - `make_json_collection` =
- elle commence par lister les fichiers XML d'un dossier donné (correspondant à une maison princière) - elle commence par lister les fichiers XML d'un dossier donné (correspondant à une maison princière)
- ces fichiers sont parsés avec BeautifulSoup. - ces fichiers sont parsés avec BeautifulSoup.
- BeautifulSoup recherche les metadonnées dans le XML - BeautifulSoup recherche les metadonnées dans le XML

Loading…
Cancel
Save