|
|
|
@ -22,9 +22,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
|
|
|
|
|
|
|
|
|
|
|
|
- Ce fichier définit des catalogues de données (*data catalog*) :
|
|
|
|
- Ce fichier définit des catalogues de données (*data catalog*) :
|
|
|
|
- de type brut (*raw*) : ce sont les données d'origine qui sont immuables et en lecture seule (les XML et les CSV).
|
|
|
|
- de type brut (*raw*) : ce sont les données d'origine qui sont immuables et en lecture seule (les XML et les CSV).
|
|
|
|
- elles se trouvent dans `/actes-princiers/data/01_raw/`.
|
|
|
|
- elles se trouvent dans `/actes-princiers/data/01_raw/`.
|
|
|
|
- de type intermédiaire (*intermediate*) = ce sont les données créées après le traitement des données brutes.
|
|
|
|
- de type intermédiaire (*intermediate*) = ce sont les données créées après le traitement des données brutes.
|
|
|
|
- elles se trouvent dans `actes-princiers/data/02_intermediate/`.
|
|
|
|
- elles se trouvent dans `actes-princiers/data/02_intermediate/`.
|
|
|
|
|
|
|
|
|
|
|
|
`pipeline.py`
|
|
|
|
`pipeline.py`
|
|
|
|
-------------
|
|
|
|
-------------
|
|
|
|
@ -35,9 +35,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
|
|
|
|
|
|
|
|
|
|
|
|
- Il y a deux nodes, qui correspondent à chaque point d'entrée :
|
|
|
|
- Il y a deux nodes, qui correspondent à chaque point d'entrée :
|
|
|
|
- `parse_xml_collection`, qui correspond au traitement sur le datacatalog `bourbon` vers le datacatlog `bourbon_xmlcontent`.
|
|
|
|
- `parse_xml_collection`, qui correspond au traitement sur le datacatalog `bourbon` vers le datacatlog `bourbon_xmlcontent`.
|
|
|
|
- La fonction appelée depuis `nodes.py` est `parse_xml_collection()`.
|
|
|
|
- La fonction appelée depuis `nodes.py` est `parse_xml_collection()`.
|
|
|
|
- `parse_json_collection`, qui correspond au traitement sur le datacatalog `bourbon_json` vers le datacatlog `bourbon_jsonoutput`
|
|
|
|
- `parse_json_collection`, qui correspond au traitement sur le datacatalog `bourbon_json` vers le datacatlog `bourbon_jsonoutput`
|
|
|
|
- La fonction appelée depuis `nodes.py` est `parse_json_collection()`.
|
|
|
|
- La fonction appelée depuis `nodes.py` est `parse_json_collection()`.
|
|
|
|
|
|
|
|
|
|
|
|
.. code-block:: py
|
|
|
|
.. code-block:: py
|
|
|
|
|
|
|
|
|
|
|
|
@ -58,7 +58,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
|
|
|
|
),
|
|
|
|
),
|
|
|
|
|
|
|
|
|
|
|
|
`nodes.py`
|
|
|
|
`nodes.py`
|
|
|
|
--------
|
|
|
|
------------
|
|
|
|
|
|
|
|
|
|
|
|
- Dans `actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py`.
|
|
|
|
- Dans `actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py`.
|
|
|
|
|
|
|
|
|
|
|
|
|