@ -22,9 +22,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
- Ce fichier définit des catalogues de données (*data catalog*) :
- de type brut (*raw*) : ce sont les données d'origine qui sont immuables et en lecture seule (les XML et les CSV).
- elles se trouvent dans `/actes-princiers/data/01_raw/`.
- elles se trouvent dans `/actes-princiers/data/01_raw/`.
- de type intermédiaire (*intermediate*) = ce sont les données créées après le traitement des données brutes.
- elles se trouvent dans `actes-princiers/data/02_intermediate/`.
- elles se trouvent dans `actes-princiers/data/02_intermediate/`.
`pipeline.py`
-------------
@ -35,9 +35,9 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
- Il y a deux nodes, qui correspondent à chaque point d'entrée :
- `parse_xml_collection`, qui correspond au traitement sur le datacatalog `bourbon` vers le datacatlog `bourbon_xmlcontent`.
- La fonction appelée depuis `nodes.py` est `parse_xml_collection()`.
- La fonction appelée depuis `nodes.py` est `parse_xml_collection()`.
- `parse_json_collection`, qui correspond au traitement sur le datacatalog `bourbon_json` vers le datacatlog `bourbon_jsonoutput`
- La fonction appelée depuis `nodes.py` est `parse_json_collection()`.
- La fonction appelée depuis `nodes.py` est `parse_json_collection()`.
..code-block:: py
@ -58,7 +58,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
),
`nodes.py`
--------
------------
- Dans `actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py`.
@ -71,7 +71,7 @@ La pipeline du projet *Actes princiers* possède deux points d'entrée :
- le résultat est stocké dans un fichier avec l'extension `.pseudoxml` car il ne s'agit pas d'un fichier XML bien formé. Le but est d'envoyer ces "bouts" de XML dans un JSON.
- la fonction retourne un dictionnaire où le nom du fichier est la clef et le pseudoxml la valeur.
- `make_json_collection` =
- `make_json_collection` =
- elle commence par lister les fichiers XML d'un dossier donné (correspondant à une maison princière)
- ces fichiers sont parsés avec BeautifulSoup.
- BeautifulSoup recherche les metadonnées dans le XML