|
|
|
@ -4,9 +4,12 @@ La pipeline kedro des actes princiers
|
|
|
|
L'oritentation data science du projet a pour but principal de séparer en plusieurs étapes les différentes problématiques du traitement des données.
|
|
|
|
L'oritentation data science du projet a pour but principal de séparer en plusieurs étapes les différentes problématiques du traitement des données.
|
|
|
|
|
|
|
|
|
|
|
|
La commande `kedro run` permet de lancer la pipeline, c'est-à-dire le script `pipelines.py` :
|
|
|
|
La commande `kedro run` permet de lancer la pipeline, c'est-à-dire le script `pipelines.py` :
|
|
|
|
1. `pipelines.py` charge les `catalog.yml` et va chercher `nodes.py`
|
|
|
|
|
|
|
|
2. `nodes.py` va chercher `actesdataset.py`
|
|
|
|
#. `pipelines.py` charge les `catalog.yml` et va chercher `nodes.py`
|
|
|
|
3. `actesdataset.py` réalise les traitements de données.
|
|
|
|
|
|
|
|
|
|
|
|
#. `nodes.py` va chercher `actesdataset.py`
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#. `actesdataset.py` réalise les traitements de données.
|
|
|
|
|
|
|
|
|
|
|
|
La pipeline du projet *Actes princiers* possède deux points d'entrée :
|
|
|
|
La pipeline du projet *Actes princiers* possède deux points d'entrée :
|
|
|
|
- Le premier charge les XML sources avec `xml.etree.ElementTree` de la librairie `lxml` et permet de générer un dictionnaire.
|
|
|
|
- Le premier charge les XML sources avec `xml.etree.ElementTree` de la librairie `lxml` et permet de générer un dictionnaire.
|
|
|
|
|