Dans le cas de processus tels que l’intégration des données, la migration des données,
l’automatisation des entrepôts de données, la synchronisation des données,
l’extraction automatique de données ou d’autres projets de gestion des données,
la qualité de l'étiquetage conditionnera la qualité des données qui seront analysées
pour en tirer des informations exploitables.
..glossary::
étiquetage des données
Un label est associé à une donnée pour savoir par exemple quelle est
sa provenance.
**E**\ xtraire les données
-----------------------------
- **Extraire les données** c'est, dans ce cas, charger depuis le système de fichiers en local,
les fichiers CSV et XML.
..note:: Pas besoin de collecte et agrégation des données.
Les Sources de datas sont présentes en local dans l'application.
..admonition:: TODO
Il faudra les enlever de l'arborescence flask pour les mettre dans
un :term:`référentiel de données`.
Datasource CSV::
./app/static/csv/corpus-agnes-bourgogne.csv
./app/static/csv/corpus-charles-i.csv
./app/static/csv/actors.csv
Datasource XML :
Dans `./app/static/xml/` :
..image:: img/xml.png
Le référentiel de données
Le référentiel de données
--------------------------------
--------------------------------
@ -215,68 +118,16 @@ La **T**\ ransformation des données
La transformation des données consiste à convertir les données d’un format source dans un format cible. Cela peut inclure un nettoyage des données par une modification des types de données, une suppression des données invalides ou des doublons, une agrégation des données, un enrichissement des données ou d’autres transformations.
La transformation des données consiste à convertir les données d’un format source dans un format cible. Cela peut inclure un nettoyage des données par une modification des types de données, une suppression des données invalides ou des doublons, une agrégation des données, un enrichissement des données ou d’autres transformations.
- La transformation des données
La visualisation des pipelines
----------------------------------
- normalisation
- dédoublonnage
- vérification
- classement
- partage des données
Autres types de transformation :
- Cleaning
- Filtering
- Joining
- Sorting
- Splitting
- Deduplication
- Summarization
"The data cleaning and organization stage is the transformation stage."
..rubric:: Quel type de transformation des données et pourquoi ?
Il s'agit surtout de les structurer, ce que faisait, avant, le storage
Utiliser l'outil fournit avec kedro, lancer la commande::
dans une base de données relationnelle.
Aujourd'hui, l'organisation des datas ne relève plus de la responsabilité du storage