.. meta:: :description: pipeline ML :keywords: faker, fake users, pipeline, data version control Pipeline de création des utilisateurs d'une application ========================================================== Générer des données utilisateur -------------------------------- Nous alons générer aléatoirement ces données utilisateurs avec la librairie python `faker`. - Installer d'abord `faker` :: pip install -r src/requirements.txt .. important:: Installez `faker `_ - Lancer le script : :: python src/prepare.py .. note:: Le fichier `csv` généré est : `data/original_data.csv` stage dvc:: dvc stage add -n prepare -d src/prepare.py -o data/prepared/original_data.csv python src/prepare.py Nettoyer les données ---------------------- - Les données, brutes, ont souvent besoin d'être retravaillées. - exemple : faire un tri, ou bien enlever un champ ou une colonne. Ou tout exemple de manipulations comme si elles étaient faites dans un tableur. commande dvc:: dvc stage add -n cleancsv -d src/clean_csvdata.py -d data/original_data.csv -o data/prepared_data.csv python src/clean_csvdata.py Visualisation des données générées ------------------------------------ .. admonition:: Prérequis : installer pandas Utilisez la librairie `pandas `_ plutôt qu'un simple tableur. La librairie pandas doit être installée au préalable .. rubric:: Vous devez obtenir un résultat de ce type : .. code-block:: shell name last name mail company phone 0 Frédéric Launay Marty zoeboutin@faure.net Lebrun Gerard S.A.R.L. +33 (0)1 16 92 23 53 1 Lorraine Boyer Lemaire rodriguesanouk@morin.com Ruiz 0172426520 2 Frédérique Le Royer Lebrun nguyennoel@tiscali.fr Carre SA +33 4 29 92 99 00 3 Thierry Gomez Fischer alain91@gomez.org Wagner 02 83 77 23 36 4 Thibault-Charles Lecoq Leconte guilbertdenis@tele2.fr Labbe Leger et Fils +33 (0)3 19 61 82 07 commande dvc:: dvc stage add -n visualize -d src/visualize_data.py -d data/prepared_data.csv -o data/visualize.txt python src/visualize_data.py Exporter les données en liste python --------------------------------------- commande dvc:: dvc stage add -n datatolist -d src/datatolist.py -d data/prepared_data.csv -o data.py python src/datatolist.py Générer le json ---------------- - création du json - ajout d'un mot de passe commande dvc:: dvc stage add -n jsonfile -d src/make_json_with_password.py -d data/prepared_data.csv -o data/userdata.json python src/make_json_with_password.py Manipulations dvc ----------------------- :: dvc status Data and pipelines are up to date.