You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

99 lines
2.9 KiB
Plaintext

.. meta::
:description: pipeline ML
:keywords: faker, fake users, pipeline, data version control
Pipeline de création des utilisateurs d'une application
==========================================================
Générer des données utilisateur
--------------------------------
Nous alons générer aléatoirement ces données utilisateurs avec la librairie
python `faker`.
- Installer d'abord `faker`
::
pip install -r src/requirements.txt
.. important:: Installez `faker <https://faker.readthedocs.io/en/master/>`_
- Lancer le script :
::
python src/prepare.py
.. note:: Le fichier `csv` généré est : `data/original_data.csv`
stage dvc::
dvc stage add -n prepare -d src/prepare.py -o data/prepared/original_data.csv python src/prepare.py
Nettoyer les données
----------------------
- Les données, brutes, ont souvent besoin d'être retravaillées.
- exemple : faire un tri, ou bien enlever un champ ou une colonne.
Ou tout exemple de manipulations comme si elles étaient faites dans un tableur.
commande dvc::
dvc stage add -n cleancsv -d src/clean_csvdata.py -d data/original_data.csv -o data/prepared_data.csv python src/clean_csvdata.py
Visualisation des données générées
------------------------------------
.. admonition:: Prérequis : installer pandas
Utilisez la librairie `pandas <https://pandas.pydata.org/>`_ plutôt qu'un simple tableur.
La librairie pandas doit être installée au préalable
.. rubric:: Vous devez obtenir un résultat de ce type :
.. code-block:: shell
name last name mail company phone
0 Frédéric Launay Marty zoeboutin@faure.net Lebrun Gerard S.A.R.L. +33 (0)1 16 92 23 53
1 Lorraine Boyer Lemaire rodriguesanouk@morin.com Ruiz 0172426520
2 Frédérique Le Royer Lebrun nguyennoel@tiscali.fr Carre SA +33 4 29 92 99 00
3 Thierry Gomez Fischer alain91@gomez.org Wagner 02 83 77 23 36
4 Thibault-Charles Lecoq Leconte guilbertdenis@tele2.fr Labbe Leger et Fils +33 (0)3 19 61 82 07
commande dvc::
dvc stage add -n visualize -d src/visualize_data.py -d data/prepared_data.csv -o data/visualize.txt python src/visualize_data.py
Exporter les données en liste python
---------------------------------------
commande dvc::
dvc stage add -n datatolist -d src/datatolist.py -d data/prepared_data.csv -o data.py python src/datatolist.py
Générer le json
----------------
- création du json
- ajout d'un mot de passe
commande dvc::
dvc stage add -n jsonfile -d src/make_json_with_password.py -d data/prepared_data.csv -o data/userdata.json python src/make_json_with_password.py
Manipulations dvc
-----------------------
::
dvc status
Data and pipelines are up to date.