You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
99 lines
2.9 KiB
Plaintext
99 lines
2.9 KiB
Plaintext
.. meta::
|
|
:description: pipeline ML
|
|
:keywords: faker, fake users, pipeline, data version control
|
|
|
|
Pipeline de création des utilisateurs d'une application
|
|
==========================================================
|
|
|
|
Générer des données utilisateur
|
|
--------------------------------
|
|
|
|
Nous alons générer aléatoirement ces données utilisateurs avec la librairie
|
|
python `faker`.
|
|
|
|
- Installer d'abord `faker`
|
|
|
|
::
|
|
|
|
pip install -r src/requirements.txt
|
|
|
|
|
|
.. important:: Installez `faker <https://faker.readthedocs.io/en/master/>`_
|
|
|
|
|
|
- Lancer le script :
|
|
|
|
::
|
|
|
|
python src/prepare.py
|
|
|
|
|
|
.. note:: Le fichier `csv` généré est : `data/original_data.csv`
|
|
|
|
|
|
stage dvc::
|
|
|
|
dvc stage add -n prepare -d src/prepare.py -o data/prepared/original_data.csv python src/prepare.py
|
|
|
|
Nettoyer les données
|
|
----------------------
|
|
|
|
- Les données, brutes, ont souvent besoin d'être retravaillées.
|
|
- exemple : faire un tri, ou bien enlever un champ ou une colonne.
|
|
Ou tout exemple de manipulations comme si elles étaient faites dans un tableur.
|
|
|
|
|
|
commande dvc::
|
|
|
|
dvc stage add -n cleancsv -d src/clean_csvdata.py -d data/original_data.csv -o data/prepared_data.csv python src/clean_csvdata.py
|
|
|
|
Visualisation des données générées
|
|
------------------------------------
|
|
|
|
.. admonition:: Prérequis : installer pandas
|
|
|
|
Utilisez la librairie `pandas <https://pandas.pydata.org/>`_ plutôt qu'un simple tableur.
|
|
La librairie pandas doit être installée au préalable
|
|
|
|
.. rubric:: Vous devez obtenir un résultat de ce type :
|
|
|
|
.. code-block:: shell
|
|
|
|
name last name mail company phone
|
|
0 Frédéric Launay Marty zoeboutin@faure.net Lebrun Gerard S.A.R.L. +33 (0)1 16 92 23 53
|
|
1 Lorraine Boyer Lemaire rodriguesanouk@morin.com Ruiz 0172426520
|
|
2 Frédérique Le Royer Lebrun nguyennoel@tiscali.fr Carre SA +33 4 29 92 99 00
|
|
3 Thierry Gomez Fischer alain91@gomez.org Wagner 02 83 77 23 36
|
|
4 Thibault-Charles Lecoq Leconte guilbertdenis@tele2.fr Labbe Leger et Fils +33 (0)3 19 61 82 07
|
|
|
|
commande dvc::
|
|
|
|
dvc stage add -n visualize -d src/visualize_data.py -d data/prepared_data.csv -o data/visualize.txt python src/visualize_data.py
|
|
|
|
|
|
Exporter les données en liste python
|
|
---------------------------------------
|
|
|
|
commande dvc::
|
|
|
|
dvc stage add -n datatolist -d src/datatolist.py -d data/prepared_data.csv -o data.py python src/datatolist.py
|
|
|
|
Générer le json
|
|
----------------
|
|
|
|
- création du json
|
|
- ajout d'un mot de passe
|
|
|
|
commande dvc::
|
|
|
|
dvc stage add -n jsonfile -d src/make_json_with_password.py -d data/prepared_data.csv -o data/userdata.json python src/make_json_with_password.py
|
|
|
|
|
|
Manipulations dvc
|
|
-----------------------
|
|
|
|
::
|
|
|
|
dvc status
|
|
Data and pipelines are up to date.
|