docstrings and typing

3 years ago · cc19bd0969
parent 5de2279d28
commit cc19bd0969
4 changed files with 53 additions and 9 deletions
--- a/actes-princiers/conf/base/catalog.yml
+++ b/actes-princiers/conf/base/catalog.yml
@ -1,15 +1,36 @@
 # ________________________________________________________________________
-# reading raw bourbon dataset
+
 bourbon:
  type: actesdataset.XMLDataSetCollection
  housename: bourbon
  folderpath: data/01_raw/houses/bourbon
 # writing bourbon xmlcontent document attribute 
 bourbon_content:
  type: actesdataset.XMLDataSetCollection
  housename: bourbon
  folderpath: data/02_intermediate/houses/bourbon
 # ________________________________________________________________________
 berry:
  type: actesdataset.XMLDataSetCollection
  housename: berry
  folderpath: data/01_raw/houses/berry
 berry_content:
  type: actesdataset.XMLDataSetCollection
  housename: berry
  folderpath: data/02_intermediate/houses/berry
 # ________________________________________________________________________
 anjou:
  type: actesdataset.XMLDataSetCollection
  housename: berry
  folderpath: data/01_raw/houses/anjou
 anjou_content:
  type: actesdataset.XMLDataSetCollection
  housename: berry
  folderpath: data/02_intermediate/houses/anjou
--- a/actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py
+++ b/actes-princiers/src/actes_princiers/pipelines/xml_processing/nodes.py
@ -10,26 +10,26 @@ logger = logging.getLogger(__name__)
 def transform(source_doc: etree._ElementTree, xlststylesheet: str) -> str:
    "performs XML transformation on each dataset"
    xslt_doc = etree.parse(xlststylesheet)
    xslt_transformer = etree.XSLT(xslt_doc)
    return str(xslt_transformer(source_doc))
 def parse_xml_collection(datasets: Dict[str, XMLDataSet], param: str) -> Dict[str, XMLDataSet]:
    "node function entry point, performs batch processing"
    output_datasets = dict()
    for dataset_filenamestem, dataset in datasets.items():
-        # manually loading the dataset because the collection **is not**
+        # a manual load is required here, because
-        # registered in the catalog
+        # the dataset **is not** registered in kedro's catalog
        dataset._load()
        # transformation on each dataset
        output_source_doc = transform(dataset.get_source_doc(), param)
        # set dataset's output filepath
        output_filepath = dataset.get_filepath().replace("01_raw", "02_intermediate")
        output_xmldataset = XMLDataSet(output_filepath)
        output_xmldataset.set_source_doc(output_source_doc)
        output_datasets[dataset_filenamestem] = output_xmldataset
-        # 02_intermediate : 
+        # let's create subfolders now, if they don't exist
        # let's create subfolders if they don't exist
        output_filepath = Path(output_filepath)
        output_xmldataset_dir = output_filepath.parent
        output_xmldataset_dir.mkdir(parents=True, exist_ok=True)
--- a/actes-princiers/src/actes_princiers/pipelines/xml_processing/pipeline.py
+++ b/actes-princiers/src/actes_princiers/pipelines/xml_processing/pipeline.py
@ -12,6 +12,19 @@ def create_pipeline(**kwargs) -> Pipeline:
                outputs="bourbon_content",
                name="bourbon_ds_collection",
            ),
            node(
                func=parse_xml_collection,
                inputs=["berry", "params:xsltstylesheet"],
                outputs="berry_content",
                name="berry_ds_collection",
            ),
            node(
                func=parse_xml_collection,
                inputs=["anjou", "params:xsltstylesheet"],
                outputs="anjou_content",
                name="anjou_ds_collection",
            ),
        ]
    )
--- a/actes-princiers/src/actesdataset.py
+++ b/actes-princiers/src/actesdataset.py
@ -1,12 +1,11 @@
 import logging
 import json
 from typing import Dict, Any
 from pathlib import Path
 import logging
 from lxml import etree
 from kedro.io import AbstractDataSet, DataSetError
 from kedro.framework.session import KedroSession
 logger = logging.getLogger(__name__)
@ -18,9 +17,11 @@ class XMLDataSet:
        self._filepath = filepath
    def get_filepath(self) -> str:
        "xml file's long filename getters"
        return self._filepath
    def get_source_doc(self) -> str:
        "XML source_doc (xml as a string) getter"
        if hasattr(self, 'source_doc'):
            return self.source_doc
        else:
@ -28,9 +29,11 @@ class XMLDataSet:
            raise AttributeError(f"XMLDataSet bject {attr_error_msg} has no attribute named : 'source_doc'")
    def set_source_doc(self, source_doc: str) -> None:
        "XML source_doc (xml as a string) setter"
        self.source_doc = source_doc
    def _transform_source_doc(self) -> etree._ElementTree:
        "xml transformer (with element tree)"
        # removing namespace
        query = "descendant-or-self::*[namespace-uri()!='']"
        for element in self.source_doc.xpath(query):
@ -40,15 +43,18 @@ class XMLDataSet:
        return self.source_doc
    def _load(self) -> etree._ElementTree:
        "kedro's API-like loader"
        self.source_doc = etree.parse(self._filepath)
        self._transform_source_doc()
        return self.source_doc
    def _save(self, data:str) -> None:
        "kedro's API-like saver"
        with open(self._filepath, 'w') as fhandle:
            fhandle.write(data)
    def _describe(self) -> Dict[str, Any]:
        "kedro's API-like repr()"
        return dict(filepath=self._filepath)
@ -63,6 +69,7 @@ class XMLDataSetCollection(AbstractDataSet):
        self._folderpath = Path(folderpath)
    def get_datasets(self) -> Dict[str, Any]:
        "datasets mapper getter"
        if hasattr(self, 'datasets'):
            return self.datasets
        else:
@ -70,6 +77,7 @@ class XMLDataSetCollection(AbstractDataSet):
            raise AttributeError(f"Object {attr_error_msg} has no attribute named : 'datasets'")
    def _load(self) -> dict[str, XMLDataSet]:
        "kedro's API loader"
        self.datasets = dict()
        for filepath in sorted(self._folderpath.glob("*.xml")):
            self.datasets[filepath.stem] = XMLDataSet(
@ -77,10 +85,12 @@ class XMLDataSetCollection(AbstractDataSet):
        return self.datasets
    def _save(self, datasets: dict[str, XMLDataSet]) -> None:
        "kedro's API saver"
        for stemfilename, dataset in datasets.items():
            dataset._save(dataset.get_source_doc())
    def _describe(self) -> dict[str, Any]:
        "kedro's API repr()"
        return dict(name=self._housename, folderpath=self._folderpath)