Een datapipeline is een geautomatiseerde reeks processen die gegevens verplaatst van bronsystemen via transformatie- en integratiestappen naar een doelsysteem — doorgaans een data warehouse, rapportagelaag of analytisch platform. Datapipelines verwerken de extractie, transformatie en het laden (ETL) of de extractie, het laden en de transformatie (ELT) van gegevens, waarbij gedurende het proces datakwaliteitscontroles, bedrijfsregels en formatstandardisatie worden toegepast. De betrouwbaarheid en prestaties van datapipelines bepalen direct de actualiteit, volledigheid en nauwkeurigheid van de gegevens die beschikbaar zijn in rapportagesystemen.
Waarom dit belangrijk is
Datapipelines zijn het loodgieterswerk van een rapportage-infrastructuur — onzichtbaar wanneer ze correct werken, maar onmiddellijk impactvol wanneer ze falen of onjuiste outputs produceren. Een rapportageomgeving is slechts zo betrouwbaar als de minst betrouwbare pipeline: als een pipeline stil faalt of onjuiste transformaties toepast, bevatten de managementrapporten die ervan afhankelijk zijn onjuiste gegevens zonder enige zichtbare indicatie. Het bouwen van robuuste, gemonitorde, gedocumenteerde datapipelines is een fundamentele investering in rapportagebetrouwbaarheid.
Gerelateerde begrippen
Gerelateerde inhoud
Wordt toegevoegd wanneer relevante Knowledge Hub-artikelen worden gepubliceerd