Article

Que sont les formats de table ouverte (OTF) ?

Découvrez d’autres formats de table ouverte.

Les formats de tableau contribuent à améliorer l’efficacité et l’efficacité des lacs de données. En fournissant une approche structurée du stockage et de la gestion des données, les formats de table ouverte introduisent une couche d’organisation souvent absente dans les lacs de données traditionnels. Ils fournissent une couche d’abstraction au-dessus des lacs de données et leur apportent des fonctionnalités similaires à des bases de données. Cette approche structurée permet une requête et une analyse des données plus efficaces, car les données sont stockées de manière optimisée pour les schémas d’accès et la performance des requêtes.

L’une des principales façons dont les formats de table simplifient les lacs de données est d’activer des fonctionnalités de schéma en lecture. Cela permet aux lacs de données d’accueillir des données provenant de diverses sources avec différents formats et structures, sans avoir besoin de définition préalable du schéma. Ainsi, les ingénieurs et analystes des données peuvent se concentrer sur l’extraction d’insights à partir des données, plutôt que de consacrer du temps à la préparation et à la transformation des données. De plus, la possibilité d’imposer la validation du schéma au moment de l’écriture garantit la qualité et la cohérence des données, réduisant ainsi la probabilité d’erreurs et d’anomalies dans les données.

Les formats de tableaux introduisent également un support transactionnel et la conformité ACID aux datalakes, garantissant l’intégrité et la cohérence des données. Cela est particulièrement important dans les environnements où les données sont fréquemment mises à jour ou où plusieurs utilisateurs accèdent et modifient les données simultanément. En soutenant les transactions atomiques, les formats de tables ouvertes garantissent que les lacs de données peuvent servir de source fiable de vérité pour l’organisation, facilitant une prise de décision précise et rapide. De plus, des fonctionnalités comme le traitement incrémental et le voyage dans le temps renforcent la flexibilité des datalakes, permettant aux organisations de suivre les évolutions dans le temps et d’accéder aux données historiques selon les besoins. Ces capacités font des formats de tables ouvertes un outil indispensable pour optimiser les opérations des datalakes et libérer tout le potentiel des actifs de données.

Il existe une parité fonctionnelle entre trois formats de tables ouvertes courants dans l’industrie aujourd’hui : Apache Iceberg, Linux Foundation Delta Lake et Apache Hudi. Leurs écosystèmes, développeurs et communautés de contributeurs diffèrent, il peut donc être judicieux de choisir un OTF en fonction de l’écosystème disponible et supporté pour vos cas d’usage et des exigences spécifiques pour vos charges de travail. Les trois OTF prennent en charge les transactions ACID et la gestion des versions, l’évolution du schéma et le voyage dans le temps, et les trois peuvent gérer des charges de requête complexes avec de hautes performances et des écritures provenant de nombreux utilisateurs simultanés.

Teradata offre un écosystème ouvert pour les OTF, catalogues et fournisseurs de services cloud (CSP) dans des environnements multi-cloud et multi-data lake.

Cette approche unique, ouverte et connectée pour supporter les OTF permet la lecture croisée, l’écriture croisée et la requête croisée des données stockées dans les tables Apache Iceberg et Delta Lake à l’aide de catalogues ouverts tels qu’Amazon Web Services (AWS) Glue, Hive Metastore ou Unity.

Cette approche prête à l’avenir permet aux entreprises d’adopter une stratégie de données véritablement moderne, avec une agilité et une flexibilité inégalées pour livrer une IA de confiance à grande échelle — le tout sans avoir besoin de déplacer, de répliquer ou de transformer des données.

Restez au courant

Abonnez-vous au blog de Teradata pour recevoir des informations hebdomadaires



J'accepte que Teradata Corporation, hébergeur de ce site, m'envoie occasionnellement des communications marketing Teradata par e-mail sur lesquelles figurent des informations relatives à ses produits, des analyses de données et des invitations à des événements et webinaires. J'ai pris connaissance du fait que je peux me désabonner à tout moment en suivant le lien de désabonnement présent au bas des e-mails que je reçois.

Votre confidentialité est importante. Vos informations personnelles seront collectées, stockées et traitées conformément à la politique de confidentialité globale de Teradata.