Sélectionner une page

Chez Consortech, nous travaillons avec une grande diversité de plateformes, de produits et de formats. Mais peu importe le contexte, la plupart des projets ETL tombent dans l’une ou l’autre de ces catégories :

  • Projet ad hoc : un processus ETL est développé dans le but de préparer des données pour une application ou une analyse spécifique. Certains de ces processus seront occasionnellement répétés.
  • Projet de migration : un ensemble de processus est préparé dans le but de faire migrer des données d’un système vers un autre. Pour valider que tout fonctionne bien et détecter les erreurs, ces processus sont simulés plusieurs fois avant l’exécution.
  • Projet d’automatisation ou d’intégration : des processus ETL sont développés en vue d’exécutions répétitives.

Dans l’un ou l’autre de ces cas, certaines situations font varier les coûts de façon notable. Pour les résumer, voici 5 éléments tirés de notre expérience.

1. L’ABSENCE DE PLANIFICATION

Cette erreur classique peut être commise dans tous les types de projets mentionnés plus haut. Planifier et réaliser l’architecture d’un processus ETL permet de le visualiser et de constater où on peut gagner en efficacité. Sans cette étape, plusieurs processus ou scripts pourraient être redondants et alourdir le projet. Il est donc essentiel de réaliser cette étape.

De plus, dans une perspective plus large, il est souvent bénéfique de penser à une stratégie globale en imaginant des processus réutilisables. Bien que plus longs à développer, les processus génériques permettent de rentabiliser globalement les efforts d’intégration de données.

Un client nous a récemment fait parvenir un schéma élaboré dans Visio pour le transformer dans un nouveau processus ETL. Au lieu de prendre ceci au pied de la lettre, nous avons organisé une rencontre avec les différents intervenants afin de mieux cerner les objectifs. Suite aux discussions, nous avons coupé d’environ 50 % les processus prévus et ce, avant même de s’attaquer à la solution.

2. UN MANQUE DE DOCUMENTATION OU UNE SITUATION COMPLEXE

Au fil du temps, plusieurs processus ETL peuvent avoir été implantés pour répondre à des besoins divers. On se retrouve alors dans une situation où plusieurs mécanismes sont à l’œuvre sur les données. Si ces mécanismes ne sont pas documentés lors du projet, il est ardu, après coup, d’en retracer l’historique et de comprendre leurs objectifs. Ces situations peuvent engendrer des jours de travail supplémentaires ou le développement de plusieurs mises à jour.

3. DES ATTENTES ET EXIGENCES MAL DÉFINIES

Quelle est réellement l’étendue du projet? Est-ce que toute l’information doit être transférée? Est-ce que le processus se termine à un certain point à partir duquel un fichier est importé manuellement?

Savoir qu’une intégration est nécessaire entre le système A et B n’est pas assez précis. Il faut définir les balises et savoir où l’intégration commence et se termine. Parfois, des barrières technologiques empêchent la réalisation d’une intégration complète et connaître la portée du projet est très important pour bien l’évaluer.

4. UNE COMMUNICATION DIFFICILE AVEC UN SOUS-TRAITANT

Il est simple d’affirmer que l’information se trouve dans une base de données SQL… Cependant, si la structure de cette base de données est inaccessible ou n’est pas documentée, comment l’équipe pourra-t-elle avancer?

La collaboration avec le sous-traitant ou la personne responsable de la BD est cruciale pour la réussite du projet. Considérant que certaines entreprises doivent payer pour avoir accès à leurs données, les coûts du projet en seront nécessairement affectés.

Heureusement, de plus en plus de produits offrent des API et des Rest Endpoints permettant de connecter les pièces du casse-tête comme des blocs Lego!

5. UNE API INCOMPLÈTE OU MAL DOCUMENTÉE

Les API ne sont pas toujours faciles à utiliser. Les grandes entreprises les documentent abondamment en y ajoutant même des exemples, mais les petites ne fournissent pas toujours la même qualité d’information.

Si le service Web ou l’information retournée n’est pas clairement documenté, cela pourra être très difficile de savoir comment connecter la donnée ou formuler un appel à l’API. Il faudra parfois faire appel directement à l’entreprise pour avoir des réponses, ce qui exige du temps supplémentaire.

Comme vous pouvez le constater, plusieurs éléments peuvent influencer la complexité, la durée et les coûts d’un projet ETL. Heureusement, l’expérience dont nous disposons permet de prévoir les situations de ce genre et de mener à bien vos projets dans les meilleurs délais!

Vous voulez lancer un projet ETL?

Vous aimerez aussi :