Il est temps de prendre soin de vos données

L’année dernière, j’évoquais la qualité des données dans les systèmes d’information et la nécessité de leur assainissement en comparant la démarche à l’épisode des écuries d’Augias. Car la tâche est d’ampleur puisqu’il s’agit aussi bien de la qualité des données que du coût de leur gestion et de leur entretien.

Cette question nous tient particulièrement à coeur à plusieurs titres :

  • d’abord parce que c’est une des composante de l’ADN du Web 2.0, à savoir l’exposition des ressources.
  • ensuite car c’est la question centrale dont traite le web sémantique en tant que web de données.
  • enfin parce que cette question est au coeur de l’avenir de nos services auprès de nos clients.

Notre métier d’intégrateur des systèmes d’information est train de devenir de plus en plus un métier d’intégrateur web et, dans ce basculement, c’est sur la question des données que les choses se jouent.

Depuis bien longtemps, dans les projets de mise en place d’applications, les données n’étaient abordées que sous l’angle du schéma relationnel implémenté dans les bases de données, que ce soit pour la réalisation d’applications spécifiques ou la mise en place d’un progiciel. Or le schéma des bases de données relationnelles repose sur un principe de structuration des données qui enferme au lieu d’ouvrir. Accéder à des données structurées dans des bases relationnelles, selon des modalités qui n’ont pas été prévues à la conception du logiciel, est un véritable chemin de croix : ce n’est pas seulement complexe, c’est surtout compliqué. Et cette complication a un coût énorme pour les budgets des DSI.

Ce temps est révolu, ou tout du moins est en crise. Alors comment surmonter cette crise ? Comment prendre soin de ses données ?

Il faut d’abord dire que le discours dominant dans le monde des systèmes d’information use et abuse du terme de « service » : Architecture de Service, Architecture Orientée Service, etc. Certes, les utilisateurs finaux des solutions informatiques d’entreprise veulent des services, mais si vous les écoutez vous aurez beaucoup de mal à les mettre d’accord sur la nature de ces services, et vous pouvez par ailleurs être sûr que dans les mois qui suivent ce seront de nouveaux services qui seront demandés, simplement parce que le métier évolue.

Dans cet environnement mouvant, où l’informatique est vue selon l’angle des services parce que « çà parle » aux décideurs, il y a pourtant des repères et des invariants : ce sont les données.

Mais qui dans l’entreprise qui est responsable des données ? Il y a des architectes, des responsables d’application ou de porte-feuille d’applications, mais je n’ai jamais vu de « responsable des données ». Idem côté intégrateur ou SSII : il y a des architectes techniques, fonctionnels, ou applicatifs mais cherchez des architectes de l’information et des architectes de données, vous n’en trouverez pas (sauf exception).

Prendre soin de ses données c’est d’abord avoir des responsables de ces données, des architectes de l’information et des données, ainsi qu’une politique ad hoc. Ces acteurs, aussi bien dans les DSI que chez les prestataires de service informatique, doivent être capable de dire deux choses :

  1. est l’information ?
  2. comment on y accède ?

Dans les logiques Web 2.0 cela prend la forme d’APIs documentées qui décrivent comment les données sont exposées, comment on y accède et ce que l’on peut faire avec. Dans la logique du web sémantique cela repose sur l’encodage des données selon des normes qui reposent sur une logique auto-descriptive des données grâce aux métadonnées.

Par où commencer donc, si vous êtes dans une DSI ? Tim Berners Lee répondait très simplement à cette question lors d’un entretien avec Talis :

Si vous êtes Directeur des Systèmes d’Information, vous devriez faire un inventaire des données dont vous disposez et réfléchir à la valeur que ces données pourraient avoir si elles étaient disponibles plus largement au sein de l’entreprise voire à l’extérieur de l’entreprise, notamment pour vos partenaires. [Puis hiérarchiser les opportunités et les priorités pour initier une phase d’encodage ces données au format du web sémantique qui assure une meilleure interopérabilité sans surplus de développement logiciels spécifiques] (ma traduction libre et sur-interprétée)

C’est exactement cette démarche qu’a mis en place le gouvernement britannique au travers de la démarche Power of Information Task Force. Projet ambitieux visant à valoriser l’information de l’administration, allant même jusqu’à lancer des concours de mash-up avec 20 000 £ à la clé. A quand la même initiative de la part de l’administration française ?

Autre exemple de l’enjeu des données au travers des projets de type Master Data Management qui visent à assurer l’interopérabilité des données au delà des différents silos applicatifs de l’entreprise. Les grands noms du logiciel que sont Oracle, SAP et IBM, investissent ce champ pour proposer des solutions logicielles à la problématique de qualité et de cohérence des données entre des périmètres applicatifs différents. Bien sûr, si les données étaient déjà dans une logique soit web 2.0 soit Web Sémantique cette question n’auraient pas lieu d’être, mais il faut prendre en compte la réalité de l’existant du porte-feuille applicatifs des entreprises.

Pour en avoir discuté avec Serge Pinsard, notre expert MDM, c’est un sujet pour lesquel les organisations mettent en place des projets de plusieurs dizaines de millions d’Euros : tel opérateur de télécom pour assurer une cohérence de ses abonnés et de ses clients, tel acteur de la grande distribution pour avoir une politique cohérente de référencement et de gestion de ses produits, tel acteur du secteur bancaire pour maintenir un catalogue de ses services banquaires et financiers, etc.

C’est sur leur cœur de métier que les enjeux sur la qualité des données se jouent. Mais tout comme l’EAI ou la SOA, un nouveau logiciel ne résoudra pas les problèmes sans qu’une mise en place d’une politique de gestion des données (et des référentiels) portés par des architectes de l’information voit le jour.

Finalement, on ne s’étonnera pas que les travaux d’IBM sur le Master Data Management mettent les normes du web sémantique au coeur de l’avenir de leurs solutions.

Pour avoir un système d’information de qualité, il n’est jamais trop tard pour prendre soin de ses données, car il ne faut pas attendre le logiciel miracle qui résoudra tous les problèmes : il n’existe pas.

Christian Fauré

9 commentaires pour Il est temps de prendre soin de vos données

  1. […] Sur le blog d’Atos Origin je reviens sur les enjeux d’une politique de gestion des données. […]

  2. Très intéressant. Il me semble tout de même qu’il manque un point 3 sur le caractère exploitable de ces données, c’est-à-dire avoir comme priorité de les rendre exploitable et de plus en plus exploitable. Car les données, il faut les régénérer, les faire évoluer sans cesse pour qu’elles soient toujours plus/mieux exploitables. Leur traitement nécessite une réflexion et une réorganisation constante. Car le pire dans les données, c’est quand elles n’évoluent pas.

  3. @Hubert : exact, la question du cycle de vie des données se pose en filigrane de ton commentaire. Vaste question !

  4. Ca me fait penser à cette présentation information is like water
    http://www.slideshare.net/Unwired/information-is-like-water/

    L’information, les données sont comme de l’eau elles ont besoin de circuler et d’être renouvelées en permanence.

  5. Article tres interessant! L’integration et la modelisation des donnees a l’echelle de l’entreprise est un sujet qui importe de plus en plus.

    En Juin, je participais a la Entreprise Architecture Conference (http://www.irmuk.co.uk/eac2008/) et ce theme pouvait etre discerne en filigrane de la plupart des sessions ! Le metier de Data/Information Architect avait d’ailleurs ete evoque a plusieur reprises.

    Une simple recherche sur monster.co.uk vous revelera l’ampleur du developpement de ces metiers (qui plus est dans un contexte economique pas tres dynamique).

  6. @ Aurélien : elles sont très zen ces présentations🙂

    @Guillaume : espérons que tu ais raison et que cette nécessité s’impose en entreprise.

  7. Dalb dit :

    « bases de données relationnelles …. enferme au lieu d’ouvrir. » => oui c’est sûre, mais n’est-ce pas cela qui plaît ? puisque cela suppose quelqu’un pour « détenir la clé » et « ouvrir la porte » ? Et lorsque cela coince, on est bien obligé de repasser par les mêmes personnes. C’est valable pour beaucoup de métiers qui auraient plutôt tendance à ne pas favoriser cette fluidité et transparence pour garder leurs acquis.

    « qui est responsable des données ? » => L’exception que vous désignez montre que ces profils -rares- ne sont pas toujours loin sans faut, issus du sérail de l’informatique : les métiers de l’informatique ne prédisposent pas à s’intéresser aux données me semble-t-il, encore moins à leur cycle de vie ! Dès le début de la GED (en 1985) se posait la question de la « responsabilité » des données (côté SI) : dedans ou hors la DSI ? informaticien ou venant du métier de ces données ? une personne hybride ou un duo ? Et pourquoi faudrait-il que cette personne soit à la DSI ? pourquoi pas dans une direction information et données pour être dégagée des contingences ? associer l’architecte de l’information et des données ?

    Enfin je voulais évoquer la question de la formation et des compétences en modélisation qui me semble être la clé de toute cette affaire :
    -Formation à ces technologies déjà : car le modèle BDD rassure : il est connu, reconnu; les délais de la mise en oeuvre sont maîtrisés (ce qui n’est pas le cas avec les technologies du web). Mais les changements sont plus profonds : accepter que le logiciel/application ne soit qu’un support ; qu’il faut adopter des méthodes et outils pour éviter de refaire les circuits traditionnels (non agiles) de développement informatique à chaque nouveau besoin, ceux-ci évoluant trop vites… Beaucoup de DSI (mais aussi de ssii) ne dégagent pas un volant  » temps de formations » dignes de ce nom qui couvriraient les besoins.
    – Enfin, côté métier, tout le monde est en chantier sur la modélisation même de son métier et la qualité justement de ses données. Alors que bien souvent l’informatique mais aussi parfois les utilisateurs confondent ces deux étapes : la modélisation métier et la modélisation du SI métier.

    Aujourd’hui j’ai plutôt l’impression que ce sont ces deux derniers problèmes évoqués qui freinent et l’adaptation des SI à ces nouvelles donnes et la gestion des données « désencapsulées » des SI. Dalb

    PS : La référence à l’eau est juste. D’ailleurs l’origine de ce texte qui date de 1999, est en réalité : Knowledge is Like Light – Information is Like Water (http://idv.sagepub.com/cgi/content/abstract/16/4/233), et celui qui l’a écrit est du même sérail que l' »exception » que vous citez.

  8. […] insistant judicieusement sur ce qui n’était pas au premier abord le sujet de la journée : la donnée. Avertissement que l’on retrouvera à plusieurs reprises tout au long de la journée, que ce […]

  9. […] web (11/10/08) – Il est temps de prendre soin de vos données (source: C. Faure, sur Entreprise 2.0, 13/09/08 / via Maxime) – 2nd European Semantic Technology […]

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :