Pouvoir situer une adresse sur une carte est une information plutôt pratique. L’Open Data Index considère ainsi les codes postaux géolocalisés comme l’un des 10 jeux de données publics fondamentaux. Et le Danemark a démontré les bénéfices économiques de l’ouverture de sa base adresse. En France, où l’information n’est toujours pas librement accessible, voire inexistante, la communauté OpenStreetMap a décidé de créer la Base d’Adresses Nationale Ouverte (BANO). Le projet vise à constituer le registre le plus complet possible de points d’adresse à l’échelle du pays. Nous nous sommes entretenus avec Christian Quest, l’un des coordinateurs de l’initiative.
Pourquoi BANO ? et pourquoi à l’initiative d’OpenStreetMap France ?
L’idée de BANO est venue il y a un peu plus d’un an suite à une discussion avec l’AFIGEO (Association Française pour l’Information Géographique) lors des rencontres « SIG La Lettre ». Le sujet de la Base Adresse Nationale avait fait l’objet d’un n-ième rapport resté sans suite. Ceci venait s’ajouter à de nombreuses demandes de la part d’utilisateurs potentiels des données OSM concernant la couverture en adresses.
Les données adresses sont en effet une brique de base indispensable. Elles sont par exemple nécessaires pour fixer le point de départ et d’arrivée d’un calcul d’itinéraire. Elles servent plus généralement à passer de données non-géographiques mais possédant une adresse postale à un emplacement géographique et donc un lien géospatial avec beaucoup d’autres données. Elles sont enfin essentielles pour l’intervention des secours. Le SAMU, les Pompiers, la Gendarmerie, s’intéressent de près à l’initiative.
Ces données sont aussi très utiles pour le projet OpenStreetMap. Elles permettent de démultiplier les usages des autres données déjà présentes dans la base, mais aussi d’améliorer la qualité et la couverture des données cartographiques. C’est un outil d’audit en quelque sorte.
La constitution d’une telle base, volumineuse, qui a besoin d’une collaboration pour naître, se compléter, et se maintenir à jour a fait qu’il était tout naturel que ce projet soit issu de la communauté active d’OSM-France.
Enfin il y avait aussi une opportunité technique. OSM-France a développé un script de collecte d’informations sur le web site public du cadastre ce qui a permi de démarrer la base BANO.
Mais n’existe-t-il pas déjà une Base d’Adresses Nationale en France ?
Oui, sur le papier ou des slides, mais personne n’en a jamais vu la couleur. C’est un projet pourtant relativement ancien, lancé suite à la publication en 2002 d’un rapport du Conseil National de l’Information Géographique sur les adresses. De ce rapport fort intéressant et toujours d’actualité pour l’essentiel, peu de choses ont été faites à ce jour. C’est l’IGN et La Poste qui sont chargés de constituer cette BAN, mais leurs intérêts commerciaux (ventes de données) ont pour l’instant bloqué ce projet vieux de 12 ans. Le résultat est qu’il existe bien des jeux de données adresses pour la France, mais constitués en fonction des besoins de réutilisation et non dans l’esprit d’un jeu de données de référence. La Poste utilise par exemple 3 bases adresses différentes, pour les lettres, les colis, la publicité.
Concrètement, comment s’effectue la collecte des données pour BANO ? Quels sont les jeux de données utilisés ? Ceux qui pourraient l’être ?
Nous utilisons actuellement 3 grandes sources de données : OpenStreetMap avec un peu plus de 2 millions d’adresses actuellement ; les jeux d’adresses disponibles en opendata ; et donc les données adresses collectées à partir du site web du cadastre.
À cela s’ajoute le fichier FANTOIR de la DGFiP qui contient la liste de tous les noms de voies et de lieux-dits connus des services des impôts. Il est disponible en opendata depuis un peu plus d’un an seulement.
Les différentes sources sont chargées dans une base commune. Nous faisons des rapprochements entre ces sources afin de les enrichir mutuellement, puis nous dédoublons ensuite ce contenu, et nous le packageons dans des fichiers exportés. L’objectif est de fournir un contenu harmonisé accumulant la richesse des différentes sources, sans redondance.
Le processus est ensuite largement automatisé et tourne quotidiennement depuis début septembre à part bien sûr les corrections qui sont faites manuellement par les contributeurs OSM.
Les données sont mises à disposition sous forme de fichiers csv, de fichiers shapefile et en RDF pour le web sémantique. Une version des fichiers csv est même publiée sur github ce qui permet de suivre les modifications. Nous produisons aussi un fond de carte transparent qui permet aux contributeurs OSM d’améliorer les données encore plus facilement.
OpenStreetMap est utilisé en priorité car c’est la seule source sur laquelle nous pouvons faire des modifications de façon collaborative. S’il y a besoin d’ajouter des adresses manquantes, ou d’en corriger car les jeux de données en opendata ou le cadastre ne sont pas exempts d’erreurs et de manques, nous utilisons l’outil de contribution d’OSM.
Pour le cadastre, celui-ci est co-financé par les collectivités locales qui en sont donc co-propriétaires. Celles-ci peuvent donc décider d’ouvrir leurs données, certaines le font. Nous pouvons donc les réutiliser. Mais d’un point de vue technique, cela ne nous facilite pas forcément la tâche. Nous préférons travailler sur un fichier global unique. Enfin il reste encore des zones cadastrales non disponibles au format vectoriel (un peu plus de 6000 communes représentant 10% de la population).
Etalab soutient le projet et les données BANO sont disponibles sur data.gouv.fr. Qu’est-ce que cela signifie pour le projet ?
C’est difficile à mesurer, mais l’effet est bien sûr positif. Cela donne une visibilité à ces données et au projet qu’il serait difficile d’avoir autrement.
Cela signifie-t-il que BANO à vocation à devenir le jeu de données de référence pour les adresses en France, voire à devenir un jeu de données certifié ?
Grande question sur ce que doit être un jeu de données de référence et sur la notion de certification. Quand des services de l’État de plus en plus nombreux utilisent des données OSM, est-ce que cela en fait un jeu de données de référence ? Si on reprend la définition du CNIG, un référentiel géographique doit permettre à chaque utilisateur d’associer des données de différentes origines et de positionner dans l’espace ses propres informations. Cette information ne répond à aucun besoin applicatif particulier. Et elle doit être commune au maximum d’applications de façon à permettre la combinaison des informations de toutes origines qui lui seront rattachées. Enfin, cette définition n’inclut pas la notion de qualité des données. Pour que BANO devienne un référentiel, il faut encore progresser sur l’exhaustivité.
Actuellement, il y a 15 millions d’adresses utilisables sur un total estimé de 20 millions environ. Nous en avons plus dans notre base de cumul, mais nos scripts d’exports s’assurent d’un minimum de qualité et de cohérence pour ne sortir que ce qui doit l’être. Nous travaillons actuellement à l’ajout des lieux-dits qui ne sont pas des adresses ponctuelles, et qui sont encore utilisés en de très nombreux endroits en zones rurales.
Globalement, les retours que nous avons eus pour l’instant sur la qualité et l’exhaustivité comparées aux données non libres sont très majoritairement positifs sur les zones couvertes, c’est à dire un peu plus de 80% des communes françaises (les DOM sont couverts).
Et puis au-delà de la question du référentiel, nous pouvons aussi voir le travail d’OSM comme complémentaire de celui des acteurs publics. L’IGN a comme objectif l’homogénéité dans l’exhaustivité des informations produites. C’est le principe, louable, d’égalité des territoires. Nous n’avons pas ce type de contrainte. Pour OSM, la densité des données sur un territoire dépend de la densité des contributeurs. C’est pourquoi nous pouvons offrir un niveau de détail parfois supérieur pour les grandes villes par exemple, mais c’est aussi la raison pour laquelle il nous manque encore des données dans certains départements. Enfin, nous pensons être mieux préparés pour le web sémantique et avons même déjà commencé à diffuser BANO en RDF en utilisant une ontologie du W3C proche du modèle INSPIRE Européen de description des adresses.
Comment est actuellement financé le projet ? Est-il viable à long terme ?
Sur le plan matériel, BANO s’appuie sur une machine virtuelle sur un des serveurs d’OSM-France donné et hébergé par la Fondation d’entreprise Free.
Sur le plan humain, il y a bien sûr les contributeurs OSM et les heures qu’ils passent à améliorer les données. C’est le plus gros morceau. A cela s’ajoute la petite équipe d’administration des serveurs d’OSM-France, puis au cœur de BANO nous sommes trois: Ludo (qui a codé initialement les scripts de collecte du cadastre), Vincent (qui les a industrialisés et améliore sans cesse le processus), et moi qui m’occupe de la sortie des données, du rendu cartographique et on va dire de l’animation autour de BANO. Nous sommes tous bénévoles et faisons ça avant tout par passion pour un projet qui nous semble extrêmement utile.
Pour le long terme, le premier principe est d’ouvrir tout le code qui fait tourner BANO afin de s’assurer que le projet soit durablement ouvert et donc pérenne. Tout est donc disponible sur github.
Bien sûr, si BANO devait devenir un jeu de données de référence, il faudrait envisager un mode de fonctionnement ne reposant pas uniquement sur une petite équipe purement bénévole. Pour l’instant, nous avons montré ce qu’il était possible de faire avec peu de moyens matériels et relativement peu de moyens humains.
Les données sont mises à disposition uniquement sous licence ODbL (partage à l’identique) comme les données OpenStreetMap. N’est-ce pas un frein pour les entreprises ?
Non, car la licence ODbL n’empêche absolument pas les réutilisations commerciales. Elle impose de mentionner la source des données et de partager toute amélioration des données sous la même licence.
Pour des données géographiques visant à décrire le terrain, cette obligation de partager les améliorations est essentielle pour maintenir un tel jeu de données à jour. En effet, le terrain change sans arrêt, les améliorations des données doivent donc être continues et plus on est nombreux à le faire plus c’est efficace et si on ne le fait pas, ces données perdent très vite de leur intérêt. Tout le monde y gagne donc car la situation actuelle est ridicule avec un grand nombre de bases adresses existantes, maintenues dans des silos séparés et aucune n’est de qualité car personne n’arrive vraiment à rester à jour.
Enfin, on entend souvent dire que l’utilisation de la licence ODbL « contamine » les autres données de l’entreprise. C’est une interprétation abusive et fantasmée des termes de la licence ODbL. Vous restez bien entendu maître de l’exploitation de vos autres données.
Et que peut-on dire du projet BANO et de la France en comparaison de la situation au Danemark, au Royaume-Uni ou au Pays-Bas où les bases adresses publiques ou codes postaux sont mises à disposition en open data ?
La France a un très gros retard comparé au Danemark. BANO nous permettra, je l’espère, de revenir dans le peloton de tête. Pour le Royaume Unis, la situation n’est pas bien meilleure au niveau des adresses à ce qu’il me semble. Pour les Pays-Bas, je ne connais pas trop la situation mais on y trouve effectivement beaucoup de données géographiques ouvertes. Je vois par contre l’avancement d’openadresses.oi qui répertorie les jeux de données d’adresses disponibles aux États-Unies mais pas seulement (BANO y est catalogué).
Quelle suite pour BANO ?
La suite pour BANO, c’est mettre en place des outils pour faciliter la contribution et la réutilisation des données.
Pour la contribution, nous souhaitons installer un « guichet unique », séparé d’OSM, pour les signalements d’erreurs, les corrections, les versements de données et qui nous permettent d’intégrer des partenaires. Nous avons organisé un premier BANOcamp fin juin à ce sujet, un second va avoir lieu cet automne.
Et pour la réutilisation, nous devrions mettre en place des API pour faire du géocodage, de l’autocomplétion d’adresses, car tout le monde n’a pas forcément envie de manipuler plusieurs millions d’adresses !
Et pour conclure, OSM fête cet été ses 10 ans. Un petit mot à ce sujet ?
Oui, tout d’abord la réussite et la force d’OSM c’est sa communauté, beaucoup plus que ses données. Notre défi, c’est donc de maintenir et de développer cette communauté. C’est ce qui nous permet de réaliser des projets comme BANO mais aussi d’être beaucoup plus réactif que des acteurs traditionnels lorsqu’il y a besoin (exemple en ce moment avec la cartographie des zones touchées par Ebola). Nous le voyons, les approches centralisées et systématiques pour la cartographie atteignent leurs limites. Si nous souhaitons avoir des données de référence à jour et de qualité, il nous faudra une approche plus décentralisée, avec plus de contributions de terrain. Sur ce point OSM est en avance de 10 ans.
Et puis si vous souhaitez continuer la discussion, nous vous invitons à venir souffler nos bougies au NUMA le lundi 8 septembre 2014 à partir de 19h30.
1 thought on “BANO, la Base d’Adresses Nationale Ouverte”