Archive d’étiquettes pour : data science

À l’occasion de notre participation au concours Data City Paris, organisé par Numa, nous avons pu réfléchir aux problématiques associées au challenge : « dynamiser les commerces locaux». Ou comme nous l’avions compris, comment fournir à partir de données, une assistance aux choix de lieu d’implantation. C’est là tout l’intérêt du géodécisionnel : croiser des données géographiques pour visualiser un résultat, une véritable aide à la décision pour dynamiser ces implantations. N’ayant pas de données « à nous », nous avons cherché à rassembler celles disponibles qui nous semblaient pertinentes. Une des premières problématiques identifiée est la disparité des formats de jeux de données que nous souhaitions prendre en compte.

Pour illustrer notre réflexion, plaçons-nous dans le cas particulier où l’on cherche à trouver un lieu d’implantation dans le 19ème arrondissement pour un commerce, et faisons trois hypothèses (un peu simplistes mais ce n’est pas l’objet ici 🙂 ):

  • il est préférable de ne pas trop avoir de concurrence à proximité,
  • être proche des transports en commun est un avantage,
  • plus la densité de population est forte, mieux c’est.

Dans ce cas relativement simple, prenons pour exemple trois jeux de données facilement récupérables en lien avec nos hypothèses:

  • les commerces parisiens classés par type (opendata.Paris.fr),
  • les données socio-démographiques : population et superficie par IRIS,
  • les données de transport : ligne de transport en commun (données OSM)

Il est assez facile de visualiser ces trois jeux de données séparément, comme on peut le voir sur les images ci dessous :

Cependant, avec les trois sources de données séparées, il est difficile de percevoir une information qui pourrait être utile. On pourrait penser les superposer, mais sous ces formats disparates cela ne permettrait pas forcément d’améliorer la lisibilité. L’idée qui nous est venue à l’esprit était de choisir un format géographique intermédiaire. Pour ce cas nous avons choisi de découper le territoire en hexagones. Ensuite, pour chacune des trois sources de données d’intérêts, nous l’avons transposée au sein de ce format intermédiaire, ainsi, chaque hexagone possède trois indicateurs :

  • un score de densité, représenté ci-dessous de blanc (faible densité) à bleu foncé (forte densité),
  • un nombre de commerces, représenté de beige (très faible) à marron (nombre élevé),
  • un indicateur de présence de transports en commun, représenté en vert si positif.

 

Il est ensuite plus aisé d’avoir une représentation visuelle cohérente de ces ensembles de données.

Il suffit de « superposer » les trois sources de données transformées, c’est a dire de calculer un score d’attractivité à partir des trois indicateurs.

Ensuite, on peut rapidement percevoir une indication sur les zones pertinentes pour l’installation d’un nouveau commerce (relativement à nos hypothèses) : plus une zone tend vers le vert, plus elle est attractive.

Cette méthode, en plus de permettre une visualisation uniforme des différents jeux de données, facilite aussi par la suite l’application d’outils de data science avancés, qui permettent une assistance à la prise de décisions… mais ça, ce sera le sujet d’un prochain article !

 

Article rédigé par Gautier Daras.

Aujourd’hui on aborde un sujet souvent inconnu où mal compris par de nombreux gestionnaires : la contextualisation des données par rapport à leur environnement spatial. Cette contextualisation peut servir à mieux comprendre les performances et ainsi à permettre l’élaboration de stratégies adaptées : par exemple, savoir quels emplacements sont les plus propices à l’installation d’un magasin peut être utile pour développer une chaînes de franchises.

La localisation des infrastructures peut avoir une grande influence sur leurs performances. Ainsi, une connaissance des facteurs environnementaux qui peuvent avoir un impact sur ces performances peut être un atout majeur pour mieux gérer ces infrastructures. Dans notre exemple de chaine de magasins on peut imaginer que les performances soit influencées par des critères d’accessibilité, où de proximité de la concurrence.

 

 Une manière d’acquérir cette connaissance est de se servir de l’aspect spatial inhérent à de nombreuses données : adresse, code postal, coordonnées GPS, etc… De nombreuses sources de données relatives à l’environnement d’une activité peuvent être utilisées : bases de données publiques, privées, fichiers, où même directement depuis des sites web. Tout élément qui dispose d’une information sur sa position peut être pris en compte et la donnée correspondante peut être mise en relation avec les données relatives aux infrastructures étudiées.

Ainsi, dans notre contexte d’illustration, les réseaux de transport en commun et les adresses des parkings d’une part, et les coordonnées des enseignes concurrentes d’autre part, pourraient être récupérées et mises en relation avec les performances des magasins existants. 

 

 

 

Des outils d’extraction de connaissances à partir des données permettront ensuite de fournir des indicateurs pertinents pour les prises de décisions futures. Par exemple, dans le cas des magasins, quels critères d’accessibilité ont le plus d’influence : les parkings, les arrêts de bus ? Quelles sont les enseignes concurrentes les plus influentes ? Mieux vaut t’il s’en approcher pour profiter de leur clientèle, où s’en éloigner ? Les outils d’analyses de données peuvent apporter des éléments de réponses à ces questions.

Les différentes phases pour arriver à une solution adaptée au besoin réel sont complexes, et pour vous accompagner dans ce processus, Smart/Origin propose des solutions pour permettre la contextualisation des données, tant au niveau de la récupération des données externes, que dans leur analyse, jusqu’à leurs mises à disposition au travers d’outils de visualisation et d’exploration comme Dashboard et Cities.

Article rédigé par Gautier 


Le géodécisionnel représente l’utilisation conjointe d’outils décisionnels et de Systèmes d’Information Géographiques (SIG), à des fins de traitement, analyse et gestion des données.

Ces outils sont souvent utilisés dans les entreprises, collectivités territoriales, associations et organisations diverses pour analyser géographiquement et spatialement les données, dans l’objectif de prendre de meilleures décisions.

Chez Smart/Origin, notre expertise en solutions géodécisionnelles correspond à la combinaison de nos compétences dans trois domaines complémentaires que sont la Data Science, les Systèmes d’Information Géographique et la Data Visualisation.

 

Malheureusement, ces outils représentent souvent un énième Système d’Information de l’organisation qui doit être utilisé en parallèle des outils métiers habituels, et que seuls les experts SIG savent maîtriser.

Chez Smart/Origin, nous pensons qu’un outil géodécisionnel doit pouvoir analyser les données contenues dans les outils du SI, du SIG, mais également les outils métiers utilisés quotidiennement par les services. Le but étant de rendre le géodécisionnel accessible et simple d’utilisation pour tout utilisateur métier et utilisateur final, sans connaissance spécifique en SIG ou Business Intelligence.

Notre objectif est double : d’une part, aider l’utilisateur à être plus efficace dans ses analyses de données, d’autre part, aider le responsable à décider de manière plus objective et rapide.

A travers notre solution Dashboard installée chez nos clients, nous avons constaté qu’intégrer un module géodécisionnel dans une solution métier répond à de nombreux besoins :

  • Agréger et rassembler l’analyse de données diverses (métiers, SI, SIG, capteurs etc) à un seul et même endroit,
  • Analyser finement des données via des indicateurs statistiques et cartographiques,
  • Proposer un outil d’analyse simple d’utilisation pour des équipes (utilisateurs métiers et finaux, direction, décideurs) et disponible sur tous les périphériques (Bureau, Tablette et Mobile),
  • Avoir le choix d’une application personnalisée : intégrée en tant que module ou développée sous forme d’application indépendante,
  • Restituer facilement le fruit de l’analyse de données très diverses, agrégées et croisées, via des tableaux de bord,
  • Etc.

Nos partenaires « métiers » de secteurs très divers (Environnement, Retail, Public, Energie, etc…) sont aujourd’hui très satisfaits de l’aide à la décision apportée par le Géodécisionnel dans leur solution métier !

Y avez-vous pensé pour votre secteur ? Pour en discuter, n’hésitez pas à nous contacter !

« Les données sont une matière première vitale de l’économie de l’information, comme le charbon ou le minerai de fer l’étaient pendant la révolution industrielle. »

Steve Lohr, journaliste au New York Times

 

Oui l’OpenData est devenu incontournable, on en parle beaucoup et souvent, à se demander comment nous faisions pour vivre sans avant, n’est-ce pas. Pourtant, alors même que son nom sous-entend une parfaite libre utilisation, le plus souvent ces données dépendent de conditions d’utilisations et licences contraignantes pour les réutilisations. Tout n’est donc pas si rose dans le monde de l’OpenData.

Néanmoins, il faut bien lui accorder certains atouts, comme celui de créer de l’information, notamment en croisant ses données avec des données métiers. C’est là que prend tout son sens l’utilisation d’un outil de visualisation de données (dataviz) comme Dashboard : ajouter de la valeur aux données, c’est bien, les visualiser sur une carte interagissant avec des graphiques, c’est optimal pour en saisir la valeur.

Aujourd’hui, nous allons vous révéler toute la valeur ajoutée qu’il est possible de tirer du croisement de données avec de l’OpenData via trois cas d’usages : la prévision de fréquentation d’un musée, l’estimation du risque de catastrophes portant sur des structures touristiques et pour finir la détermination de cibles de prospect.

 

Commençons par un type de jeu de données assez courant sur les plateformes OpenData : les séries temporelles. Pour les non-statisticiens il s’agit tout simplement de fichiers dont l’information est rattaché à une notion de temps, comme des historiques de ventes ou de fréquentation. Ainsi à partir de données comme celles-ci, nous sommes en mesure de mettre en place un modèle de prédiction.
Cette information peut ensuite servir dans l’établissement d’un planning d’actions commerciales ou marketing par exemple.

À partir d’un jeu de données de la plateforme OpenData de la communauté d’agglomération du Grand Poitiers, portant sur la fréquentation des musées, nous avons  mis en place un modèle de Holt-Winters de façon à obtenir des prévisions par triple lissage exponentiel.

 

 

 

Grâce à ces prédictions directement exploitables dans Dashboard, la municipalité va pouvoir mettre en place des actions de promotions de ses musées lors des périodes creuses et ainsi dynamiser la fréquentation.

Le type de fichiers probablement le plus fréquent dans l’OpenData est celui de localisation. A partir de ce type de jeu de données, on peut calculer un tas d’indicateurs dépendants entre autres de la distance entre plusieurs éléments.

Ici, nous prenons l’exemple de la ville de St-Malo qui  souhaite évaluer le niveau de risque qui porte sur chacun des campings de la ville.
Pour ce faire nous utilisons plusieurs fichiers du site OpenData de l’agglomération de St-Malo, pour récupérer la localisation de deux types de structures dangereuses identifiées par la ville : les stations-services et les conteneurs de piles et batteries usagées.

Ensuite il reste à calculer la distance euclidienne, c’est-à-dire la distance « à vol d’oiseau », entre  un camping et chaque structure à risque, puis d’affecter une valeur proportionnelle à la distance. Le nombre de places du camping a également été pris en compte, puisque plus il y a de monde à évacuer et protéger, plus le danger augmente.

La municipalité va pouvoir adapter les mesures de sécurité et de protection, ainsi que les moyens de secours à l’aide de cette information. Elle pourra également autoriser ou interdire la construction de nouvelles structures dangereuses si le niveau de risque d’un camping dépasse alors un certain seuil. Dashboard devient alors un véritable outil de gestion opérationnelle pour aider à la prise de décision grâce à une visualisation géocentrique des données calculées.

 

La dernière possibilité de création d’information à partir de l’OpenData que nous vous proposons aujourd’hui est celle du calcul de densité proportionnelle d’un équipement par rapport à la population, en se servant d’un jeu de données de recensement de population et un autre de dénombrement d’équipements.

Prenons l’exemple d’une entreprise de BTP basée en Isère qui souhaite augmenter ses chantiers de piscines publiques. Avec les fichiers de l’INSEE, un de recensement de la population et un de dénombrement de structures sportives, nous pouvons lui fournir pour chaque commune de son département, le nombre de piscines pour 10 000 habitants.

Ici l’intérêt de Dashboard est de pouvoir comparer rapidement et visuellement des villes de tailles différentes. En effet comparer des effectifs bruts est trompeur. On le voit très bien dans le premier cas, Grenoble ressort très nettement sur la carte, alors que dans le second elle est très pale.

Avec cette information placée sur une carte (comme la seconde ici), la société va pouvoir cibler les communes à démarcher pour les pousser à faire des appels d’offres.

 

 

Brutes, les données « OpenData » sont quasi inutilisables, car bien souvent trop déconnectées d’un contexte d’utilisation. Tout l’intérêt de traiter celles-ci et de les croiser avec d’autres est justement d’obtenir de l’information, qui plus est, une information qui n’existe nulle part ailleurs.

 

Pour pouvoir visualiser vos données enrichies grâce à l’OpenData de manière géolocalisée, les consulter de façon dynamique et interactive avec un outil carto-centré, notre outil Dashboard se présente comme une solution incontournable. Vous pourrez choisir vos analyses, vos modules et obtenir un tableau de bord de suivi de vos données personnalisé, unique et surtout adapté à vos besoins.