La smart data ou l'exploitation intelligente des données est au cœur de l'évolution de notre métier. L'augmentation exponentielle des données et la multiplicité des sources d'informations disponibles nécessitent de recourir à des techniques d'intelligence artificielle pour faire le tri au sein de la masse de données non structurées ou issues du Big Data, pour ne retenir que celles qui sont pertinentes dans un objectif précis.
Il s’agit ainsi :
Même si elles sont complexes, ces technologies permettent in-fine d’offrir à l’utilisateur final des outils simples. Il peut ainsi gagner en efficacité dans son travail quotidien, analyser une situation ou augmenter son champ de vision : exploration interactive des données, recherche d’informations pertinentes, alertes automatiques, analyses et visualisations synthétiques, actualisation des indicateurs, prédictions.
Chez OctopusMind, cette analyse est au service de la détection des opportunités d’affaires et de l’exploration de l’environnement économique, avec J360. Elle peut également être au service des collectivités et citoyens, comme avec CityZenMap. L’analyse augmentée (augmented analytics) repose sur les technologies du Machine Learning et du traitement automatique du langage naturel pour automatiser la préparation de données, la découverte et le partage de perspectives analytiques. Son principal avantage est de permettre aux analystes de gagner beaucoup de temps (voir la synthèse du rapport Gartner « Augmented Analytics Is the Future of Data and Analytics », publiée le 27 juillet 2017.
Les analyses, qui consomment d’ordinaire beaucoup de temps et de ressources, peuvent être fortement simplifiées et accélérées grâce à cette technologie.
L’apprentissage profond (Deep Learning) permet de construire des modèles sémantiques.
On analyse l’information textuelle mixée à des données hétérogènes par projection dans un espace sémantique commun.
L’extraction de données et de relations, permet d’accéder à des millions d’informations enfouies dans le texte.
On peut ainsi calculer des indicateurs, structurer, rendre compte et prédire.
En route pour un tour rapide des technologies de notre "boîte noire" :
Notre matière première est la donnée. Elle va être moissonnée par des robots (web scraping), téléchargée à partir de sources open data , requêtées à partir du web sémantique ou de corpus de références, ou obtenues par production participative (crowdsourcing).
Nous utilisons Elasticsearch pour chercher et analyser ainsi que nos propres outils d'« analyse intelligente » des données issus de techniques de Machine Learning et du traitement automatique du langage (NLP). Pour les connaisseurs, voici quelques-uns de nos secrets :
Une boîte à outils très complète et en constante évolution qui ouvre de multiples possibilités sur un jeu de données, qu’il soit structuré ou non :
Tous ces outils, combinés à notre expertise, nous permettent de proposer un service qui augmente la compétitivité de nos utilisateurs.
Article sur notre modèle de vectorisation LSA+W2V à l’EGC 2019, conférence francophone qui porte sur l’extraction et gestion des connaissances.
Voir le PDFVidéo de présentation de notre modèle de vectorisation LSA+W2V à l’EGC 2019.
Voir la vidéoDécouverte d'une partie des possibilités qu'offre Elasticsearch du point de vue du développeur.
Voir la vidéoPrésentation du notebook Jupyter et son successeur JupyterLab, des nouveautés et de quelques cas d'utilisation.
Voir la vidéoWebminar sur la classification de textes, mécanisme d'attention et extraction de relations entre entités nommées.
Voir la vidéo