Le projet

My Web Intelligence : Un projet d’outils open source au service des humanités numériques

0 2751

My Web Intelligence est un programme dirigé par Amar LAKEL, chercheur en sciences de l’information et de la communication, au sein du Laboratoire MICA (MICA) de l’Université Bordeaux Montaigne (UBxM). Le programme vise à développer un outil d’extraction (crawl), d’archivage, de qualification et de visualisation du Web au service des humanités numériques. L’objectif est de fournir, à tous les experts et chercheurs qui souhaitent développer des études dans le domaine de l’intelligence numérique et des humanités digitales, un dispositif basé sur l’analyse des prises de parole en ligne.

De la sociologie d’Internet aux humanités numériques, quels outils pour les études digitales ?

L’intelligence numérique et le data marketing ont connu un extraordinaire développement tant scientifique qu’économique ces dix dernières années. D’abord né du Web Analytics et du e-commerce (technologie permettant d’enregistrer les interactions utilisateurs sur ses propres supports de communication), le data marketing a connu une explosion avec l’arrivée du Web 2.0 et surtout des réseaux sociaux qui ont du affronter les problèmes du Big Data pour développer l’économie du Social Media Analytics (l’analyse de ses comptes réseaux sociaux). Mais très vite l’immensité de ces données a permis aux acteurs de l’intelligence numérique (agences d’étude marketing, d’intelligence économique et territoriale, laboratoires) de créer des solutions de Social Media Monitoring, surveillance de locutions sur les réseaux sociaux et suivi de profils locuteurs. Entre 2013 et 2015, c’est plusieurs centaines de millions de dollars qui ont été investis dans les start-up qui offraient ce genre de solutions.

Mais le parent pauvre de l’intelligence numérique reste le Web dans sa très grande immensité. Sources hétérogènes, formats de données d’une très grande diversité, plateformes dispersées, le Web est un chaos complexe qui semble infini et insaisissable. Pourtant le Web devient chaque jour un peu plus l’espace de toutes les paroles publiques. C’est en France à travers l’initiative du Medialab de Sciences Po Paris que les problématiques d’un outil pour les humanités numériques adapté à l’analyse des corpus de grande ampleur a vu le jour. Si des expériences et des projets comme le navicrawler ont été des impasses, on doit à Franck Ghitalla, chercheur en Sciences de l’Information et de la communication de l’UTC de Compiègne, d’apporter, en France, les premières réponses à une méthodologie scientifique des prises de paroles du web qui s’inscrit pleinement dans la sociologie des controverses (Bruno Latour, Michel Callon et bien d’autres au sein du CSI de l’école des Mines). Alors même qu’il n’est pas à proprement parler membre du Medialab (sous le haut patronage de Bruno Latour),  on doit à Franck Ghitalla d’avoir constitué bien plus qu’un « collège invisible » de développeur web (entre recherche et création d’entreprises) mais aussi un mouvement qui a abouti à faire entrer la sociologie structurale de l’analyse des réseaux sociaux (qui a plus de 70 ans) comme clé de compréhension du web. Le logiciel Gephi une des grandes réussites des frères Jacomy est aujourd’hui le logiciel le plus utilisé dans l’analyse des réseaux en France.

Lors de sa prise de fonction à l’université de Bordeaux en 2006 comme chercheur en Sciences de l’Information et de la communication, Amar LAKEL achève un cycle de recherches sur la mutation de la gouvernance publique à l’épreuve d’internet.  Sa thèse peut se résumer ainsi, Internet comme espace public ouvert et complexe remet en cause les fondements de la gouvernementalité des Etats modernes tels qu’ils se sont développés depuis le 14ème siècle. Face à une injonction de survie (qui plus est paradoxale), l’Etat se retrouve face à l’obligation d’innover dans ses modalités de gouvernance pour préserver sa fonction structurante non seulement de régulation de la société mais aussi d’initiateur des innovations et du changement social. Après avoir collaboré au premier ANR de SHS sur la gouvernance d’internet sous la direction de Françoise Massit Folléa (2004-2006) à la Fondation de la Maison des Sciences de L’Homme, il initie dès son arrivé à Bordeaux, un projet de recherche sur l’observatoire sur le web administratif français (voir ici le rapport final). A la recherche d’un outil pour cartographier le territoire numérique, il se porte tout d’abord sur le logiciel Tulip, développé par le Labri de l‘Université de Bordeaux. Pour autant, cet outil informatique est désigné principalement par des informaticiens pour des informaticiens dans un contexte de big data. Il assiste alors à la toute première présentation par Mathieu Jacomy du logiciel Gephi dans un séminaire qui s’avérera être la proto naissance du médialab.

L’opportunité se présente immédiatement quand la Fing, porteuse du projet « Rive Droite Numérique » de Bordeaux pour le GIP GPV en 2008, sollicite Amar LAKEL pour mettre en place une méthodologie d’étude et de gouvernance numérique des territoires. De la gouvernance au territoire, l’innovation des technologies politiques semblait alors plonger ses sources dans une longue tradition technologique. Concentré alors sur une méthodologie de profilisation des locuteurs numériques, il propose de faire appel à Linkfluence (première start-up issue du collège Ghitalla) pour la partie cartographie réseaux. Si le résultat est une innovation majeure, il ne répond pas pour autant à toutes les exigences d’une démarche scientifique. Après avoir répondu à un appel à candidature de la société SFR sur un projet d’analyse des controverses socio-techniques en ligne et élaboré un audit des meilleures solutions de veille stratégique (2009), c’est avec l’émergence du sujet des Humanités digitales qu’Amar Lakel a recentré ses travaux sur les dimensions épistémologiques et méthodologiques de l’analyse des corpus numériques. Théories des graphes, text mining, théories de l’influence, il a fallu 4 ans pour élaborer un dispositif de territorialisation et d’analyse des corpus numériques et de cartographie des controverses. En 2014, l’appel d’offre prototype du Conseil Régional d’Aquitaine permet de financer et développer un noyau applicatif destiné à faire de la veille informationnelle capable d’absorber des données issues des paroles publiques émises sur le Web et de les rendre intelligibles (http://mywebintelligence.net).

[Archive des origines] Présentation des résultats Rive Droite Numérique ( 15/04/2010)

Le groupe E3D du MICA au cœur de la recherche pour les humanités numériques

Le Laboratoire MICA (Médiation, Communication, Information, Art) est un laboratoire de recherche de l’Université Bordeaux Montaigne, labellisé comme Unité de Recherche (UR 4426) de la formation doctorale en SIC et en Art. Au sein de cette équipe, le Professeur Franck Cormerais dirige l’équipe E3D (Etudes Digitales : Du Document au Dispositif).  Cette équipe se consacre aux humanités numériques, à la question du traitement des corpus numériques et de leurs impacts sur les stratégies organisationnelles des organisations publiques et privées (Projet ProsperBook, Projet RICSA, Renum, Otletosphere, etc.). Les études numériques butent sur la possibilité de constituer des corpus Web solides sur des bases scientifiques transparentes. L’évolution d’outils d’analyse des grands corpus (open source et gratuit) sont aujourd’hui une formidable opportunité pour doter les experts professionnels des études numériques d’une méthodologie solide (chargés d’études en agences marketing, experts de la veille, chargés des études sectorielles, etc). Ces immenses possibilités pour répondre aux défis des études numériques sont, à ce jour, éparpillées. Le MICA  vise à se doter d’un pôle de compétences qui associe les chercheurs en SHS spécialisés dans l’étude des corpus numériques s’appuyant sur un pool d’ingénieurs en informatique et des professionnels associés pour développer les plateformes de services auprès du monde professionnel.

My Web intelligence est un projet de prototype qui a été un des 10 lauréats financés par le Conseil Régional d’Aquitaine dans un appel d’offre intitulé « Projet innovant de l’usage de la data »My Web Intelligence est aujourd’hui un prototype de plateforme créé au sein du MICA et qui tourne en environnement python et Node JS sur base de donnée SQLite. L’architecture de ce bus applicatif repose sur 4 axes de développement :

    • Le gestionnaire de territoire : véritable gestionnaire de projet, il vous permet d’ouvrir un projet d’exploration du Web en installant des requêtes de mots clés qui serviront de base pour l’extraction des données numériques et la visualisation de ces dernières. À terme, il devra être doté de fonctionnalités de gestion collaborative de projets et de mise en visibilité publique des projets.
    • L’extracteur de données numériques et les services d’annotations associées (« Crawler ») : l’extracteur de corpus en charge de la constitution des archives numériques embarque non seulement un serveur http natif en charge d’absorber les ressources numériques mais il est doté de la capacité de nettoyer les données (Readability) et de les qualifier (pertinence) (détections des liens hypertexte, détection des médias, etc.)
    • Le bus d’interface entrées/sorties doit gérer la communication pérenne et sécurisée avec les applications tiers. L’entrée et la sortie de données par des fonctions d’import/export, dans le cadre d’un projet, doivent se faire d’une manière stable et sécurisée. L’export des Pages web en format csv ou gexf (pour l’analyse réseaux sous Gephi), des domains en csv ou gexf (données regroupées à l’échelle du site web), des medias en liste csv (images et vidéo) pour l’analyse visuelle.
    • La visualisation des grandes masses de données : My Web Intelligence est dotée d’un Dashboard pour gérer les grands corpus par un certain nombre de marqueurs. cet interface de nettoyage et de qualification des données par l’analyse permet, non seulement un contrôle et un nettoyage du corpus, mais aussi une qualification thématique des pages web.

Au terme du projet de prototypage, My Web Intelligence aura relevé la plupart des enjeux techniques et scientifiques initiaux. Pour autant, le passage  du prototype au service stable et professionnel engage ses propres défis : carrés algorithmiques bloquants, gestion du Big data, supports multiutilisateurs, etc. Le prototype est aujourd’hui plus un appel à un programme de recherche qu’une offre finie et fermée sur elle-même.

Rendre possible la recherche et l’étude dans l’espace public numérique

Une série d’avancées notables dans l’architecture du Web permet aujourd’hui de remporter des défis qui paraissaient insurmontables à celui qui voulait appréhender l’activité numérique et la prise de parole publique. Internet semblait destiné à devenir un espace sombre, invisible, que l’on pensait alors totalement chaotique ou du moins d’une complexité insaisissable.

    • Le Web était une immensité infinie et sombre semblable à l’espace… Or le Web 2.0 et l’ensemble des applications sociales ont rassemblé l’intelligence de la foule (crowd sourcing) pour extraire et qualifier cet espace. Ces infomédiaires, que nous appelons dans notre projet les « oracles », ont constitué d’énormes bibliothèques de références qui sont les points d’entrées des locutions perçues par les mondes numériques (moteurs de recherche, favoris collaboratif, réseaux sociaux, Open Data…). My Web Intelligence veut profiter de ces infomédiaires pour plonger ses sondes dans les profondeurs du web interconnecté et en extraire des locutions publiques (crawler).
    • Le Web paraissait chaotique… mais les études et les théories de l’hypertextualité (qui sont au fondement du modèle économique du numérique) ont montré que les prises de parole numériques sont des relations entre des locuteurs qui sont, eux, tout à fait socialisés et structurés. Le Web est en réalité une chambre d’enregistrement (avec ses biais et ses déformations) des échanges sociaux, du moins des porteurs de parole et des représentants de tous bords. La théorie des graphes, le deep machine Learning, les régressions et l’analyse multifactorielle permettent aujourd’hui des analyses communicationnelles des pratiques numériques qui retrouvent non seulement les profils locuteurs, mais aussi leurs rôles dans des réseaux de relations et leurs impacts sur l’évolution des contenus et des controverses en ligne.
    • L’immensité des corpus semblait rendre incompréhensible l’intelligence de ce brouhaha numérique. Pour autant, l’analyse automatisée des textes (text mining) permet une classification des contenus très avancée. Que ce soit en classification automatique ou semi-automatique, les outils d’intelligence artificielle se sont fortement démocratisés et permettent aujourd’hui d’embarquer dans des solutions légères, les algorithmes les plus puissants de vectorialisation du contenu. Ainsi on peut dégager des méta textes d’immenses corpus avec des outils de data-visualisation de ces grandes archives permettant une navigation assistée.

Ainsi le Web est limité, socialement structuré et intelligible. Ce qui est de moins en moins une hypothèse mais, au contraire, un défi technologique, est la base du projet My Web Intelligence. Fournir aux acteurs économiques, institutionnels et sociaux un cartographe du Web, véritable rampe de lancement de sondes qui viennent éclairer et visualiser les prises de paroles en ligne. Les potentiels de cette plateforme sont innombrables et touchent aujourd’hui toute personne qui use du Web en terme d’analyse de la parole publique.

  • Editor Rating
  • Pertinence
  • Importance
  • Intérêt
  • Total score
  • User Rating
  • Pertinence
  • Importance
  • Intérêt
  • Total score

About the author / 

Amar LAKEL

Amar LAKEL, doctor of Information and Communication Sciences, is researcher within the laboratory of the group of research in organizational communications (MICA, Bordeaux 3) where he undertakes a research on social media development and social network analysis.

Related Posts

Leave a reply

You must be logged in to post a comment.

Page Linkedin

Suivre notre actualité

Facebook Page

Top articles

Nous contacter