Le projet

Enjeux de la recherche digitalisée dans la sociologie de l’Internet

0 2752

L’importance du web comme source d’information essentielle n’est plus à démontrer. Devenu, au fil des années, l’espace de publication préféré des organisations et des personnes, Internet est devenu, aujourd’hui, une bibliothèque de publications numériques qui a depuis longtemps fait exploser les seuils de l’archivage tel qu’on l’imaginait avant la numérisation de la communication. Mais loin d’être une aubaine pour les chercheurs et les experts en études digitales, le web comme espace ouvert est une source d’information plus que problématique. Enjeux du traitement des datas, hétérogénéité des documents et des situations communicationnelles, difficulté d’identifier les sources…le web ressemble aujourd’hui à une gigantesque boîte aux lettres remplies à ras bord de prospectus, d’ouvrages savants, de catalogues de la VPC sans aucune organisation ni gestion des connaissances. Pour autant, cet abîme où s’entassent toutes les prises de parole du monde nous met face à un phénomène unique dans l’histoire de l’humanité : la possibilité, du moins pour l’instant théorique, pour le chercheur en sociologie de l’Internet, d’accéder à l’immense production d’une nouvelle forme de discours qui joue un rôle essentiel dans la construction de l’espace public.

Le web est donc un paradoxe. Gigantesque archive, il est toutefois très difficilement utilisable comme source de documentation. Face à cette infobésité, les acteurs sociaux, et en premier lieu les professionnels de l’information, ont dû très vite s’organiser pour développer des outils d’intermédiation entre l’archive numérique et les besoins des lecteurs. L’économie numérique a été avant tout une économie d’accès à l’information. D’abord, les moteurs de recherche, dont le marché semble aujourd’hui stabilisé autour du monopole de Google, n’ont eu de cesse de rechercher les documents (crawler) et de les classer (ranking) sur la base d’algorithmes sémantiques dont la complexité, enfermée dans des brevets, fait toute la valeur de ces grands groupes de la nouvelle économie. Sur la base d’une requête constituée de mots-clés, l’enjeu était de classer les documents les plus pertinents au regard d’un questionnement. Puis c’est au tour des “socials bookmarkers” de nous fournir des plateformes de gestion (de mise en mémoire en fait) de nos favoris, de partage de ces favoris (on parle ici de curating) et de collaboration collective permettant de s’appuyer sur l’intelligence de la foule pour classer le web selon le succès de chaque document. À l’algorithmique sémantique, on ajoute une part de crowdsourcing et de mesure d’audience des documents pour définir, au-delà de la pertinence logique, une priorisation de l’information par son usage social. Puis vint dans un troisième temps, la révolution des réseaux sociaux, killer application de l’information, qui, non contents de faire descendre la granularité de la publication à la conversation de bistrot, devinrent les principaux outils de curating du web (Facebook, et Twitter en particulier) chez les utlisateurs.

Tous ces infomédiaires du web ont permis dans un premier temps d’indexer le web selon des variables sémantiques, sociales et structurales (analyse des liens entrants et sortants). Dans le cadre du projet My Web Intelligence, nous les appelerons des “oracles” (car ceux sont des instances à qui on soumet une requête et qui vous livrent une série de réponses). Cette indexation est au fondement de l’utilisabilité du web par tout un chacun. Pour autant, les professionnels de l’information le savent bien, il faut un “travail” pour passer de la donnée à l’information et de l’information à l’intelligence. Le design utilisateur de ces plateformes favorise avant tout cette fonction d’oracle delphique : je pose ma question, je reçois une réponse et je m’en vais. C’est dans cette limite et la nécessité de ce “travail” que se sont développées ces 5 dernières années des solutions de veille et d’intelligence du web voire, plus spécialisées, des services de social média monitoring. L’intelligence numérique est le fruit d’un traitement et d’une gestion des données en ligne au service d’un travail de recherche.

1. Constituer son corpus numérique de recherche : Enjeu primordial des Etudes Digitales.

C’est dans ce mouvement de recherche sur la valorisation de l’information numérique que le projet de R&D My Web Intelligence, a vu le jour. Il s’agit de proposer un nouveau paradigme de gestion et de navigation du web plus propice au travail des professionnels de l’information. Nous avons voulu fournir un outil non seulement libre et gratuit mais surtout open-source et accessible. Il nous faut aller plus loin que la simple démocratisation des usages. L’open-source en licence MIT est en fait une invitation pour les chercheurs, les développeurs et les experts de l’information à se fédérer et à se mobiliser devant un enjeu majeur : Relever le défi de l’intelligence collective pour faire front devant l’immensité des prises de parole en ligne. L’enjeu est de taille. Il s’agit ici de voir, de comprendre et de naviguer sur un web structuré et resocialisé. Le web est en très grande partie invisible. Mais plus qu’invisible, il est discontinu. Les unités informationnelles qui résultent de nos navigations sont des fragments isolés, déconstruits et décontextualisés de leurs conditions de production. La liste de résultats ne permet pas cette recontextualisation de la production de l’information. Bien au contraire, elle la supprime. Rendre compréhensible le web dans sa dynamique sociale, c’est réintroduire une compréhension du monde numérique à travers les conditions de production de l’information. En effet, les sociologies des controverses, de l’innovation et de la traduction nous ont appris que l’analyse des comportements locuteurs, de leurs positions sociales et les savoirs produits sont indissociables des jeux stratégiques. Cela nous oblige donc, si l’on veut comprendre l’archive numérique à mettre en place des dispositifs d’analyse sur plusieurs niveaux (le niveau du document, le niveau du métadiscours, le niveau des locuteurs) qui puissent mettre en perspective le contexte socio-linguistique d’une expression. C’est à ce titre qu’une véritable sociologie de l’internet est possible. L’archive numérique est le fruit d’un jeu social qui forme le contexte de sa production mais aussi le sens pragmatique du discours. La « liste » a évacué l’intelligence de l’émetteur et du récepteur rendant inintelligible les jeux stratégiques des prises de parole.

Pour une plateforme d’intelligence numérique, tel que porté par le programme My Web Intelligence, l’expert doit d’abord engager la recherche sur Internet comme une recherche de longue haleine. Loin de l’interface primitive qui vise à rentrer quelques mots-clés dans un champ texte et se voir asséner plusieurs centaines de réponses, il s’agit ici dans une logique projet pour la recherche selon des problématiques que l’on va nourrir et enrichir au fur et à mesure des itérations. Les moteurs de recherche reposent sur un scénario d’usage de la rationalité limitée : trouver une information suffisante en un temps extrêmement court. Ce scénario est le fondement même de leurs algorithmes de ranking. Dans notre projet, le travail dynamique (l’intelligence) des requêtes est une des clefs de la pertinence des résultats. L’un des enjeux de My Web Intelligence est de fournir à l’utilisateur les moyens de concevoir sa recherche comme un index structuré et dynamique qui sera nourri tout au long de son étude par la sélection des réponses les plus pertinentes. Nous opposons ici la pratique de l’étude à celle de la requête. A terme une logique de machine learning assiste les utilisateur sur le temps long pour une gestion de l’indexialité et évaluer les archives numériques pour ne présenter que les documents les plus pertinents. A terme, la plateforme a pour ambition de rendre accessible toutes les fonctionnalités d’une gestion de projets pérenne (compte utilisateur personnalisé, sauvegarde et importation des annotations, mise à jour des données, travail collaboratif et partagé, mémoire centralisée collective, etc). La logique d’usage est en réalité celle d’une construction de son territoire numérique que ce soit seul, collectivement et même assisté par des agents algorithmiques. Mais cette construction doit toujours pensée sur la durée. Nul territoire ne se comprend sur la base d’un album d’instantanés, il faut de l’exploration, de l’errance et de la navigation. Il faut aussi des annotations et du recul. Notre outil se pense plus comme un dispositif archéologique que comme une prestation de service.

My web intelligence s’appuie sur les oracles du web pour obtenir un premier corpus de documents (qui peut vite atteindre déjà plusieurs milliers d’expressions) pour démarrer la collecte d’informations. En croisant les sources, on se libère non seulement du monopole de Google (qui finit réellement par poser question quand on sait la part microscopique du web qu’il nous présente) mais aussi des filtres particuliers que chaque dispositif a mis en place. En croisant les sources des différents types d’infomédiaires, on multiplies les rationnalités algorithmiques qui nous font entrer dans notre espace public numérique. À partir de ce corpus de premier niveau, l’exploration continue des liens sortants permet de s’enfoncer dans les couches profondes du web pour obtenir le territoire numérique le plus complet au cœur de nos préoccupations. Ainsi, entre crawl profond et évaluation progressive des informations les plus pertinentes, la plate-forme, travaillant en tâche de fond, finit par constituer un territoire d’informations traitant d’un sujet. C’est ce « my » web (qui continuera à s’enrichir avec le temps) qui formera la base du territoire numérique mise en surveillance voire mise en gouvernance quand il s’agira d’agir dessus. Il nous faut donc développer un crawler, machine à extraire les données qui de proche en proche épuise l’extraction des données pertinentes. Mais il faut nécessairement l’associer à des algorithmes d’approbation qui se doivent de rejeter le bruit et de classer les documents dans un ordre de priorité. Car, si le web qui correspond à mes requêtes est fini, il n’en reste pas moins immense. Alors plutôt que de rejeter des documents pertinents, la priorisation permet de laisser à chaque équipe projet le soin de fixer la limite de son exploration.

Prendre le temps d’enrichir ses données pour améliorer la qualité de l’analyse

Le nettoyage de données est une étape essentielle dans toute recherche. Pour autant face à la taille des corpus, il ne peut se faire sans l’aide d’agents algorithmiques. Dans un premier temps, une logique d’indexation des documents doit reprendre non seulement la proximité sémantique avec l’index des requêtes (indice de relevance) mais aussi l’interaction avec les usagers (suppression) et la position structurale du document dans le corpus (indice d’autorité). Ainsi, les documents les moins pertinents sont envoyés en fin d’index et ne seront étudiés que si les moyens humains le permettent. À ce moment là, la possibilité d’annoter humainement le document permettra de renforcer son poids (que ce soit négativement ou positivement) dans l’algorithme d’approbation. Pour autant, la plateforme permet un rendement cumulatif de l’expérience en utilisant l’intelligence de la foule d’utilisateurs. Les ressources déjà annotées par d’autres seront proposées déjà pré-remplies ce qui permettra une accumulation progressive de la connaissance dans une communauté d’usagers donnée.

Chacun de ces documents va devoir subir une série d’annotations qui viendront enrichir l’analyse socio-linguistique de la situation de communication. Cet enrichissement va permettre d’en améliorer la gestion et l’intelligence. Il s’agit de savoir tout d’abord “qui parle ?”. À partir du document, on retrouve le média qui le supporte. Ce dernier est qualifié selon sa nature éditoriale (blog, site institutionnel, réseaux sociaux, etc.) et le type d’acteur social qui produit cette édition. Par la suite, l’indexation permet de classer automatiquement le contenu du document autour des mots-clés qui seront par la suite gérés selon un arbre logique. Ainsi, le “de quoi ça parle ?” est géré automatiquement avec la possibilité d’affiner l’index manuellement. Ces annotations devront ensuite être évaluées selon leur importance auprès des récepteurs (la date de publication, la résonance sociale, l’audience, l’autorité par citation, etc). En fin de compte, derrière l’émergence d’un document, c’est toute la situation de communication qui est qualifiée (tant dans sa production que dans sa réception).

L’enjeu du web, nous l’avons déjà souligné, c’est, l’immensité du corpus, c’est-à-dire la capacité d’annoter une gigantesque archive. Dans un premier temps, il faut rappeler que les projets réels d’intelligence ne travaillent pas sur “le web”, mais sur un sous-ensemble particulier. Et plus cet ensemble est grand et plus les ressources humaines déployées pour son étude sont importantes. Donc, l’enjeu idéal est bien sûr d’imaginer une solution de qualification automatique des données les plus pertinentes possible. Si le 100% automatique est impossible en matière d’intelligence, l’analyse automatique des documents a connu des avancées remarquables qui peuvent permettre à très court terme une annotation du contenu de la page assisté par ordinateur (Neurol Network Clusterisation). Pour autant, c’est la qualification du média dans son inscription sociale qui parait difficile. Là encore de gros progrès d’automatisation sont possibles, mais c’est surtout dans la gestion de la connaissance collective (c’est-à-dire le crowdsourcing de l’annotation humaine) que les possibilités sont immenses. Il est en effet possible d’imaginer des collectifs d’experts, autour de secteurs informationnels donnés, partager leurs ressources dans la qualification et l’annotation de sous-ensembles sectoriels du web. Très rapidement, la communauté des utilisateurs de My web intelligence pourra être amenée à collaborer à la construction d’index sectoriels de qualification du web sous la forme de projet open data. À terme, cette “mémoire partagée” cumulative offrira aux nouveaux utilisateurs une indexation sectorielle pertinente. L’enjeu ultime de My Web intelligence est de fournir une infrastructure de recherche pour le partage et l’open access de corpus de recherche enrichis au service des Internet Studies.

De l’intelligence du web : de l’analyse des données à l’interprétation des résultats en Sociologie de l’Internet.

Une fois l’extraction et la qualification des données d’une controverse achevée, My web intelligence donne accès à un corpus nettoyé qui permet de pouvoir mettre en place un ensemble de traitements d’analyse et de traitements des données pour tirer véritablement une compréhension de l’économie de la discussion en ligne. Le premier travail est d’utiliser la théorie des graphes et l’analyse structurale des réseaux pour générer des cartographies des médias qui sont à l’origine de la controverse. En effet derrière les mots, il y a des locuteurs aux commandes de supports médiatiques. Des locuteurs situés et engagés dans un espace public numérique. Il faut non seulement pouvoir qualifier ces médias selon leur nature sociale, leurs comportements éditoriaux, mais il faut avant tout révéler à travers la structure de leurs citations qualifiées, le contexte d’alliance et d’adversité qu’ils tissent dans les processus de légitimation mais aussi d’opposition. Dis-moi qui tu cites, quelles sont tes références et je te dirai qui tu es. Une vision globale et structurale des acteurs révèle non seulement la structure des alliances et des oppositions, mais elles révèlent les communautés d’intérêts idéologiques et situe chaque média selon un rôle social dans le débat et au sein de sa communauté (leader d’opinion, vigie, marginal sécant, bridge, etc.). Cette recontextualisation du locuteur au cœur de ses “amis” nous informe sur la position sociale du média au sein d’une communauté stratégique.

Mais l’analyse des expressions permet aussi, à travers l’analyse multivariée (classification), de dégager des profils comportementaux de locuteurs. En effet, la nature sociale de ces locuteurs, les sujets abordés, les arguments utilisés, les dates de publication, les supports médias utilisés nous permettent de dégager des co-occurrences qui sont autant de marqueurs sur les « prises de position fréquentes ». Ainsi, on peut quantifier et qualifier les prises de position types et comprendre leur évolution dans le temps. Derrière un ensemble assez conséquent de messages, il n’est pas rare de dégagermoins d’une dizaine positions types qui se partagent l’espace public discursif. Ainsi, si l’analyse structurale avait “socialisé” les médias, la réduction du corpus à quelques profils comportementaux quantifiés permet d’avoir une vision plus claire de la structuration de la controverse dans le temps.

Enfin, l’analyse des graphes peut être utilisée pour comprendre la structuration argumentaire latente. En effet, les prises de position visent à construire une réalité par intervention ponctuelle. Au final, toutes ces interventions impressionnistes forment un tableau d’ensemble qui vise à construire une réalité. S’il est très difficile (mais pas impossible) et très coûteux de reconstruire le graphe complet des arguments, il est très instructif d’analyser la coprésence d’objets du discours. La cartographie de mots-clés révèle alors une structure du dictionnaire qui est le produit latent de la construction de la réalité par la prise de parole dans des médias donnés. L’utilisation des variables topologiques des graphes nous permet de comprendre aussi le rôle la place de chaque concept dans une stratégie argumentaire globale. En réalité les sujets qui prennent position dans une controverse sont dans leur très grande majorité des portes paroles qui habitent des discours qui leur préexistent et qu’ils travaillent à la marge. La controverse voit rarement la création innovante d’arguments et bien plus souvent une prise de position sur des arbres argumentaires existants dans des énoncés produits comme des mêmes. Là encore, l’analyse en graphe des arguments, une fois qu’ils sont datés, permet d’historiciser la construction des représentations collectives et d’en comprendre la dynamique.

Pour conclure : une approche dynamique, collaborative et prospectiviste des débats en ligne.

Les sciences sociales et humaines ont toujours procédé par réduction de la complexité, ce n’est pas une limite, c’est leur nature. Voir derrière la multitude d’événements un nombre saisissable de rôles, de comportements, de structures collectives et dynamiques, voilà le fondement du travail des experts. Sans cette réduction aucune science mais aussi aucune gouvernance ne serait possible. Cette réduction est constitutive, certes, mais ne doit pas pour autant être oubliée quand on redescend au niveau microscopique. Chaque individu d’une étude (au sens statistique, c’est-à-dire ici la prise de parole sur Internet) est plus ou moins approximé par ces réductions conceptuelles. Il a en lui une part qui le subsume à cet objet commun et dans le même temps possède une part irréductible, originale et unique. Les concepts de l’étude nous servent alors de repères, de coordonnées sociologiques pour situer la prise de parole dans un univers multi-dimensionnel. Le document numérique est ainsi situé dans un univers médiatique, produit par un comportement discursif type, activant une réalité construite. On peut aussi prendre de la hauteur et voir l’espace numérique sous son aspect global et structuré.

Mais avec la date de publication, on entre non seulement dans l’analyse de la dynamique passée et présente mais aussi dans la possibilité d’une prospective du discours, de la construction de scénario plausible d’évolution des prises de position. L’analyse longitudinale de la prise de parole nous permet d’accéder à une étude empirique de l’influence, de la viralité, des ruptures et des alliances. On peut imaginer que les datas, sciences appliquées aux discours numériques, en viennent à modéliser les phénomènes idéologiques pour améliorer la qualification automatique du discours et pour nous permettre de gérer de plus grandes masses de données. Mais l’étude pourrait tout aussi bien dégager des comportements discursifs collectifs invisibles ou inconscients. On pense au phénomène de bashing qui relève du lynchage en ligne mais aussi à la diffusion d’innovations ou d’argumentations nouvelles.

En fait, Internet est une immense enquête d’opinion a priori, comme un recensement de toutes les réponses à toutes les questions, mais avant même de les avoir posées. L’enjeu majeur est aujourd’hui de formaliser un outil de collecte et d’analyse de ces réponses au regard des questions que l’on se pose. My Web Intelligence est aujourd’hui un prototype, mais il est surtout un programme pour prendre au sérieux les enjeux de l’intelligence numérique qui n’est autre que de l’intelligence sociale. Il faut désormais la mobilisation nécessaire, et surtout les investissements en recherche et développement, pour entrer de plein pied dans l’espace public numérique. Nous sommes à l’aube du XXIème siècle dans la même situation que la sociologie au début du siècle dernier, face à d’énormes enjeux mais aussi face à la possibilité d’embrasser la complexité du monde à venir. C’est là tout l’enjeu des Internet Studies.

  • Editor Rating
  • Pertinence
  • Importance
  • Intérêt
  • Total score
  • User Rating
  • Pertinence
  • Importance
  • Intérêt
  • Total score

About the author / 

Amar LAKEL

Amar LAKEL, doctor of Information and Communication Sciences, is researcher within the laboratory of the group of research in organizational communications (MICA, Bordeaux 3) where he undertakes a research on social media development and social network analysis.

Related Posts

Leave a reply

You must be logged in to post a comment.

Page Linkedin

Suivre notre actualité

Facebook Page

Top articles

Nous contacter