Skip to main content

7 | Annexe 1 : Cartographie numérique : soutien à l’analyse qualitative

Published onMay 16, 2022
7 | Annexe 1 : Cartographie numérique : soutien à l’analyse qualitative
·

Le volet quantitatif de l’approche développée par Inno³ a consisté en une collecte automatisée de données pour créer un corpus constitué de pages web et de liens entre elles concernant les thématiques de « recherche sur la recherche », « metascience » et « meta-research ». Les références partagées en entretien ont permis de constituer une base de ressources bibliographiques1, mais aussi une liste d’acteurs et de projets impliqués. Cette liste comprend à la fois des noms d’institutions privées, d’organismes publics, d’outils, et d’infrastructures. Les URL des sites web associés aux acteurs répertoriés ont ensuite servi de point de départ pour une collecte de données numériques issues du Web à l’aide de l’outil Hyphe.

Les cartographies produites aident à repérer des acteurs qui n’étaient pas forcément visibles ou connus grâce au processus de curation itératif des liens récoltés à partir des différents pages web. Les images proposées sont complémentaires aux cartographies de publications scientifiques déjà existantes notamment les travaux menés actuellement par le CWTS avec le RoRI pour cartographier le paysage des publications scientifiques associées à la RoR (cf. ci-dessous)2. Outre la présence ou non d’acteurs particuliers, l’image du réseau de liens entre sites web permet de rendre compte des relations qu’il s’agirait de qualifier grâce à un travail supplémentaire de catégorisation concernant la nature des liens.

1Ludo Waltman, « The landscape of research on research » (Innovation Studies Seminar, Utrecht, Pays-Bas, 15 octobre 2019), https://www.slideshare.net/LudoWaltman/the-landscape-of-research-on-research.

En effet, le volet quantitatif est un projet encore en cours qui pourra faire l’objet d’itérations. Des pistes d’enrichissement ont été identifiées afin de pouvoir interpréter et exploiter les données de manière plus approfondie. La liste des URL ayant servi à la collecte automatisée avec l’outil Hyphe (cf. encadré « L’approche Inno³ ») et le détail du traitement des données sont accessibles sur le projet Gitlab public (https://gitlab.com/inno3/labso-meta-research-public) et un travail descriptif de pré-analyse est présenté à continuation.

Dans la suite de cette annexe, nous présentons des compléments d’informations pour naviguer et comprendre les images cartographiques. En effet, les représentations visuelles peuvent amener aisément à des sur-interprétations. Il est donc important de rappeler la démarche donnant naissance à ces images et quelques détails sur ce que chaque lien et nœud rerpésente et les limites des interprétations que l’on peut en tirer.

7.1 Description et pré-analyse

Afin d’offrir une vision globale du paysage institutionnel numérique dans lequel le Lab de la science ouverte sera amené à se développer, le choix a été fait de s’appuyer sur une image de réseau de sites web en utilisant l’outil Hyphe développé par le medialab de Sciences Po. Une liste de 78 URL sourcées auprès d’experts interviewés pour cette étude a servi de point de départ pour créer un corpus de 8 505 pages web moissonnées par Hyphe. Suite au nettoyage dans l’interface de Hyphe et à la réduction de la dimension du réseau, le logiciel Gephi a été utilisé pour travailler l’aspect visuel du réseau, et pour détecter d’éventuelles « communautés » grâce au calcul de modularité et à l’algorithme de spatialisation d’assimilation de force Force Atlas 2 intégrés à cet outil.

« Communautés détectées » : 6 communautés détectées après application d’un algorithme de modularité et d’un algorithme d’assimilation de force. Image produite avec Gephi et Inkscape, présentée lors du séminaire de préfiguration du Lab de la science ouverte, le 27 septembre 2021 au Centre Internet et Société du CNRS.

Ce que l’on voit sur l’image :

Réseau « Science of Science » : approche computationnelle / IA, peu engagés dans les enjeux de science ouverte

  1. Réseau d’acteurs de la méta* : recherche sur la recherche avec une forte coloration britannique

  2. Réseau d’acteurs plus hétérogènes : plateformes de l’écosystème éditorial, fournisseurs de données, acteurs de la recherche sur la recherche et science ouverte

  3. Des financeurs privés nord-américains (philanthropie) not. pour des centre meta*

Réseau des politiques de la recherche (évaluation, management, prise de décision politiques)

  1. Réseau science, technologie, innovation et société

Sur cette image, les chiffres (de 1 à 6) et les couleurs correspondent aux communautés détectées suite à l’application d’un algorithme de spatialisation d’assimilation de force et d’un calcul de modularité. Les étiquettes ont été rajoutées à la main grâce à une analyse qualitative du corpus de pages web pour repérer les institutions connues représentant un intérêt pour cette étude.

« Écosystème éditorial & science ouverte » : Image des nœuds représentant le cluster central des pages web moissonnées avec Hyphe. présentée lors du séminaire de préfiguration du Lab de la science ouverte, le 27 septembre 2021 au Centre Internet et Société du CNRS.

Ce que l’on voit sur l’image :

  • Des infrastructures à but non lucratif « science ouverte »

    • Édition et diffusion de (pré)-publications scientifiques : Plos, Arxiv, Open Science Framework

    • Structuration de l’open access/data (FAIR) : ORCID, Creative Commons, Europa, Wikipedia

  • Des plateformes et services privés (éditeurs, répertoires de données, codes sources, bases de données) :

    • Grandes entreprises d’édition privées et universitaires : Wiley, T&F, Sage, Springer, Oxford Univ. Press

    • Services et infrastructures gratuits issus d’entreprises privées : ResearchGate, Github, Figshare

    • Revues et bases de données d’articles scientifiques à modalités payantes : Nature, Science Direct

Les images du réseau produites ont été un support descriptif d’aide à la réflexion et ont été croisées à l’analyse des informations qualitatives recueillies lors des entretiens et des recherches documentaires. Ainsi l’étude a proposé une première grille de lecture des courants représentés tout en ayant conscience de l’effet « réducteur » de la complexité et finesse des réseaux de recherche sous-jacents. Plusieurs acteurs concernés pourront se retrouver aux interstices des catégories présentés au sein de ce rapport.

Afin de pouvoir exploiter l’image au mieux, plusieurs clefs de lecture sont rappelées ci-dessous.

7.2 Que représentent les cercles ?

L’outil Hyphe est conçu pour agréger des couches de données extraites du Web que l’utilisateur ou l’utilisatrice peut ensuite assembler en groupements thématiques, appelées entités. Sur l’image, les entités sont représentées par des cercles, aussi appelés « nœuds ».


Bon à savoir : tout n’est pas crawlable

Pour des raisons de sécurité et pour ne pas surcharger les serveurs inutilement, un dispositif d’authentification ou de gestion de droits est souvent nécessaire pour accéder au contenu de pages web appartenant à des bases de données, des revues, des entrepôts de données, d’autant plus si celles-ci sont commerciales.

Par exemple, même si un ensemble de pages associées au site web de l’entreprise Digital Science ont été répertoriées, la base de données de l’entreprise n’a pas été moissonnée pour autant.


Sans pour autant moissonner tout le contenu des sites sécurisés, Hyphe permet néanmoins de repérer ces pages et de les regrouper afin de faire figurer ces institutions sur la cartographie. A titre d’exemple, trois pages web dont l’URL est associée à l’université d’Oxford (Oxfordjournals.org, Oxfordclinicalpsych.com, Oup.com) figurent dans le corpus d’entités constitué pour cette étude. Celles-ci auraient pu être regroupées afin de faire apparaître un seul cercle libellé « Oxford University Press » sur l’image. Les liens qui y sont rattachés seraient alors la somme des liens entrants et sortants des trois pages web initiales.

7.3 Que représentent les traits ?

Sur l’image, les traits qui relient les cercles entre eux correspondent aux liens hypertextes sur les pages web moissonnées. Il est possible de distinguer trois types de liens dans le réseau : sortants, entrants et symétriques.

Par exemple, il y aurait 23 liens entrants au cercle Oup.com (Oxford University Press) qui correspondraient aux liens hypertextes entrant sur les trois pages web (Oxfordjournals.org, Oxfordclinicalpsych.com, Oup.com) provenant d’autres pages. Cela correspondrait à des « citations » de l’URL figurant sur d’autres pages web comme Wellcome.org, Biomedcentral.com, Cwts.nl, ou encore Crossref.org, pour ne donner quelques exemples.


Bon à savoir : les liens ne sont pas contextualisés

Sans aller voir la source, il est impossible de savoir la nature qualitative du lien entre deux nœuds, c’est-à-dire qu’il n’est pas possible de savoir si le lien présente sur un site est présenté dans un contexte positif ou négatif. Il est simplement possible de constater la direction des liens et leurs poids dans le cas où les liens entre entités seraient pondérés. Cette problématique rappelle celle des indicateurs d’évaluation des publications comme le H-Index qui comptabilise le nombre de citations d’un auteur ou d’une autrice sans prendre en compte le contexte de la citation.


7.4 Le projet LabSO sur Gitlab : une source de données pour des explorations futures

Le projet Gitlab (https://gitlab.com/inno3/labso-meta-research-public) sert de dépôt pour différentes types de données numériques collectées au long de la phase exploratoire de l’étude et qui restent à exploiter. Dans une visée de science ouverte et participative, toutes sont mises à disposition dans le respect des licences prévues pour encourager d’éventuelles utilisations ultérieures. Un journal de bord situé dans le wiki du projet Gitlab documente les processus de collecte et les traitements effectués afin de faciliter la compréhension des données et leur éventuelle réutilisation.

Vous pouvez également consulter la carte sur la page Mapping/Cartographie (https://meta-open-research.pubpub.org/map).

Comments
0
comment

No comments here

Why not start the discussion?