Les participants à l’IRM
Vingt-quatre droitiers de langue maternelle française âgés de 22 à 39 ans (moyenne = 28,6 ans; d.s. = 4,4) ont été payés pour participer (11 hommes, 13 femmes). Ils n’avaient aucun antécédent de troubles neurologiques, médicaux, visuels ou de la mémoire. L’étude a été approuvée par le Comité régional d’éthique de la recherche (Comité de Protection des Personnes Nord-Ouest III, ID sponsor : C13-46, ID RCB : 2014-A00126-41, clinicaltrial.gov numéro d’enregistrement: NCT02172677). Deux participants supplémentaires ont également été initialement recrutés pour le réglage et l’ajustement de la conception (mais non analysés). Un participant a été remplacé sans autre analyse en raison d’importants artefacts IRM empêchant l’analyse d’images. Tous les participants ont donné leur consentement écrit avant de participer. On a demandé aux participants de ne pas consommer de psychostimulants, de drogues ou d’alcool avant ou pendant la période expérimentale. Aucune méthode statistique n’a été utilisée pour prédéterminer la taille de l’échantillon, mais la taille de l’échantillon utilisée dans cette étude (N = 24) est comparable à celle des études précédentes de l’IRMf utilisant RSA.
Matériaux et procédure d’exploration du Mémorial
Les stimuli étaient 119 images sélectionnées dans la zone Guerre mondiale, Guerre totale au Musée du Mémorial de Caen. Chaque exposition a été photographiée au Mémorial à l’aide d’un appareil photo numérique professionnel et d’un éclairage professionnel. Ces images ont ensuite été ajustées pour le contraste et l’éclairage, et le contour externe a été recadré, à l’aide d’un logiciel de traitement d’image.
Chaque participant a exploré le Mémorial en fin d’après-midi, juste avant la fermeture de la porte du Mémorial. Cela garantissait que les autres visiteurs ne perturberaient pas les visites des participants. Les participants ont d’abord reçu des instructions générales sur l’expérience et ont chacun été équipés d’un système de suivi oculaire mobile (Laboratoire de sciences appliquées) composé de lunettes et d’un petit dispositif de stockage connecté aux lunettes et transporté comme un sac à dos. Ces lunettes ont été montées avec une petite caméra filmant l’exploration visuelle du participant, qui a été enregistrée et diffusée sur l’ordinateur portable de l’expérimentateur. Bien que nous ne présentons pas ces données de suivi oculaire, qui dépassent le cadre du présent document, nous avons ainsi pu suivre l’exploration des participants sans les suivre, et ainsi nous assurer qu’ils respectaient les instructions suivantes.
Les participants ont été invités à explorer un espace restreint du Mémorial et ont reçu une carte décrivant la disposition spatiale (voir fig. 1 bis). Cet espace comprenait un total de 119 images, chacune avec une légende en dessous, et était organisé selon 22 zones thématiques (les numéros de zone sont indiqués dans les cercles de la Fig. 1 bis). Deux autres zones ont été incluses au tout début et à la toute fin de la tournée pour des effets de récence et de primauté. Ces zones de remplissage étaient toujours les mêmes et leurs images n’étaient pas incluses dans le protocole expérimental ultérieur (et n’étaient utilisées que pour la formation et la familiarisation avec la tâche de rappel ultérieure). Ces 22 zones ont été regroupées selon 6 secteurs principaux (illustrés par les 6 couleurs principales sur la carte commémorative de la Fig. 1 bis). L’ordre d’exploration de ces principaux secteurs a été contrebalancé entre les participants. L’ordre d’exploration des zones dans chaque secteur a également été randomisé selon 6 listes d’exploration différentes (4 participants ont été affectés à chacune de ces 6 listes). Chaque zone a commencé par un tableau d’introduction décrivant le contenu de la zone que les participants devaient d’abord lire avant d’explorer la zone. Les participants devaient ensuite explorer chaque image composant la zone. Ils l’ont fait en lisant d’abord la légende en dessous, puis étaient libres d’explorer le contenu de l’image aussi longtemps qu’ils le souhaitaient avant de passer à l’image suivante jusqu’à la fin de leur visite, dont la durée moyenne était de 76 min (d.s. = 13,8). Notez que lors de cette visite commémorative, les participants ignoraient que leurs souvenirs seraient testés le lendemain.
Tâche de rappel
Le lendemain, les participants ont effectué la tâche de rappel, qui a été divisée en trois sessions IRMf d’environ 10 minutes chacune. Chaque session présentait de courtes phrases correspondant à de courts extraits décrivant des images réelles de la Seconde Guerre mondiale que les participants avaient explorées (c’est-à-dire des phrases cibles; nombre moyen de mots = 7,8, s.d. = 2,4) ou n’avaient pas explorées (c’est-à-dire des phrases distracteurs; nombre moyen de mots = 7,7, s.d. = 2,1) la veille. Au total, 119 phrases cibles et 63 phrases distracteurs ont été présentées au hasard aux participants. Les événements historiques associés aux phrases des distracteurs ont été sélectionnés pour correspondre aux images affichées au Mémorial en termes de contenu et de proportion relative d’images par zone. Le pays dans lequel l’événement a eu lieu était également affiché sous chaque phrase, tout comme l’année. Les participants étaient conscients de la proximité entre les phrases distrayantes et les phrases cibles et ont donc été fortement encouragés à compter sur leur capacité à se souvenir pleinement et à visualiser les images associées pour effectuer cette tâche. Après le début de chaque phrase de repérage, les participants ont indiqué s’ils pouvaient ou non se souvenir de l’image associée en appuyant sur oui avec leur index droit ou non avec leur majeur droit. Les phrases sont apparues pour 4,5 s centrées sur un fond gris. Les essais ont été présentés de manière stochastique selon une distribution de Poisson (λ = 4) avec un intervalle interstimétrique moyen de 4,2 s (intervalle = 1-10 s) avec 25% d’événements nuls supplémentaires et ont été séparés par une croix de fixation. La précision et les performances de la tâche de rappel sont décrites dans le tableau supplémentaire 2.
Tâche d’arrangement d’images
En dehors du scanner, les participants ont effectué une tâche d’arrangement d’images, utilisée comme proxy pour des schémas individuels, sur les 119 images commémoratives. Les images devaient être positionnées entre 1 et 28 cercles en fonction de leur proximité historique. Cette tâche d’arrangement d’images a été écrite en Javascript intégré dans du code HTML pour la navigation sur Internet, offrant ainsi une grande flexibilité dans l’exécution de la tâche: les participants pouvaient zoomer ou dézoomer avec un arrière-plan en mouvement similaire à Google Maps, ils pouvaient agrandir une image en cliquant dessus (avec la légende commémorative en dessous), les légendes commémoratives apparaissaient au survol de la souris et les participants pouvaient sélectionner et déplacer plusieurs images à la fois. Les images étaient initialement placées dans un grand carré au-dessus des cercles. Les participants ont été invités à examiner chaque image et à les placer dans les cercles ci-dessous au fur et à mesure qu’ils les parcouraient. On leur a dit de regrouper dans le même cercle toutes les images qu’ils estimaient décrire des événements historiques proches ou similaires. S’ils estimaient que les images décrivaient des événements déconnectés, ils étaient invités à les placer dans des cercles différents. Les participants étaient libres d’utiliser autant de cercles qu’ils le souhaitaient, d’un seul cercle à tous les cercles disponibles sur la carte. Les instructions soulignaient qu’il n’y avait absolument pas le bon nombre de cercles à utiliser et qu’ils étaient libres de procéder comme ils le souhaitaient. Les participants ont également été invités à faire attention aux distances entre les cercles et à leurs positions relatives. Plus ils jugeaient que les images étaient liées à des événements connectés ou déconnectés, plus leurs positions relatives dans les cercles devaient être proches ou éloignées. Enfin, lorsque l’arrangement principal a été terminé pour toutes les images, les participants ont dû réajuster les positions des images dans chaque cercle. Les distances euclidiennes entre les positions de l’image reflétaient alors l’organisation sémantique d’un individu donné et pouvaient être codées dans un RDM.
Paramètres d’acquisition IRM
Les données IRM ont été acquises sur un scanner 3 T Achieva (Philips) au centre d’imagerie cérébrale Cyceron de Caen. Tous les participants ont d’abord subi une imagerie volumique anatomique pondérée T1 à haute résolution en utilisant une séquence tridimensionnelle (3D) d’écho de champ rapide (FFE) (sagittal 3D-T1-FFE; TR = 20 ms, TE = 4,6 ms, angle de retournement = 10 °, facteur de détection = 2, 180 tranches, épaisseur de tranche = 1 mm, pas d’espace, champ de vision = 256 × 256 × 180 mm3, matrice = 256 × 130 × 180). Cette acquisition a été suivie des séances fonctionnelles, qui ont été acquises à l’aide d’une séquence EPI ascendante T2-étoile (MS-T2-étoile-FFE-EPI axiale ; TR = 2050 ms, TE = 30 ms, angle de retournement = 78°, 32 tranches, épaisseur de tranche = 3 mm, écart de 0,75 mm, matrice = 64 × 63 × 32, champ de vision = 192 × 192 × 119 mm3, 310 volumes par course).
Prétraitement IRM
Les données ont été analysées à l’aide d’un logiciel de cartographie paramétrique statistique (SPM12, Wellcome Department of Imaging Neuroscience). Pendant le prétraitement, les images ont d’abord été réalignées spatialement pour corriger le mouvement et ont ensuite été corrigées pour le retard temporel d’acquisition de tranches. Après l’enregistrement de l’image structurelle T1, les images fonctionnelles ont ensuite été normalisées à l’aide des paramètres dérivés de la normalisation non linéaire des images T1 individuelles de matière grise sur le modèle T1 de l’Institut neurologique de Montréal. Notez, cependant, que des images non déformées et non émoussées ont été utilisées pour le RSA. La normalisation de l’image était néanmoins nécessaire pour calculer le champ de déformation vers l’avant et son inversion, pour normaliser les images de projecteur ou pour ramener les ROIS mPFC dans l’espace natif (voir ci-dessous), respectivement. L’utilisation d’images non émoussées est importante pour RSA car elle préserve le motif spatial à grain fin qui caractérise la géométrie de représentation d’une région.
Analyse de premier niveau
Les séries chronologiques prétraitées, correspondant à des images spatiales natives (c’est-à-dire des images non déformées et non déformées), ont ensuite été filtrées passe-haut à 1/128 Hz dans chaque voxel. Des régresseurs dans un modèle linéaire général (GLM) pour chaque voxel ont été créés en convoluant une fonction delta (modélisée comme une courte période de 4,5 s) au début du stimulus pour chaque condition d’intérêt avec une fonction de réponse hémodynamique canonique (HRF). Une approche distincte basée sur les moindres carrés a été utilisée50,51, qui consistait à estimer un GLM distinct pour chaque essai. Dans chaque GLM, l’essai d’intérêt a été modélisé comme un seul régresseur, et tous les autres essais ont été regroupés en cinq régresseurs distincts correspondant à des conditions de rappel, d’absence, de fausses alarmes, de rejet de correction et d’absence de réponse (voir le tableau supplémentaire 2 pour les performances comportementales sur la tâche de rappel). Cette approche a été encouragée pour les conceptions avec de courts intervalles interstimulants, lorsqu’il existe un niveau élevé de colinéarité entre les réponses hémodynamiques aux essais successifs51. D’autres régresseurs sans intérêt étaient les six paramètres de réalignement pour tenir compte des artefacts de mouvement résiduel linéaire. L’autocorrélation entre les résidus de GLM a été corrigée à l’aide du processus autorégressif du premier ordre, ce qui a donné des données pré-blanchies après une estimation restreinte du maximum de vraisemblance.
Régions d’intérêt
Le mPFC a été défini anatomiquement à l’aide du marquage anatomique automatisé atlas52 et a été divisé en ROIS vmPFC et dmPFC. Le dmPFC correspondait au gyrus médial supérieur frontal bilatéral de l’Atlas de marquage Anatomique automatisé (index 2601 et 2602). Le masque vmPFC comprenait le gyrus médial fronto-orbital bilatéral (indices 2611 et 2612), le droit bilatéral (indices 2701 et 2702) et la partie ventrale (coordonnées Z inférieures ou égales à zéro) du cingulum antérieur bilatéral (indices 4001 et 4002). Ces deux ROIS sont représentés à la Fig. 3 ter. Ces deux images de masque ont ensuite été ramenées dans l’espace natif de chaque participant en utilisant l’inverse du champ de déformation calculé pendant le processus de normalisation.
Analyse de similarité de représentation
Des cartes de contraste de mémoires individuelles ont ensuite été calculées pour chaque image rappelée et utilisées pour calculer des SGR dans nos ROI. Pour chaque individu et chaque ROI, les SGR cérébraux ont été calculés comme suit: pour chaque voxel, le vecteur d’activité sur les images rappelées était centré sur la moyenne et mis à l’échelle à son écart-type (c’est-à-dire le score z).; ensuite, pour chaque paire d’images, les modèles d’activité dans un ROI donné ont été comparés en utilisant la corrélation spatiale, et la dissimilarité a ensuite été donnée par 1 moins la corrélation. Au niveau comportemental, les MDR individuels ont été dérivés des distances euclidiennes entre toutes les paires d’images possibles disposées par les participants sur la disposition spatiale bidimensionnelle. Les formes triangulaires supérieures de ces MRD cérébraux ou comportementaux ont ensuite été extraites et comparées aux formes triangulaires supérieures des modèles de MRD décrivant des schémas collectifs, des distances sémantiques (dérivées d’articles de Wikipédia sur la Seconde Guerre mondiale; voir ci-dessous), des distances spatiales contextuelles (distances euclidiennes des positions spatiales des images) et des distances temporelles (distances euclidiennes de l’ordre de rang temporel des images lors de l’exploration mémorielle). Ces comparaisons entre les SGR cérébraux/comportementaux et les SGR modèles ont été réalisées à l’aide d’un modèle de régression. Les régresseurs et les données ont été initialement transformés en rang pour tester les relations monotones non linéaires. Étant donné que les modèles RDM collectifs, sémantiques (c’est-à-dire Wikipédia) et contextuels (c’est-à-dire spatiaux et temporels) ne sont pas orthogonaux et se chevauchent dans une certaine mesure, un modèle de régression permet de clarifier la variance unique attribuable à chacun des prédicteurs du modèle. Pour chaque participant, ce modèle de régression a été réitéré pour chaque sujet d’intérêt, et les dix répétitions du modèle de sujet et du coefficient de régression du modèle ont été moyennées pour ces itérations. Tous les modèles de régression étaient de rang complet et le facteur d’inflation de la variance était inférieur à 1,5 pour chaque régresseur, confirmant l’identifiabilité et l’efficacité de nos modèles. Les résultats de ces modèles de régression sont présentés dans le texte principal, mais nous rapportons également les résultats des corrélations standard de Spearman testées isolément, par souci d’exhaustivité, à la Fig. 3c et dans le Tableau supplémentaire 1 pour les tests statistiques. Seuls les éléments correctement rappelés ont été inclus dans l’analyse des schémas d’activité. Des inférences au niveau du groupe ont été effectuées à l’aide de statistiques à effets aléatoires non paramétriques pour tester à la fois la relation RDM et les différences en amorçant l’ensemble de sujets avec 5 000 itérations 28. Pour chaque modèle RDM ou chaque paire de modèles RDM contrastés, nous n’avions pas d’hypothèses sur la distribution sous-jacente et avons effectué des tests statistiques à effets aléatoires non paramétriques en utilisant une approche d’amorçage. Nous avons effectué une comparaison moyenne à chaque ensemble d’amorçage et estimé la valeur P comme la proportion d’échantillons d’amorçage plus loin dans les queues que zéro. Les proportions attendues d’erreurs de type I à travers plusieurs tests de relation de modèle RDM et de comparaison de modèle ont été contrôlées à l’aide de la correction FDR, avec un q FDR souhaité = 0,05 et en supposant une dépendance positive entre les conditions34 [,53. Pour le test de la parenté du modèle RDM, le FDR attendu a été calculé en utilisant toutes les valeurs P non corrigées à une queue des modèles testés. Pour le test de comparaison du modèle RDM, nous avons limité la correction à notre hypothèse principale et n’avons inclus que des comparaisons impliquant la mémoire collective RDM (par rapport à d’autres modèles de référence) pour calculer le FDR attendu, en utilisant des valeurs P à deux queues. Nous rapportons des valeurs de P ajustées et utilisons des itérations d’amorçage pour déterminer des CIs à 95 %. Le plafond de bruit rapporté à la Fig. 3c reflète la corrélation entre les participants du SGR cérébral. Cette corrélation a été calculée pour chaque participant comme étant la corrélation entre la RMR cérébrale de ce participant et la RMR cérébrale moyenne des participants restants34. Le plafond de bruit représenté à la Fig. 3c correspond à la moyenne de ces corrélations individuelles.
Analyse au projecteur
Des maillages de la substance blanche et des surfaces piales du cortex ont été reconstruits à partir d’images pondérées en T1 collectées pour chaque participant à l’aide du progiciel Freesurfer version 554,55. Nous avons utilisé la fonction rsa_defineSearchlight MATLAB de la boîte à outils RSA 34 (https://github.com/rsagroup/rsatoolbox), qui s’appuie également sur les fonctions Surfing toolbox 56 (https://github.com/nno/surfing), pour définir un projecteur de surface pour les deux hémisphères (en utilisant un projecteur à 40 voxels avec un rayon de 10 mm). Les voxels situés à proximité d’un ou de plusieurs nœuds de la surface ont été sélectionnés à l’aide d’une mesure de distance géodésique et en construisant des lignes virtuelles reliant les nœuds correspondants sur les surfaces piale et de substance blanche. Cette procédure produit un projecteur suivant la courbure de la surface, réduisant ainsi le biais spatial lors de l’analyse des motifs IRMf. Contrairement aux quartiers définis volumétriquement, il en résulte des quartiers de forme cylindrique incurvée qui suivent les contours des sulci et des gyri de chaque individu. Une fois que la structure du projecteur pour chaque sommet a été construite et mappée à l’espace d’image fonctionnel, les modèles d’activité rappelés à chaque voxel composant le projecteur ont été centrés sur la moyenne et mis à l’échelle à leurs écarts types avant de calculer la structure de dissimilarité (1 moins la corrélation spatiale) à travers toutes les comparaisons par paires de motifs rappelés. Les formes triangulaires supérieures de ces SGR searchlight ont ensuite été extraites, transformées en rang et comparées à l’aide d’un modèle de régression à la forme triangulaire supérieure transformée en rang de tous les modèles de SGR (collectif, sémantique et contextuel). Le résultat de cette analyse du projecteur a créé une carte bêta, un volume dans lequel chaque voxel contient une statistique pour le projecteur centré sur ce voxel. Ces cartes bêta de premier niveau pour chaque modèle ont été normalisées selon le modèle T1 de l’Institut neurologique de Montréal et lissées à l’aide d’un noyau gaussien de 10 mm de largeur totale à demi-maximum. Ces cartes bêta des participants de l’espace standard ont été soumises à une analyse d’effets aléatoires non paramétriques de deuxième niveau dans la version FSL 5.0.1157. Pour corriger les comparaisons multiples, la carte bêta au niveau du groupe a été soumise à des tests de permutation maximale en utilisant l’amélioration du cluster sans seuil 58 (TFCE), qui offre un bon compromis entre le seuillage trop sensible basé sur le cluster et la correction trop conservatrice basée sur le voxel du cerveau entier. Pour tester la parenté et les différences du modèle RDM, les cartes TFCE ont ensuite été corrigées (Corrigées < 0,05) pour le taux d’erreur par famille à l’aide de tests de permutation standard implémentés en FSL avec la fonction randomize (10 000 permutations). Les résultats de l’analyse au projecteur sont rapportés dans les données étendues Fig. 1.
Description et analyse du corpus de mémoire collective
Le corpus a été collecté par le projet MATRICE (http://www.matricememory.fr/?lang=en), une plateforme pluridisciplinaire et technologique, dont le but est de fournir des outils et un contexte technologique et théorique pour comprendre la relation entre mémoire collective et mémoire individuelle. Les clips audiovisuels composant initialement le corpus ont été stockés à l’Institut National de l’Audiovisuel, l’un des principaux partenaires du projet MATRICE et un institut public dont l’objectif est d’archiver toutes les productions audiovisuelles diffusées à la télévision ou à la radio française. Pour cette étude, nous avons inclus dans notre corpus tous les bulletins et reportages télévisés (à l’exclusion des émissions de radio et des documentaires) diffusés de 1980 à 2010 avec la Seconde Guerre mondiale comme thème commun, conduisant à un total de 3 766 documents. Nous nous concentrons sur cette période particulière pour trois raisons. Premièrement, les années 1980 à 2010 chevauchent largement la vie de nos participants. Ensuite, cette période correspond à l’établissement d’un nouveau récit pour la mémoire collective française (c’est-à-dire un nouveau » Régime de Mémorialité » 59). Cela comprenait l’émergence et l’affirmation de la mémoire de la Shoah, ainsi que des procès majeurs reconnaissant la participation de l’État français et de son peuple, et de leurs représentants à l’époque (par exemple, Bousquet, Leguay, Touvier et Papon), à la déportation et au meurtre des Juifs. Troisièmement, grâce aux progrès de la reconnaissance automatique de la parole et à la disponibilité de textes électroniques avec lesquels des modèles linguistiques contemporains ont été construits pour traiter des données enregistrées après 1980, les 3 766 fichiers audio ont été convertis au format XML à l’aide d’algorithmes de conversion parole-texte développés par le Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur (LIMSI ; Engineering Sciences and Computer Science Lab), l’un des principaux partenaires du projet MATRICE.
Une fois converti en texte, notre corpus a d’abord été traité manuellement pour éliminer les segments non liés à la Seconde Guerre mondiale (en conservant exclusivement des sections dédiées à ce sujet). Au cours de cette opération, les transcriptions automatiques de la parole au texte ont en outre été corrigées par un lecteur humain. Après ce prétraitement initial, un fichier XML distinct a été extrait pour chaque document. Ces fichiers ont ensuite été traités avec des méthodologies d’analyse de données textuelles utilisant le logiciel TXM60 (http://textometrie.ens-lyon.fr/) connecté à l’analyseur morphosyntactique treetagger61 (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/). TXM permet à l’utilisateur d’annoter chaque instance d’un mot (c’est-à-dire un jeton) à son lemme correspondant (la forme canonique d’un ensemble de mots) et de procéder à un étiquetage morphosyntactique de chaque mot dans un corpus. Le corpus peut ensuite être exploré à l’aide de requêtes Corpus Query Language (CQL) pour étiqueter et récupérer des catégories grammaticales spécifiques, des formes, des lemmes ou toute information attachée au mot. Une liste de requêtes CQL a d’abord été générée automatiquement pour chaque lemme de nom, de verbe ou d’adjectif du corpus. Les lemmes rares (moins de dix occurrences), les mots d’arrêt et les verbes courants (par exemple, « être » et « avoir ») ont été supprimés au cours du processus et n’ont pas été inclus dans les analyses ultérieures. Par exemple, cet algorithme traverserait le corpus et produirait une requête CQL unique (par exemple, (lemma= »fight »%c)) correspondant à n’importe quelle instance du verbe « combattre » dans le corpus (c’est-à-dire « combattre », « combattu » ou « combattre »). Le modificateur %c incorporé dans cette requête est utilisé pour neutraliser le cas de caractère des formes de lemme assimilées (c’est-à-dire « combat », « Combat » ou « COMBAT »). Une liste initiale d’environ 6 500 requêtes CQL a été générée automatiquement de cette manière. Cette liste a été vérifiée manuellement pour supprimer les requêtes CQL produites par une transcription incorrecte, pour regrouper occasionnellement certaines requêtes sous une seule entité (par exemple, (lemma= »drama »%c) /(lemma= »dramatic »%c)), pour fusionner les bigrams le cas échéant (par exemple, (lemma= »chief »%c)() ?(lemme= »état »%c) pour « chef d’État ») ou pour s’adapter à différentes formes orthographiques (par exemple, (lemme= »Gorbatchev »%c) | (lemme= « Gorbatchov »%c)). Après cette première vérification et ajustement, il restait un total de 6 240 requêtes pour résumer les 1 431 790 jetons composant notre corpus.
Une matrice de fréquence de document lemme x comptant le nombre d’occurrences a été extraite et soumise à une analyse LDA réalisée à l’aide de la boîte à outils Machine Learning for LanguagE (MALLET; http://mallet.cs.umass.edu/topics.php). Modèles de topiques26, 29, 30 considèrent que les documents sont générés par des mélanges de sujets. Dans ce contexte, un sujet correspond à la distribution des probabilités sur tous les mots présents dans tous les documents (quelle est la probabilité qu’un mot donné soit associé à un sujet). Dans cette perspective, un document peut être généré en attribuant une distribution de probabilité sur des sujets. Pour chaque instance d’un document, un sujet est choisi en fonction de sa distribution de probabilité de sujet précédente, et un mot est tiré de ce sujet. MALLET utilise l’algorithme d’échantillonnage de Gibbs pour inverser ce processus, en déduisant l’ensemble des sujets responsables de la génération d’une collection de documents et leurs probabilités sur les mots.
Nous avons d’abord formé des modèles de sujets sur le corpus de bulletins et de rapports de la Seconde Guerre mondiale à l’aide du moteur de sujet du train MALLET (voir Données étendues Fig. 2 pour une illustration des sujets créés avec cette technique). Nous avons fait varier le nombre de sujets autorisés de 2 à 100, par incréments de 1, en fixant le paramètre alpha à 50 /N sujets et le paramètre bêta de départ à 0,1 (comme suggéré dans d’autres travaux modélisant un large corpus de textes à des fins sémantiques 62). Pour chaque nombre de sujets, nous avons utilisé 500 itérations pour estimer les probabilités de sujet Word et document. Nous avons ensuite utilisé l’outil d’inférenceur MAILLET pour adapter le modèle LDA aux images commémoratives et estimer leurs probabilités de sujet. À cette fin, chaque image a été traitée comme un nouveau document et étiquetée avec des mots-clés (également lemmatisés), directement dérivés des légendes commémoratives sous les images. Un total de 449 lemmes a été utilisé pour décrire les images commémoratives. Parmi ces lemmes, 428 ont également été trouvés dans la liste des 6 240 lemmes décrivant le corpus de bulletins et de rapports d’actualité. Le processus inférentiel de sujet a ainsi conduit à une matrice de distribution de probabilité de 119 images x N sujets, décrivant la probabilité postérieure d’un sujet donné à une image.
Une RDM de 119 images x 119 images a ensuite été calculée pour chaque nombre de sujets estimés en utilisant les distances entre les distributions de probabilités de sujets pour chaque paire d’images (basées ici sur la distance cosinus, qui fournit une mesure symétrique de la similitude entre deux vecteurs de sujets). Cependant, étant donné le caractère aléatoire que l’algorithme d’échantillonnage de Gibbs peut introduire lors de l’estimation des paramètres, nous avons réitéré l’ensemble du processus dix fois, conduisant à une RDM de répétition 3D 119 image x 119 image x 10 pour chaque nombre de sujets estimés. Les mesures de la similitude entre les SGR cérébraux ou comportementaux et les SGR collectifs (coefficients bêta du modèle de régression ou coefficients de corrélation de Spearman) ont été moyennées sur ces dix répétitions de modélisation thématique. Pour résumer l’ensemble du processus, pour un nombre donné de sujets: (1) nous avons formé un modèle de sujet sur le corpus des bulletins et reportages de la télévision française; (2) nous avons adapté ce modèle de sujet aux images commémoratives et à leurs légendes, en traitant chaque image comme un nouveau document; (3) une matrice de 119 images x N sujets, décrivant la probabilité postérieure d’un sujet donné une image, a été extraite et transformée en un RDM 119 × 119; et (4) ce processus a été répété dix fois, et pour chaque numéro de sujet, la similitude moyenne avec les SGR cérébraux ou comportementaux a été calculée pour ces dix instances.
Validation du modèle de mémoire collective et sélection du numéro de sujet
Nous avons cherché à quantifier la structure des représentations partagées entre les individus et comparé ces schémas partagés avec notre modèle de mémoire collective. Cette procédure nous permettrait également de sélectionner indépendamment un nombre optimal de sujets pour décrire la structure collective des images qui correspond le mieux à la mémoire partagée. À cette fin, 54 locuteurs natifs du français (23 hommes, 31 femmes) âgés de 20 à 39 ans (moyenne = 27,3 ans; d.s. = 5,6) ont effectué la tâche d’arrangement d’images. Cette tâche a été effectuée sur exactement les mêmes 119 images commémoratives, mais contrairement à nos participants à l’IRM, qui avaient visité le Mémorial la veille, ces nouveaux participants ne connaissaient absolument pas le Mémorial. Nous avons dérivé 54 MDR individuels à partir des distances euclidiennes entre les images. Nous avons ensuite effectué DISTATIS33 pour capturer la structure partagée des représentations entre ces individus témoins. DISTATIS est idéalement adapté pour calculer le meilleur accord ou compromis sur plusieurs matrices de distance. L’implémentation dans MATLAB de DISTATIS peut être trouvée à https://www.utdallas.edu/~herve/, mais en bref : (1) chacun des 54 SGDR a d’abord été transformé en une matrice de produits croisés après un double centrage et une normalisation à sa première valeur propre; (2) la structure de similarité cosinus de toutes les comparaisons par paires des 54 matrices de produits croisés normalisées a été calculée à l’aide du coefficient RV; (3) la matrice de coefficients RV décrivant les relations entre les MDR a été soumise à une décomposition propre, et la matrice de compromis correspond à la somme des matrices de produits croisés normalisées pondérées par leur première valeur propre; (4) la décomposition propre des scores de facteurs produits par compromis, qui décrit la position de chacune des 119 images dans un espace de compromis à N dimensions; et (5) la matrice de corrélation de distance de ces espaces de compromis multidimensionnels correspondait alors au meilleur accord entre les 54 SGR individuels dérivés de la tâche d’arrangement d’images comportementales. Cette matrice de corrélation de distance peut être considérée comme un schéma partagé reflétant l’organisation sémantique commune entre les individus. Les SGR collectifs extraits du corpus de bulletins et de rapports télévisés étaient similaires à la structure de la mémoire partagée mesurée entre les individus témoins (Fig. 2c). Cette similitude entre mémoire collective et mémoire partagée a été moyennée par des bacs de cinq sujets, et a atteint son maximum lorsque six à dix sujets ont été inclus lors de la découverte du sujet. En conséquence, toutes les analyses ultérieures impliquant la mémoire collective ou sémantique ont été effectuées en utilisant six à dix sujets (et les mesures de similarité entre les SGR cérébraux ou comportementaux et les SGR collectifs ou sémantiques ont été moyennées dans ce nombre de sujets sélectionnés).
Construction d’un modèle de contrôle du domaine sémantique de la Seconde Guerre mondiale
Nous avons utilisé des articles de Wikipédia français faisant référence à la Seconde Guerre mondiale comme modèle de référence des relations sémantiques spécifiques entre les mots liés à la Seconde Guerre mondiale, et nous avons formé un modèle thématique que nous avons ensuite adapté aux images commémoratives. Ce corpus (http://redac.univ-tlse2.fr/corpus/wikipedia.html) comprenait 664 982 articles édités jusqu’en juin 2008, dont 2 643 articles spécifiquement liés à la Seconde Guerre mondiale, et a été précédemment extrait de la version française des articles de Wikipédia (http://dumps.wikimedia.org/) et traité à l’aide du même outil de marquage morphosyntactique61 utilisé pour traiter notre corpus d’informations télévisées françaises sur la Seconde Guerre mondiale.Une fois que nous avons importé le corpus dans TXM, nous avons appliqué exactement la même méthode d’analyse que celle utilisée précédemment pour construire le modèle de la mémoire collective (voir Mémoire collective description et analyse du corpus).
Résumé des rapports
De plus amples informations sur la conception de la recherche sont disponibles dans le Résumé des rapports de recherche sur la nature lié à cet article.