Comprendre les études sur le QI : un lexique

Dans les débats ayant à voir avec les races, et le QI plus particulièrement, des termes techniques (et abréviations) sont souvent utilisés. Sans ce bagage technique, il peut parfois s’avérer difficile de comprendre les discussions. Voici donc une liste des termes souvent employés, et leur équivalent en anglais, par ordre alphabétique. La liste n’est évidemment pas exhaustive, mais ce sont les termes qui reviennent le plus souvent, me semble-t-il, dans les discussions et les études publiées sur le sujet.

Beta weights : parfois énoncé, regression weights, regression coefficient, standardized partial regression coefficient, standardized beta, standardized coefficient, ou tout simplement β, exprime le coefficient de régression standardisé, par opposition au coefficient non standardisé. Ce dernier mesure l’impact d’une augmentation d’une unité de valeur des variables (explicatives) indépendantes. Tout le problème du coefficient non standardisé vient du fait que les variables explicatives n’ont généralement pas les mêmes unités de mesure. Supposons deux variables mesurant le statut économique, comme le niveau de revenu ou le niveau d’étude, le premier est exprimé en dollar, le second en année d’éducation. Il est certain que l’effet de l’augmentation de 1 année d’éducation sera certainement bien supérieur à l’effet d’une hausse de 1 dollar de revenu sur la variable dépendante. C’est pourquoi il est assez commun de trouver des coefficients non standardisés ayant une valeur de 0.000 pour les variables indépendantes comme le revenu en dollars. Ces coefficients ne sont donc pas comparables entre eux et nous ne pouvons pas en déduire quelle variable indépendante est plus importante que l’autre alors même que c’est exactement le but recherché dans les analyses de régression multiple. Le coefficient standardisé, en revanche, mesure l’effet d’une augmentation d’un écart-type (déviation standard) des variables indépendantes sur la variable dépendante (dit, le critère). De cette façon, les valeurs des variables indépendantes ont été converties en une seule et même unité de mesure. Les coefficients deviennent donc tout à fait comparables.

BGH & WGH : between-group heritability, within-group heritability, sont des termes parfois employés lorsqu’il est question de débattre sur les différences possible ou non d’héritabilité entre les groupes (BGH) par rapport à l’héritabilité au sein des groupes (WGH). Dans les études de jumeaux, la formule la plus simple pour estimer l’héritabilité est exprimée de cette façon : h² = 2(rMZ-rDZ). Cette estimation consiste simplement à multiplier par deux la différence de corrélation intra-classe entre jumeaux monozygotes et jumeaux dizygotes. Si la corrélation entre monozygotes s’élève à 90%, la corrélation entre dizygotes à 50%, la différence de 40% multipliée par deux nous donne un niveau d’héritabilité de 80%. Il s’agit de l’héritabilité au sein du groupe (WGH). Jensen (1973, p. 146) avait estimé que l’on pouvait exprimer l’héritabilité du QI entre groupes (BGH) par la formule suivante : h²B ≈ h²W (1-r)p/(1-p)r, où h²B est l’héritabilité entre groupes, h²W l’héritabilité dans le groupe, r étant la corrélation intra-classe des phénotypes à l’intérieur des groupes (ou le carré de la corrélation de point bi-sérial entre la variable “race” dichotomisée et la caractéristique ou trait à mesurer), p étant la corrélation intra-classe des génotypes (dit aussi, corrélation génétique) à l’intérieur des groupes.

Black-White IQ gap : dit aussi BW IQ gap ou plus simplement BW gap. Cette appellation désigne l’écart de QI séparant les blancs et les noirs, habituellement de 1 SD (standard deviation) dans les échantillons adultes (Dickens & Flynn, 2006; Fuerst, 2013). En termes de QI, 1 SD équivaut à 1*15 = 15 points. On exprime parfois SD sous la forme suivante : σ (sigma unit), où 1σ équivaut bien évidemment à 15 points d’écart. On le nomme parfois aussi SD(s) gap, ou standard deviation(s) gap, signifiant une différence d’un (plusieurs) écart-type(s) de QI (entre deux groupes ethniques). On utilise parfois aussi “sigma units” qui là encore est l’équivalent de SD, ou encore “d gap” (effect size).

Dickens-Flynn Model : est un modèle proposé par Dickens et Flynn (2001) pour tenter de réconcilier les gains séculaires de QI avec l’héritabilité élevé de celui-ci. Par le biais des multiplicateurs sociaux ou multiplicateurs individuels, selon les auteurs, un environnement stimulant augmenterait le QI, encourageant l’individu à persévérer dans ses efforts, notamment à l’école, lui permettant ainsi de maximiser, de tirer profit au maximum de son potentiel génétique. Inversement, une personne évoluant dans un environnement chaotique verrait son QI diminuer, accentuant ses échecs, et aurait tendance à se décourager sans pouvoir maximiser son potentiel génétique. Plus simplement, ce modèle prédit que l’environnement stimule (déprime) le QI, qui à son tour stimule (déprime) l’environnement, qui de nouveau stimule (déprime) le QI, et ainsi de suite. De cette façon, disent-ils, le niveau de QI augmente génération après génération puisque l’environnement est plus stimulant aujourd’hui qu’il ne l’était autrefois. Le modèle Dickens-Flynn, néanmoins, dépend entièrement de l’hypothèse selon laquelle l’Effet Flynn est bel et bien corrélé au facteur g, c’est-à-dire sans violation de l’équivalence de mesure entre cohortes (Wicherts et al., 2004; Must et al., 2009).

Factor X : la théorie du facteur X postule que les différences (variations) de QI entre blancs et noirs n’auraient pas les mêmes causes ou, disons, les variations entre groupes seraient d’une nature différente des variations à l’intérieur même des groupes. Les variations à l’intérieur des groupes seraient dues aux gènes, alors que les variations entre groupes seraient dues à des facteurs environnementaux ou culturels uniques, propres à un seul groupe particulier. Ces facteurs culturels/environnementaux sont généralement décrits comme étant la discrimination, le racisme, ou encore la culture particulière et unique des noirs qui est parfois pensée comme étant le fameux facteur X (e.g., Sandra Scarr). La théorie du facteur X est, par définition, en pure contradiction avec le modèle d’invariance de mesure (Lubke et al., 2003, pp. 551-553). Les différences de QI entre groupes raciaux ne transgressent pas l’invariance de mesure (Dolan, 2000; Dolan & Hamaker, 2001) contrairement aux expériences de Stereotype Threat (Wicherts et al., 2005). Ces recherches concordent avec celles d’autres chercheurs qui ont spécifié que les mécanismes de développement entre groupes raciaux sont parfaitement identiques (Rowe et al. 1994, 1995; Rowe & Cleveland, 1996), excluant alors l’idée d’un facteur culturel affectant uniquement un groupe racial mais pas les autres. Les différences de scores entre groupes raciaux sont des différences dans les facteurs communs, ce qui signifie que l’hypothèse selon laquelle ces différences ont différentes causes et interprétations est parfaitement intenable.

Flynn Effect : dont FE est l’abréviation, dit en français Effet Flynn, est un phénomène qui décrit les gains séculaires de QI dans le monde. Bien que la plupart des psychologues estiment que ce phénomène traduit réellement l’augmentation séculaire de l’intelligence manifeste, les preuves d’une corrélation de l’Effet Flynn avec le facteur g ne semblent pas attestées (te Nijenhuis et al., 2007).

g factor : ou dit simplement g, qui est l’abréviation du facteur “général” de l’intelligence. (Jensen, 1980, pp. 198-222). Une particularité de g est son héritabilité. En vérité, plus les tests sont héritables, plus ils sont chargés en g. Quelque part, g est aussi la capacité à gérer la complexité. Autrement dit, plus un test cognitif est complexe, plus il est chargé en g. Une particularité de g, c’est qu’il mesure avec bien plus de précision l’intelligence que ne le ferait un simple test de QI dont le facteur g (ou facteur commun aux tests) n’a pas été extrait. Le facteur g est donc crucial pour les recherches sociologiques. Et pourtant, bien peu de sociologues ou psychologues daignent se pencher sur le facteur g.

g-loadings : dérivé de g, est un terme qui désigne la charge en g des tests de QI. Les charges en g diffèrent bien évidemment selon les tests de QI. L’hypothèse génétique ou héréditariste prédit que plus les tests sont chargés en facteur g, et plus les différences de QI entre groupes (entre noirs et blancs, par exemple) seraient grandes. g étant connu pour être la composante la plus héritable de l’intelligence. Concrètement, on peut calculer la moyenne des saturations de g, dit g-loading, des tests en corrélant les divers tests de QI, et on en dérive ensuite la racine carrée de cette corrélation (Jensen, 1998, p. 91). Si la corrélation entre deux différents tests QI est de 0.70, la moyenne de la saturation de g serait de √0.70 = 0.84.

Gene-Environment Correlation : ou G x E corrélation, est simplement le fait que la qualité de l’environnement corrèle avec le génotype, à savoir, un meilleur génotype crée pour lui-même un meilleur environnement (pour la stimulation cognitive, par exemple) et cet environnement va à son tour influer positivement sur le génotype, qui de nouveau stimulera l’environnement, formant un effet de boucle à rétroaction, positive ou négative, comme dans le modèle Dickens-Flynn (2001). Cette théorie a souvent été énoncée pour expliquer l’augmentation de l’héritabilité du QI avec l’âge, en invoquant l’idée de la corrélation GE de type actif, à savoir, les individus créent leur propre environnement sur la base de leur génotype. Sesardic (2005, pp. 93-95; voir aussi Rowe, 2003, pp. 79-80) considérait que l’on pouvait interpréter ce phénomène en tant que variance génétique, et non environnementale. Mais les données désormais (Brant et al., 2013) ne supportent plus cette idée. L’hypothèse concurrente à la corrélation GE est l’amplification génétique, qui consiste en ce que les mêmes influences génétiques qui expliquent une part modérée des variations de QI à l’enfance expliquent une part plus grande de ces variations à l’âge adulte, peut-être actuellement la théorie la plus crédible.

Gene-Environment Interaction : parfois énoncé G x E interaction, ou GE interaction, se traduisant par interaction gène-environnement, est l’idée que ce qui constitue un bon environnement pour un certain génotype (ex, les blancs) pourrait s’avérer être un mauvais environnement pour un autre génotype (ex, les noirs) dans le développement d’un certain phénotype (ex, le QI). Par exemple, un mauvais environnement pourrait affecter légèrement le génotype A mais affecterait très gravement le génotype B. Jensen, dans Educability & Group Differences (1973, pp. 173-174), avait mis en cause la validité de cette hypothèse. Si celle-ci était véridique, nous constaterions une corrélation significativement différente de zéro entre la différence phénotypique entre jumeaux (qui traduit un effet environnemental) et la moyenne du phénotype des jumeaux (qui traduit un effet génétique). Mais la corrélation n’était pas significativement différente de zéro (-0.04). Plus récemment, certaines études ont trouvé que l’héritabilité serait plus faible dans les niveaux socio-économiques les plus bas. Cependant, d’autres études indiquent l’absence d’interaction GxE. L’autre problème avec cette hypothèse serait que l’environnement aurait aussi une composante génétique, que la qualité de l’environnement dépend préalablement du QI, notamment des parents.

Jensen Effect : Rushton (semble-t-il) avait employé ce terme pour désigner le fait que les gains séculaires de QI (dit Effet Flynn) sont inversement corrélés, ou non corrélés du moins, à g, le facteur général, ce qui signifie que l’Effet Flynn ne reflète pas en vérité une hausse réelle de l’intelligence (te Nijenhuis, 2013; Rushton & Jensen, 2010).

Linear regression : est une technique qui consiste à corréler deux variables entre elles, ayant une seule variable indépendante. Elle est alors équivalente à une simple corrélation bivariée, c’est-à-dire, une corrélation simple sans maintenir “constant” d’autres variables susceptibles d’influencer cette corrélation. Lorsque la régression est effectuée avec plusieurs variables indépendantes, on appelle cela multiple régression, où l’impact des variables explicatives, toute choses égales, est estimé indépendamment des autres variables insérées. Les prémisses théoriques à respecter dans les analyses de régression sont détaillées en français sur le site SPSS 17.

Measurement Error : parfois énoncé random measurement error, ou erreur de mesure aléatoire, est un phénomène bien connu dans les sciences sociales et économiques. C’est tout aussi vrai concernant les tests de QI. Les individus peuvent parfois se présenter au test de mauvaise humeur, complètement ébréchés, ou fatigués, dépressifs, etc. Tous ces facteurs aléatoires ont un impact sur le rendement du sujet et le score qu’il obtiendra finalement. Si l’individu repasse le test, il pourrait donc enregistrer un score bien différent de la dernière fois. Ou l’erreur de mesure peut provenir du test lui-même si, par exemple, certains items de tests peuvent s’avérer parfois ambigus ou si, par exemple, le test est construit de telle sorte que le sujet parvient facilement à “deviner” les bonnes réponses alors même qu’il ne les connaît pas. La technique commune pour corriger les erreurs de mesure est appelée en anglais “correction for attenuation” ou encore “correction for unreliability”. La formule pour corriger les erreurs de mesure est exprimée de la manière suivante : rxy/SQRT(rxx*ryy), où r désigne la corrélation, xy les deux variables à corréler, rxx et ryy étant les coefficients de fiabilité (reliability coefficient) de x et y respectivement. Par exemple, x et y sont corrélés à 50%. Le coefficient de fiabilité de x s’élève à 80%, celui de y à 90%. Par conséquent, la multiplication de 0.8 par 0.9 donne 0.72, dont la racine carrée est 0.85. Si l’on divise 0.5 par 0.85, on obtient 0.59 de corrélation entre x et y, au lieu de 0.5. Une fois l’erreur de mesure corrigée, on parle alors de “vraie” corrélation (“true” correlation).

Measurement Invariance : dont MI est l’abréviation, parfois appelé aussi Measurement Equivalence, est ce qu’on peut traduire en français l’équivalence de mesure, ou l’invariance de mesure. Lorsque deux individus ayant les mêmes capacités latentes diffèrent dans leurs chances d’atteindre le même score, on dit qu’il y aurait violation de l’invariance de mesure (Wicherts, 2005; Wicherts et al., 2005; Beaujean & Osterlind, 2008). En termes simples, cela veut dire que les différences de scores ne dérivent pas d’un facteur commun, et par conséquent proviennent de différentes causes et ont par conséquent différentes interprétations. Confirmer l’invariance de mesure implique que les différences observées ou attendues des scores de test ne dépendent pas du groupe (i.e., le sexe ou l’ethnie) en tant que tel mais uniquement des différences dans les capacités latentes (facteurs communs) d’où la conclusion que les tests/sous-tests ne sont pas biaisés envers les minorités, par exemple. Invalider l’invariance de mesure revient quelque part à invalider l’hypothèse de Spearman puisque le test ne mesurerait donc pas la même construction (facteur commun) entre différents groupes ethniques. Lorsqu’une violation de l’invariance de mesure est détectée, il en est conclu alors que le test est biaisé (Measurement Bias).

Method of Correlated Vectors : dont MCV est l’abréviation, est la méthode des vecteurs corrélés utilisée par Arthur Jensen (1998, pp. 143-145, Appendix 2) pour extraire le facteur g d’un batterie de tests de QI. Brièvement, cela consiste à conduire une analyse factorielle (Factor Analysis), pour y extraire un facteur principal premier que l’on identifie habituellement comme étant le facteur général, g. La technique consiste à corréler la colonne des vecteurs des charges en g des sous-tests d’une batterie de tests de QI avec la colonne des vecteurs des différences standardisées (d) des scores entre les blancs et les noirs, tout en contrôlant (partial out) les coefficients de fiabilité des sous-tests s’ils sont disponibles ou les communalités (communalities). Tout ceci revient à mesurer l’impact de l’ampleur de la saturation d’un test (factor loadings), ou charge en g (g-loadings) dans le cas présent, avec l’ampleur de la corrélation avec une variable externe. Jensen teste l’hypothèse de Spearman en examinant si les corrélations augmentent avec la hausse des charges en g. Une critique du MCV par Dolan (2000; Dolan & Hamaker, 2001) indique que MCV ne teste pas les différences d’intercepts de mesure. En fait, si certains sous-tests sont culturellement biaisés, se traduisant alors en des différences (entre groupes) dans la probabilité de donner une bonne réponse sur certains sous-tests alors même que les scores ont été appariés pour être identiques. Ces sous-tests, s’ils sont biaisés, peuvent être enlevés, et à condition qu’il reste un nombre suffisant de sous-tests, MCV peut être reconduit (Dragt, 2010; Metzen, 2012), car l’une des faiblesses du test MCV tient au fait qu’il soit extrêmement sensible aux “outliers” ce qui veut dire que MCV est plus fiable lorsque le nombre de sous-tests corrélés est très élevé. Il est toujours possible d’utiliser la corrélation de Spearman, connue pour être plus robuste aux outliers, au lieu de Pearson, mais le défaut inhérent à la faiblesse du nombre des sous-tests analysés demeure.

Multi-Group Confirmatory Factor Analysis (MGCFA) : est une technique qui permet de tester l’invariance de mesure, notamment dans les tests QIs. Pour confirmer l’invariance, plusieurs conditions sont nécessaires. L’invariance des saturations des facteurs (factor loadings), l’invariance des intercepts de mesure (measurement intercepts), et éventuellement l’invariance des résidus (residuals). Le terme résiduel contient à la fois les erreurs de mesures aléatoires et les facteurs spécifiques (i.e., variance non-g) du facteur de groupe (group factor) comme les compétences mathématiques ou verbales, que l’on appelle aussi facteurs d’ordre premier dans une analyse factorielle hiérarchisée où le facteur g est le facteur d’ordre second. Wicherts & Dolan expliquent en détails la procédure (2010). Si la théorie de Spearman concernant la nature des différences de QI entre groupes raciaux est véridique, la saturation en facteur des sous-tests doit être proportionnelle à la différence de QI entre groupes raciaux sur ces mêmes sous-tests. En ce cas, on dit que l’invariance des intercepts est tenable. Concrètement, cela signifie que la différence entre groupes sur les facteurs latents (i.e., math, verbal, …) est entièrement due à des différences dans les scores latents. En règle générale, disent Wicherts & Dolan, les tests psychométriques évaluent la similarité des saturations en facteurs, mais pas celle des intercepts de mesure. Une des techniques permettant d’évaluer l’invariance de saturations des facteurs est le coefficient de congruence; si ce coefficient est au moins supérieur à 0.90 ou 0.95, on considère une similarité dans le facteur g (Hu, May.30.2013) ce qui signifie que la structure des facteurs est identique et donc comparable. Mais même si l’invariance des facteurs est tenable, cela ne signifie pas que l’invariance des intercepts est également tenable, ce pourquoi Wicherts & Dolan insistent sur le fait que MGCFA (ou l’IRT) est une technique supérieure à MCV, ce dernier ne permettant pas de tester la soutenabilité des biais de mesure.

Multiple regression : ou régression multiple est une technique qui consiste à régresser une variable (ex, la santé) dépendante sur des variables (prédictives) indépendantes (le sexe, le revenu, le niveau d’éducation, le QI, etc). Concrètement, il s’agit de mesurer l’effet indépendant des variables explicatives sur la variable dépendante en maintenant “constant”, c’est-à-dire en isolant, l’influence des autres variables insérées dans le modèle. Cela permet de mesurer l’impact indépendant de chacune des variables indépendantes pour déterminer quel facteur est le plus important. Le “beta weight” ou “standardized beta” est le coefficient généralement reporté puisqu’il mesure l’effet des variables (explicatives) indépendantes exprimé en une seule et même unité ou échelle de mesure, l’écart-type, permettant ainsi de comparer l’importance relative de chacun des facteurs, variables explicatives. Une attention particulière doit être portée sur la multicollinéarité, qui se produit lorsque plusieurs variables sont trop fortement corrélées entre elles (corrélations supérieures à 0.80, ou Tolerance inférieure à 1 et Variance Inflation Factor (VIF) supérieure à 10). Le problème majeur avec cette méthode d’analyse est que dans la réalité, rien n’est réellement indépendant l’un de l’autre. En tentant d’isoler l’influence qu’un facteur explicatif exerce sur un autre facteur explicatif, on enlève par la même occasion le pouvoir prédictif du premier tout en retirant les facteurs de causalité qui déclenchent le deuxième. Les Betas standardisés ne sont pas interprétables de la façon dont beaucoup de sociologues croient qu’ils le sont. Néanmoins, l’intérêt de cette méthode est qu’il permet quand même d’examiner si un facteur explicatif possède encore un peu de son pouvoir prédictif au-delà de l’influence même des autres variables insérées.

Partial correlation : ou corrélation partielle, est une méthode qui consiste à corréler deux variables tout en contrôlant (i.e., maintenir constant) l’influence d’une troisième variable (que l’on appelle parfois les covariables, en anglais, covariate) sur les deux variables que l’on cherche à corréler. Une corrélation partielle contrôlant pour une seule variable se nomme corrélation partielle d’ordre premier (first-order partial correlation). Si l’on contrôle pour deux variables simultanément, on appelle cela une corrélation partielle d’ordre second, et ainsi de suite. Cette méthode diffère de la corrélation bivariée qui consiste à corréler deux variables sans tenir compte des facteurs confondants potentiels.

Pearson r : la fameuse “Pearson product-moment correlation” est une méthode de corrélation, opposée à celle de la corrélation de Spearman. Pearson, contrairement à Spearman, assume une corrélation linéaire entre deux variables. Si la linéarité de la corrélation est transgressée, il est préférable d’utiliser la corrélation de Spearman. Par opposition à Spearman, Pearson est un test paramétrique, ce pourquoi il pose l’hypothèse (i.e., nécessité) d’une relation linéaire.

Practical Validity : ou valeur prédictive du QI (Jensen, 1998, ch. 9), énoncé plus simplement “validity”, est la capacité du QI à prédire les résultats soci-économiques (niveau de revenu, d’occupation, d’éducation) et aux critères socio-économiques généralement considérés comme étant important dans la société pour la plupart des gens. La validité d’un test chargé en g concernant un milieu professionnel particulier peut être étendue à d’autres milieux et paramètres.

Residual(s) : ou résidu(s) est la partie de la variance ou variation de la variable dépendante qui n’est pas expliquée par les variables indépendantes insérées dans le modèle de régression. “Residual(s)” est parfois énoncé “error term(s)”.

Spearman’s Hypothesis : parfois énoncé SH, est l’hypothèse de Spearman qui stipule que lorsqu’un individu excelle dans un test particulier, il excellera également dans les autres tests, indifféremment du contenu intrinsèque de ces tests. C’est pourquoi les scores à ces différents tests se retrouvent être corrélés, comme si toutes ces corrélations dérivaient d’un élément commun, ou facteur général. C’est celui-là même que l’on appelle le facteur g, que l’on extrait des tests de QI par la fameuse technique de l’analyse factorielle (elle aussi inventée par Spearman). C’est cette hypothèse d’où est venue l’idée du facteur g, dit aussi le g de Spearman, que l’on peut interpréter comme étant le facteur commun. La confirmation de l’hypothèse de Spearman est en quelque sorte une réfutation de l’idée que les tests de QI dépendent de la culture, ou seraient culturellement biaisés. Le concept de “facteur général” (dont g est l’abréviation) rejette l’idée que g soit une compétence spécifique dans la mesure où g est indépendant des contenus spécifiques de différents tests.

Spearman’s rho : ou corrélation de Spearman, ne pose pas la condition d’une relation linéaire, puisque Spearman convertit les valeurs exactes des variables en “rang” (ranking). Par exemple, dans une étude examinant l’impact du QI sur les résultats sociaux-économiques, les niveaux de QI varient entre les sujets étudiés, comme ils varient dans la population globale. Lorsque Spearman rho convertit les scores de QI en rang, admettons dans un échantillon de 5 sujets ayant des QIs de 50, 95, 100, 105, 110, Spearman donnera les valeurs respectives de 1, 2, 3, 4, 5, où 5 désigne la valeur la plus grande, 4 la deuxième valeur la plus grande et ainsi de suite (si plusieurs valeurs initiales étaient identiques, Spearman assigne un rang identique pour ces valeurs). Dans cette exemple, la médiane serait une estimation plus précise que la moyenne. Puisque 50 est extrêmement éloigné des autres valeurs, on serait tenté de considérer cette donnée comme étant une anomalie. C’est pourquoi Pearson est extrêmement sensible aux “outliers” (anomalies, valeurs aberrantes) ou “skewness” (asymétrie dans la distribution des scores ou valeurs), contrairement à Spearman. Les anomalies peuvent distordre les corrélations de Pearson, bien plus que les corrélations de Spearman.

Range Restriction : restriction de plage, ou restriction de distribution, est un phénomène connu pour distordre les corrélations. Supposons que l’on souhaite corréler deux variables, le QI et le niveau d’éducation, mais que dans l’échantillon que l’on souhaite analyser, les variations de QI des sujets sont très minuscules. Dans ce cas, les changements de niveau d’éducation ne seront que plus faiblement corrélés aux changements de QI, pour la simple et bonne raison que dans l’échantillon étudié le QI des sujets varie très peu, ou trop peu, voire pas du tout. Dans ces conditions, l’influence du QI a été sous-estimée de même que l’échantillon n’est pas représentatif.

Reaction Time test : dont RT (tests) est l’abréviation, est un test où le sujet presse un bouton sur une console lorsque la lumière apparaît à l’écran, et relâche le bouton lorsque cette lumière se dissipe. L’intérêt du test (qui existe sous plusieurs niveaux de difficulté) est de pouvoir mesurer avec précision la vitesse du cerveau à traiter des informations. Il est considéré par Jensen comme étant le test de QI le plus pur. Sur ces tests, l’hypothèse de Spearman a aussi été validée (Jensen, 1998, pp. 389-397).

Regression to the mean : ou régression vers la moyenne, est un phénomène qui postule que lorsque les individus ont des QIs très en deçà ou au dessus de la moyenne de leur population raciale ont des frères et soeurs (mais également des enfants) qui ont typiquement un niveau de QI plus proche de la moyenne de leur population raciale (Rushton & Jensen, 2005, p. 263; Jensen, 1998, pp. 468-472). Les frères et soeurs ainsi que les enfants de ces individus régressent à mi-chemin vers leur moyenne raciale, et l’explication serait que les individus partagent 50% de leurs gènes et que, par conséquemment, seulement 50% des gènes sont transmis de parents à enfants. Ce phénomène pourrait expliquer pourquoi les individus des faibles couches sociales ont des enfants plus riches, et pourquoi les individus des classes supérieures ont des enfants moins riches qu’ils ne l’étaient, traduisant un effet de mobilité sociale. Curieusement, tout se passe comme si l’environnement était cognitivement peu stimulant aux niveaux élevés des QIs mais assez stimulant aux niveaux les plus faibles du QI. Ce phénomène de régression vers la moyenne n’est évidemment pas exclusif au QI. Il existe également pour d’autres caractéristiques héritables, comme la hauteur.

Sampling error : ou erreur d’échantillonnage, désigne ni plus ni moins ce qu’on appelle la p-value, ou valeur p. Généralement, il est considéré que lorsque la p-value dépasse 0.05, soit une valeur de 5%, on dit que le résultat de l’échantillon étudié n’est pas nécessairement représentatif (dans le jargon, statistiquement significatif). Certains chercheurs acceptent même le 10% du niveau de signification. Il va sans dire que ces valeurs plafonds sont totalement arbitraires. Bien que la p-value ne doit pas être considérée comme un index (ou indice) sur l’importance relative (corrélation) d’une variable indépendante (ex, QI) sur la variable dépendante (ex, niveau d’éducation), il s’avère qu’à taille d’échantillon constante, la p-value diminue (augmente) lorsque le coefficient de corrélation augmente (diminue). De même, à niveau de corrélation constant, la p-value diminue (augmente) lorsque la taille d’échantillon augmente (diminue).

Smart Fraction Theory : ou SFT, est une théorie apparemment proposée par La Griffe du Lion (2002), The Smart Fraction Theory of IQ and the Wealth of Nations, stipulant que le PIB par habitant est davantage déterminé par le pourcentage de la population dont le QI est supérieur à un certain seuil minimum, dit aussi “minimum threshold” ou plus simplement “threshold IQ”. La Griffe estimait ce seuil minimum à 108 points de QI.

Standardizations : la standardisation des tests de QI permet la comparabilité entre les tests. Dans la mesure où chaque test est susceptible d’avoir un niveau d’échelle de scores différent, les scores bruts, ou “raw scores”, ne sont pas directement comparables en tant que tels. Par exemple, les différences de scores d’un test de QI dont les scores vont de 0 à 10 et d’un autre test dont les scores vont de 0 à 200 ne sont pas facilement comparables. C’est pourquoi il est nécessaire de les standardiser, de sorte que les différences de scores dans chaque test soit exprimées sur une même unité d’échelle, soit en différences d’unités d’écart-type (standard deviation units).

Stereotype Threat : dont ST est l’abréviation, se traduit tout simplement “menace du stéréotype”. C’est une théorie qui semble-t-il a été popularisée assez récemment par Claude Steele (1995) et considérée par un certain nombre de sociologues comme étant une cause possible des différences de QI entre les noirs et les blancs, bien que d’autres chercheurs indiquent que ces tests expérimentaux conduisent à violer l’invariance de mesure (Wicherts et al., 2005). Brièvement, elle postule l’idée que les noirs ont de moins bons scores sur les tests de QI en partie à cause de la croyance et/ou auto-persuasion qu’ils seraient moins intelligents. Une revue de littérature du sujet suggère la prudence quant à la validité de ces tests expérimentaux.

Test-retest Correlation : parfois dénoté “test-retest reliability”, la corrélation test-retest est une méthode servant à tester la fidélité ou fiabilité des tests de QI. Entre deux passages d’un même test, il peut y avoir des changements ou fluctuations de court termes dans les scores chez un même individu. Ces fluctuations de court terme sont associées à des erreurs de mesures, par opposition aux fluctuations de long terme qui sont associées à des facteurs réels comme le développement ou les expériences au cours de la vie. La cause des fluctuations à court terme peut s’expliquer par les changements dans les conditions d’administration, ou l’état du sujet (fatigue, anxiété, etc). La cause peut aussi être due à une faible fiabilité du test lui-même, si par exemple les items de tests permettaient facilement au sujet de deviner la bonne réponse à un item dont il ne connait pas la réponse (Jensen, 1980, p. 268) mais il est effectif que lorsqu’un test de QI propose 8 ou 10 choix multiples, au lieu de 2 choix de réponses par item, la probabilité de deviner la bonne réponse est clairement largement amoindrie. Si les tests de QI sont très fiables, la corrélation test-retest devrait être très élevée, indiquant l’absence marquée de différence dans les scores. Cette corrélation est généralement très élevée, aux alentours de 0.90 (Jensen, 1980, pp. 270-272).

Zero-order correlation : ou corrélation d’ordre zéro, est une simple corrélation (bivariée) entre deux variables, sans inclusion des covariables ou variables de contrôle.

This entry was posted in Divers and tagged .

12 comments on “Comprendre les études sur le QI : un lexique

  1. yoananda says:

    Excellente initiative !!!

  2. 猛虎 says:

    Je le dis pour que ce soit clair. Si certains mots ou termes techniques vous semblent assez important pour figurer dans ma liste, faites-moi signe, et je l’ajouterai.

  3. yoananda says:

    http://rhubarbe.net/blog/2013/04/03/origines-de-la-betise/
    un article intéressant qui introduit une 2ème mesure en plus du QI, le QR (quotient de rationalité), qui a priori ne serait pas lié a g !
    Personnellement je suis séduit par cette idée qu’on pourrait être bête tout en étant intelligent. Ca correspond a une observation empirique “intuitive” du monde.

  4. 猛虎 says:

    Après une petite recherche, il semble que cette idée de QR ne date pas d’aujourd’hui. Le fait que le QR soit très malléable me fait douter de sa fiabilité, par ailleurs :
    http://www.cci.som.yale.edu/content/why-high-iq-doesnt-mean-youre-smart

    There is a drawback, however: unlike with IQ, it would be relatively easy to train people to do well on RQ tests. “They measure the extent to which people are inclined to use what capacity they have,” says Evans. “You could train people to ignore intuition and engage reasoning for the sake of the test, even if this was not their normal inclination.”

    S’il existe plusieurs stratégies pour parvenir à un haut score des tests de QR, alors les différences de scores ne sont pas tout à fait interprétables de la même façon, ne mesurant pas la même construction chez tous les sujets.

    Quoi qu’il en soit, ce QR n’a pas semble-t-il de validité prédictive. Par conséquent, ceux qui pensent que le QR réfute l’idée même de g ne savent pas exactement ce qu’est g. J’ai l’impression aussi que vous oubliez bien vite que le QI, net des facteurs socio-économiques reste encore un prédicteur valide de la longévité. Or, le QR est censé être non lié au QI. Le premier ne me semble donc pas d’importance pour déterminer les différences individuelles (et entre groupes) de l’état de santé.

    Si les entrepreneurs devaient par exemple sélectionner les candidats sur la base (1) de leur QI ou (2) de leur QR, il y a fort à parier qu’ils perdraient gros s’ils misent sur (2) au lieu de (1). Ce que je dis, c’est que si le QR n’a pas de validité prédictive, alors il est tout à fait sans importance.

    Dans The g Factor, Jensen note ceci :

    More complex tests are highly correlated and have larger g loadings than less complex tests. This is what one would predict from the sampling theory: a complex test involves more neural elements and would therefore have a greater probability of involving more elements that are common to other tests.

    Ceci est important à retenir pour bien comprendre ce qu’implique le QI. Beaucoup de ceux qui critiquent le QI ne savent pas ce que c’est. Le QI, ou g plus exactement, est une capacité générale, un facteur commun qu’on extrait via des tests d’analyses factorielles. C’est parce que le QI est une capacité générale qu’il est important dans la vie de tous les jours, puisqu’il influence presque toutes vos décisions.

    Qu’en est-il du QR par comparaison ? Il semble s’agir plutôt d’un test de rationalité qui consiste, si je comprends bien, à tester les biais cognitifs de l’individu en question. En gros, c’est comme si les personnes intelligentes, peut-être imbues d’elles-mêmes, cherchent la solution la plus intuitive car ils seraient trop confiants. Cela peut influencer les décisions qu’ils font dans la vie, et multiplier les mauvais choix. Ce n’est peut-être pas un hasard si les individus intelligents sont plus enclins aux prises de risque (peut-être que les traders ont un fort QI, d’ailleurs). J’en avais déjà parlé ici.
    https://analyseeconomique.wordpress.com/2012/01/10/impact-du-qi-sur-limpatience-et-laversion-au-risque/

    Pour conclure, je pense que cette notion de QR est dangereuse car elle peut facilement être mal interprété. Quand vous sortez des phrases du genre “un QI élevé ne fait pas de vous des gens intelligents”, le premier réflexe est de penser que le QI est invalide. Ce n’est pas le cas. Le QR touche à une dimension totalement différente du QI. Ce dernier est un index de réussite sociale alors que le premier est un index d’auto-critique de ses propres choix. Le QR semble qualitatif, le QI quantitatif. Ceci dit, il est toujours plus avantageux d’avoir un fort QI et un faible QR plutôt que l’inverse.

    • yoananda says:

      Le QR ne contredit pas le QI, il est censé le compléter (si bien sûr il est avéré).
      Le QR pourrait peut-être expliquer des différences individuelles : statistiquement quelqu’un au QI élevé réussit mieux, est en meilleure santé, etc…
      Mais individuellement, quelqu’un au QI élevé peut réussir moins bien que sont voisin au même QI. Peut-être que le QR pourrait expliquer cette différence.

      Autre chose, il faut voir qu’il y a une composante collective au QR. C’est un peu difficile à expliquer. Si vous connaissez les travaux d’Edouard Bernays le père de la propagande, il explique que pour manipuler quelqu’un il est plus facile de l’inclure dans un groupe et de manipuler ce groupe. Le QR pourrait être relié a une sorte de suggestibilité de groupe, et expliquerait que même en étant intelligent, les codes sociaux, la pression du groupe dans auquel on appartient distord notre QI.
      Je n’affirme rien, je ne sais pas s’il y a des études sérieuses sur le sujet.

      Mais comme j’ai récemment étudié les biais cognitifs, je suis déjà sensibilisé au sujet, et l’idée que “g” soit modulé par d’autres facteurs me semble pertinente. Il faudrait en effet vérifier la validité prédictive du QR.

    • 猛虎 says:

      D’accord sur ce point. Mais il reste que le problème est la façon dont cette recherche est représentée pour discréditer le QI. Les journalistes ont l’air de se plaire à déformer les conclusions des études selon leur biais idéologiques. Ce qui n’aide pas, c’est que les chercheurs eux aussi ont des biais idéologiques et conduisent des études aux méthodologies douteuses, leur permettant d’arriver aux conclusions qu’ils souhaitent parvenir.

      Ceci étant dit, le fait que le QR, à QI constant, peut apporter un avantage socialement, je n’en doute pas un seul instant. Mais en ce cas, le QR représenterait une dimension qui aurait tout à voir avec la personnalité. Si le QR est une mesure de la personnalité, quel est l’intérêt donc ? Aucun chercheur sur le QI n’a jamais prétendu que le QI est l’explication universelle. Donc affirmer qu’il y a autre chose que le QI ne nous apprend rien de nouveau. L’intérêt plutôt serait de savoir s’il existe d’autres facteurs, génétique ou culturels, qui pourraient faire varier l’importance du QI dans la vie de tous les jours. Si ce(s) facteur(s) exista(ient) alors ce serait une véritable révolution. Mais il n’existe rien de tel à ma connaissance, je le crains.

      Ensuite, j’ignore ce que vous entendez par “la pression du groupe dans auquel on appartient distord notre QI”. Si vous entendez que le QI diminue, je crains que non. Si vous entendez que la validité prédictive du QI change, il devrait y avoir de preuves de cela. Je n’en connais pas : la capacité prédictive du QI n’est pas moindre à l’extrémité inférieure qu’elle ne l’est vers l’extrémité supérieure, suggérant l’inexistence d’un facteur modérant l’impact du QI. Enfin, si g était modulé par d’autres facteurs, ils seraient aussi corrélé au QI, mais il semble que le QR et le QI ne soit pas liés du tout, donc je ne vois pas comment on peut rapprocher le QR et g.

  5. yoananda says:

    Autre sujet, je viens de découvrir cette piste : QI et musique.
    http://www.ledevoir.com/non-classe/63163/le-qi-croit-avec-l-usage-de-la-musique

    il semble que la musique, d’une manière générale provoque des sécrétion particulières dans le cerveau. C’est même avéré pour les plantes d’ailleurs, et les animaux.

    Bien sûr, selon le QI on va choisir telle ou telle musique, mais il semble qu’il y ai aussi un lien dans l’autre sens : la musique pourrait favoriser ou non le développent du cerveau et donc g.

    Savez vous si le QI est lié a la matière grise dans le cerveau ? J’ai appris récemment que la matière grise était les noyaux des neurones, et la blanche, les axones et dendrites. La matière grise étant en périphérie (couche externe) plus quelques noyaux.

    Avez vous des informations la dessus ?

    • 猛虎 says:

      La plupart des études sur le QI sont vides de sens dans la mesure où ils n’essaient même pas de conduire des analyses factorielles pour tester si les changements/variations de QI dûs à un quelconque facteur externe (ici, la musique) sont des variations de g. Soit ils ignorent l’existence même de g, soit ils ont pensé qu’une telle analyse n’était pas nécessaire. Quel qu’en soit la réponse, j’appelle ça une faute professionnelle. Pour tout chercheur souhaitant étudier le QI, la connaissance de g est primordiale. C’est comme si un professeur d’économie enseignant à ses élèves d’université ignorait même la loi de l’offre et de la demande. Ce n’est juste pas possible.

      Ce qui est pathétique dans l’étude que vous citez, c’est que les auteurs avaient la possibilité de conduire une analyse factorielle. Moi même je peux le faire. Il vous suffit de posséder un outil statistique, du genre SPSS, ainsi que les données des sous-tests de QI. Ils avaient tout le matériel mais n’ont pas pris la peine de comparer les facteurs g du test période #1 et période #2, par exemple avec les coefficients de congruence, analyse en composantes principales ou que sais-je. Donc aucune preuve n’est faite que la hausse de QI serait une hausse réelle du QI, à savoir du facteur g. Pourquoi le serait-il d’ailleurs ? L’éducation n’augmente pas le QI, les interventions ont échoué, les entraînements cognitifs dont j’avais parlé dans un article précédent ne montrent pas la moindre preuve que les hausses de QI reflètent des hausses des capacités générales, mais simplement des capacités spécifiques, donc non liées à g.

      S’ils avaient conduit ce test d’analyse factorielle, il y a fort à parier que les structures ne seraient pas identiques. Pour mieux comprendre, imaginez vous posséder un avantage net en termes de musculature, détente, vitesse de pointe, et endurance. Dites vous que c’est le facteur g, la composante héritable du QI. Vous aurez un avantage sur tous les sports que vous pratiquerez, n’est-il pas ? Maintenant, imaginez que vous ne possédez aucun avantage physique par rapport aux autres sportifs. Vous vous entraînez au basket pendant deux ans; dites vous qu’il s’agit d’une compétence spécifique, un facteur non-g. Ensuite, pensez-vous que la pratique du basket augmente vos performances en tennis, football, cyclisme ? Improbable. Donc il doit en être de même avec le QI. Vous pouvez améliorer vos compétences spécifiques d’abord grâce à de meilleures compétences générales, mais les compétences générales ne peuvent pas être améliorées par les compétences spécifiques.

      Ensuite, vous demandez s’il existe un lien entre QI et volume de la matière grise. Dans The g Factor, Jensen nous apprend (page 148) :

      In the other study, based on eleven diverse cognitive tests, the vector of the tests’ g loadings were correlated +.51 with the vector of the tests’ correlations with total brain volume and +.66 with the vector of the tests’ correlations with the volume of the brain’s cortical gray matter.

      Donc la réponse est oui. D’ailleurs, la matière grise est fortement héritable. Environ 80-90%.
      https://analyseeconomique.wordpress.com/2012/02/29/sur-lheritabilite-du-qi-du-volume-cerebral-et-du-temps-de-reaction-posthuma-de-geus-boomsma/

    • yoananda says:

      Ok, merci !
      C’est pénible de ne pas pouvoir faire confiance aux travaux (soit disant) scientifiques … tout le monde n’a pas les moyens d’aller creuser ces sujets (il faut quand même avoir le niveau pour pouvoir le faire).

  6. 猛虎 says:

    Je ne dis pas que toutes les études sont peu sérieuses, je dis juste que certaines études sont tellement techniques que le grand public n’y connaissant pas grand chose ne regarde ni la section 2, ni la section 3 du document, respectivement la méthode et le résultat. Or, à mon sens, ce sont les sections les plus importantes. Il est vrai que la corrélation n’implique pas la causalité en soi, mais les scientifiques le savent bien, c’est pourquoi ils avancent toujours des théories qu’ils expliquent section 1 et section 4. Les journalistes et le grand public peuvent en parler de ça, mais sans entrer dans les détails techniques. Or, la technique/méthode ainsi que la théorie sont toutes deux aussi importantes l’une que l’autre, et on ne peut ni ne doit ignorer la méthode sous prétexte qu’on y comprenne rien. Mais voilà, quand les gens ne savent pas ce qu’impliquent des régressions multiples ou analyse factorielle, ils ne peuvent se fier qu’au texte, et non aux tableaux, ni à la méthode employée. Moi-même il m’arrive à avoir du mal à comprendre certaines méthodes statistiques très avancées. Par exemple, si je sais comment conduire, à peu près, la méthode des vecteurs corrélés de Jensen, sans y appliquer les contrôles les plus strictes, je ne sais pas du tout comment on applique la MGCFA, utilisée pour tester l’invariance de mesure. Mais même parmi les chercheurs qui citent de telles études, certains n’ont pas l’air de savoir eux non plus comment on procède, ce qui ne les empêchent pas de les citer. Peut-être que, comme moi, ils comprennent juste l’idée et où cela mène. Mais sans plus.

    Par chance, j’ai trouvé l’étude sur la musique et le QI dont vous parliez.
    http://www.erin.utoronto.ca/~w3psygs/MusicLessons.pdf

    Possédant le matériel statistique nécessaire, je pourrais essayer de conduire une analyse factorielle, et tester ma théorie. Je vais envoyer un email à l’auteur, croiser les doigts. Si tout se passe bien, je vais pouvoir me mettre au travail. Ceci étant dit, connaissant les scientifiques, il faut toujours fournir de bonnes justifications pour une telle demande de données. Va falloir que j’essaie de trouver les bons mots. Mais avant ça, il faut que je poste mon étude sur la régression vers la moyenne sur le blog.

  7. yoananda says:

    Merci pour toutes ces réponses. J’espère ne pas abuser.
    Autre question : je suppose que nous n’avons pas tous la même capacité de mémorisation. Je sais qu’on peut l’entraîner, et certains deviennent très fort dans ce domaine. Je suppose que ça se mesure assez bien.
    Y a t-il un ou des liens entre g et la mémoire. Est-ce que par exemple g est positivement corrélé a une bonne mémoire ? a l’inverse, est-ce que augmenter la mémoire pourrait influencer g ? (je suppose que non puisque les exercices cognitifs n’ont qu’un effet temporaire sur g, si j’ai bien compris).

  8. 猛虎 says:

    Je réponds tardivement parce que je m’empêche d’achever mon ultime article avant la synthèse qui se profile, mais à propos de ce que vous dites, vous visez juste. Si l’entrainement cognitif (dual n-back ou autre méthode de ce genre) échoue à produire des effets, l’entrainement aux capacités de mémoire auront surement aucun effet, par exemple le sudoku. Jensen disait dans The g Factor, que :

    Tests that involve some form of reasoning or relation eduction, for example, have considerably higher g loadings than tests of rote memory, even though both types of tests are perfectly matched in their level of difficulty and have the same variance.

    Ce qui est l’ingrédient de g, c’est la capacité à gérer la complexité. Par exemple, les africains ont une meilleure mémoire mécanique que les blancs, semble-t-il, mais ils performent toujours moins bien aux tests de QI. Leur avantage en mémoire mécanique ne semble pas leur donner plus de bénéfices que cela. Si je me rappelle bien néanmoins, je crois que les gens intelligents ont une meilleure mémoire en général, mais visiblement, ce n’est pas ce facteur qui “cause” le QI.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s