Méta-analyse des corrélations entre le facteur g et les indices d’héritabilité et environnementalité des sous-tests de QI

Il existe aujourd’hui assez peu de tests ayant investi la question de la relation entre le facteur g et l’héritabilité. Herman Spitz (1988) est probablement l’un des premiers connus à avoir tenté un tel test. Rijsdijk (2002) également démontre une telle relation. La seule méta-analyse connue à ce jour vient de van Bloois et al. (2009, p. 61) malgré le fait qu’elle soit encore restée non publiée. Quoi qu’il en soit, aucun n’avait semble-t-il tenté de tester un possible lien entre facteur g et environnement partagé ou non-partagé. Il aurait peut-être été problématique pour la théorie héréditariste si la corrélation entre g et l’héritabilité (h2) est équivalente à celle entre g et l’environnement, partagé (c2) ou non partagé (e2), sauf si ladite théorie fournit l’explication au phénomène. Rushton (2007) a été peut-être le seul à le tenter, bien qu’utilisant un tout autre test QI, les matrices progressive de Raven. La corrélation entre g et h2 était positive mais plus faible qu’entre g et e2, bien que g et c2 corrélait à zéro. L’échantillon de jumeaux utilisé par Rushton était néanmoins assez faible. La présente analyse s’attèle donc à présenter des résultats méta-analytiques.

Le fichier EXCEL peut être trouvé ici. Il contient les données calculées pour les corrélations (Pearson et Spearman) pour chaque échantillon indépendants. Soit 36 études au total (pour 42 corrélations). Mais la moitié des échantillons utilisaient des batteries de tests non représentatifs, avec quasi-exclusivement des tests de vocabulaires et de compréhension littéraire, et avaient très souvent un nombre de sous-tests extrêmement restreints. Il va sans doute que corréler 4 ou 5 points de données est tout sauf fiable. J’ai donc restreint mes points de données à ceux pour lesquels le nombre de sous-tests s’élève à 7 minimum, ce dont avait suggéré Jan te Nijenhuis (2007), ce qui m’a donc fait retenir seulement 18 études, pour 19 points de données. On peut penser que cette restriction est purement arbitraire, mais même 7 sous-tests est extrêmement faible. Dolan & Hamaker (2001, p. 19) estiment eux-même que 13 sous-tests est un nombre assez faible.

Avant de présenter les résultats, il faut savoir que de nombreux problèmes ont été rencontrés. Par exemple, dans plusieurs des échantillons non retenus dans ma corrélation méta-analytique finale, comme Dale et al. (2010) ou Olson et al. (2013), plusieurs estimations des héritabilités (h2), d’environnement commun familial (c2) et d’environnement unique (e2) ont été données. Après avoir tenté de corréler les différentes estimations entre elles, il s’avère qu’elles soient fortement corrélées. Dans le jargon, on parle de stabilité ou fiabilité du vecteur/colonne de chiffres à corréler. Ces corrélations étaient de l’ordre de 0.825 pour Dale (2010) et 0.868 pour Olson (2013) dans le cas de h2. Malheureusement, au regard de la corrélation entre les différentes estimations de h2 avec les charges/saturations en g, non seulement l’ampleur de la corrélation varie grandement, mais le signe de la corrélation peut passer de négatif à positif, ou inversement. Je soupçonne que la plus probable raison provient du faible nombre de sous-tests (Dale=4, Olson=9). Le problème vient surtout de Olson, où même un haut niveau de fiabilité du vecteur h2 et un nombre de sous-tests pourtant considéré assez élevé dans cette branche de la science, le signe de la corrélation s’inverse selon que l’on utilise l’une ou l’autre des estimations de h2. Comme je l’ai expliqué dans le paragraphe précédent, 9 sous-tests est une quantité beaucoup trop faible pour une batterie censée produire des corrélations fiables. Une légère déviation dans un seul chiffre ou sous-test dans n’importe lequel des vecteurs à corréler, soit les charges en g (dit g-loadings en anglais) soit les estimations de h2, c2 ou e2, peut provoquer des différences disproportionnées. Fort malheureusement, la plupart des batteries de tests QI dans la réalité ne possède pas beaucoup plus que 10 sous-tests.

Voyons ci-dessous ce qu’il en est. Les différentes valeurs de h2 pour Dale (2010) sont très semblables, mais les corrélations pourtant très disparates. Le nombre faible des sous-tests est clairement le coupable désigné. Mais qu’en est-il de Olson (2013) ? Mis à part Copy et Rapid Naming, les valeurs de h2 et a2 sont tout à fait équivalentes. Les coupables désignés seraient donc les deux sous-tests nommés, ou l’un d’eux au moins. Enfin, à supposer bien sûr que l’anomalie ne provient pas directement du vecteur PC1. Tout ceci ne veut dire ni plus ni moins que la corrélation est très sensible à la déviation même légère dans un seul nombre (ou faible quantité de nombres) quand l’ensemble des points de données à corréler est faible.

Meta analysis of Jensen effects in heritability and environmentality of IQ subtests - Table 1

Meta analysis of Jensen effects in heritability and environmentality of IQ subtests - Table 2

La même chose est vraie concernant la non-fiabilité des vecteurs de g. Rietveld (2000) en est le meilleur exemple, bien que non inclus. Les corrélations g*h2 diffèrent très sensiblement selon que l’on utilise les saturations en g calculées via une analyse en composantes principales des intercorrélations de sous-tests fournies dans les articles ou les saturations en g rapportées par les manuels (e.g., Woodley & Meisenberg, 2013; Dragt, 2010). On doit savoir que la fiabilité/stabilité d’un vecteur est plus importante quand l’échantillon est plus large, car l’erreur d’échantillonnage diminue. Autrement dit, les valeurs utilisées par Woodley et Dragt sont des estimations plus précises. Le problème étant que pour un certain nombre d’échantillons, les valeurs de g ont été obtenues via une analyse en composantes principales sur les intercorrélations de sous-tests, ce qui fait de cette méthode loin d’être d’une précision parfaite puisque les échantillons indépendants sont de taille modeste.

De façon générale, les coefficients de stabilité des vecteurs à corréler est assez modeste pour h2, extrêmement faible pour c2, mais extrêmement élevé pour e2. Cela pourrait expliquer par ailleurs pourquoi e2 montre toujours les mêmes tendances. Les corrélations entre g et e2 sont toujours (mis à part quelques exceptions) fortement négatives. Les corrélations pour h2 et c2 en revanchent partent dans tous les sens et montrent donc beaucoup d’hétérogénéité. Mais si l’on retient uniquement les batteries de tests ayant minimum 7 sous-tests plus ou moins représentatif d’un panel de compétences cognitives larges, les corrélations g*h2 montrent beaucoup moins de variabilité, mais celles de g*c2 montrent encore beaucoup de variabilité. Il est facile de comprendre pourquoi. Mis à part le faible nombre de sous-tests habituel aux batteries de tests, il s’agit du fait que les coefficients de stabilité de c2 sont souvent proches de zéro, ou pire, montrent des signes négatifs. Autrement dit, les valeurs de c2 de l’un à l’autre sont inversement corrélées à un autre vecteur c2, ou simplement non corrélés entre eux. C’est effectivement ce que l’on voit dans les données du Wechsler que j’ai assemblé dans ce fichier EXCEL ici présent. On peut noter aussi que la stabilité du vecteur h2 montre lui aussi beaucoup de corrélations négatives ou non différents de zéro, ce qui implique bien évidemment un coefficient de stabilité faible. Même en dépit de cela, g*h2 est presque toujours positif, et plus souvent significatif que le contraire.

Quoi qu’il en soit, il y a toujours possibilité de corriger ce genre d’artéfacts. Nijenhuis (2007, pp. 287-288) et Jensen (1998, pp. 380-383) présentent les artéfacts qui influencent grandement les corrélations : 1) erreur d’échantillonnage, 2) restriction de distribution des valeurs pour les saturations en g, 3) niveau de fiabilité de la colonne des saturations en g, 4) niveau de fiabilité de la colonne de l’autre vecteur à corréler, soit h2, c2 ou e2, 5) la déviation de la validité parfaite du construit. te Nijenhuis et ses étudiants (Dragt, 2010; Smit, 2011; Repko, 2011; Metzen, 2012; Nijenhuis, 2013) ont déjà expliqué la procédure et la logique derrière ces corrections. Il ne sera pas utile de répéter.

J’ai donc utilisé les corrections concernant 2), 3), et 5). Bien que j’ai tenté la correction pour 1), il semblerait que cela n’ait pas d’effet sur les corrélations méta-analytiques. Concernant 4), le problème étant que le nombre élevé de corrélations négatives entre les vecteurs c2 rend difficile à interpréter g*c2 et à savoir s’il est nécessaire d’appliquer la correction. Comme Dragt (2010, pp. 40-42) et Metzen (2012, pp. 45-48) l’ont suggéré et démontré, on peut ne retenir que les corrélations positives, puisque le coefficient de stabilité n’est pas censé être inférieur ou égal à zéro. Mais compte tenu du fait qu’il y avait beaucoup trop de corrélations négatives dans les vecteurs h2 et c2, j’hésite à appliquer la correction, même si Metzen n’a pas hésité à l’appliquer en dépit de ses nombreuses corrélations négatives. Si correction appliquée, le g*h2 positif augmenterait, tandis que le g*c2 légèrement négatif augmenterait également.

La correction de la restriction de distribution de g n’augmente pas nécessairement la corrélation. Dans une méta-analyse, comme Hunter & Schmidt (2004) l’ont suggéré, on devrait définir la distribution (SD) la plus représentative des valeurs de g, à savoir la distribution propre à la population dans son ensemble, soit SD_population. Nijenhuis (2007) par exemple rapporte que la distribution de g s’élève à 0.128 pour les tests de Wechsler. En prenant cette valeur comme point de référence, divisant la distribution de g de chaque échantillon par 0.128, soit SD_échantillon, toute standard deviation (SD) de g inférieure à 0.128 verrait la corrélation augmenter, tandis que logiquement une standard deviation (SD) supérieure à 0.128 réduirait la corrélation vu que la correction implique de diviser la corrélation par la valeur u, pour u = SD_échantillon/SD_population.

Concernant la correction pour déviation de la validité parfaite du construit, te Nijenhuis suggère de diviser la corrélation observée par 0.90, car c’est plus ou moins la corrélation entre les g-loadings empiriques et les g-loadings vrais.

La correction pour le manque de fiabilité d’un vecteur (rxx) consiste à diviser la correction observée (r) par la racine carré SQRT du coefficient de stabilité de l’un ou l’autre vecteur, soit r/SQRT(rxx), ou r/SQRT(rxx*ryy) s’il y a deux vecteurs à corriger, respectivement vecteur x et vecteur y.

Voici le résultat présenté. Plus ou moins, h2 semble augmenter lorsque l’échantillon (N) augmente, visiblement due à la présence des deux corrélations g*h2 négatives dont les échantillons sont faibles. Le tracé de la courbe, scatterplot, a été obtenu en pondérant le nombre de sous-tests pour chaque points de données, augmentant ainsi l’importance relative des points de données par nombre de sous-tests.

Meta analysis of Jensen effects in heritability and environmentality of IQ subtests - Figure 1

Meta analysis of Jensen effects in heritability and environmentality of IQ subtests - Table 3

Comme nous voyons ci-dessus, également, c2 et e2 ne corrèlent pas vraiment avec la taille de l’échantillon. Maintenant, je présente ci-dessous deux tableaux pour les corrélations avec g, dit Jensen effect. Le premier tableau n’est pas pondéré, et montre le vrai nombre de points de données ou étude. Le second tableau pondère les points de données par la taille de d’échantillon (càd, multiplie chaque point de donnée par la taille d’échantillon respective). Dans ce tableau, g*h2 est élevé (0.55) et la corrélation augmente lorsque les corrections sont appliquées (0.71). Concernant g*c2 et g*e2, elles sont négatives. Les valeurs de g*c2 semblent plus ou moins proches de zéro, ce qui est logique en vu du fait que les coefficients de stabilité de c2 montrent beaucoup de corrélations négatives, positives, ou proches de zéro.

Meta analysis of Jensen effects in heritability and environmentality of IQ subtests - Table 4 - Jensen effects (unweighted)

Meta analysis of Jensen effects in heritability and environmentality of IQ subtests - Table 5 - Jensen effects (weighted)

Le fait que malgré le faible coefficient de stabilité de h2, si l’on s’en tient aux données du Wechsler, les corrélations g*h2 très souvent positives et bien différentes de zéro pourrait justifier la correction pour le manque de fiabilité du vecteur h2. Mais pas pour c2, vu qu’il ne m’est pas possible de définir avec clarté le signe de la corrélation g*c2, dans la mesure où le manque de fiabilité semble clairement être le facteur premier des tendances aléatoires dans g*c2. Quoi qu’il en soit, si j’en juge les coefficients de stabilité de h2 dans les données du Wechsler dans le présent fichier EXCEL, utilisées dans mon analyse du Flynn effect, ces coefficients se situent entre 0.50 et 0.70, si l’on exclut bien évidemment les coefficients proches ou inférieurs à zéro. Le coefficient de stabilité à appliquer pour chacun des points de données pourrait être de 0.60. Soit une correction r/SQRT(0.60*0.85) dans la mesure où 0.85 serait approximativement le coefficient de stabilité pour le vecteur des g-saturations. Ma corrélation méta-analytique g*h2 passe donc de 0.727 à 0.938. Autant dire que cette seule et unique correction constitue une modification pour le moins extrême.

Une dernière note : la raison pour laquelle les corrélations méta-analytiques dans mon fichier EXCEL diffèrent légèrement des chiffres présentés ci-dessus vient du fait que j’ai tout récemment changé, notamment, les valeurs pour l’étude de Friedman et al. (2008). Leurs estimations étaient basées sur une approche en variables latentes, qui est censée enlever les erreurs aléatoires de mesure, ce qui rend pour ainsi dire ma correction pour atténuation relative des g-loadings non nécessaire. L’autre raison est que j’avais initialement commis l’erreur de rapporter les corrélations directement par mon outil statistique SPSS. Quand j’entre les données dans SPSS en faisant des copier-coller depuis mon fichier EXCEL, SPSS n’enregistre que les données arrondies à 2 ou 3 chiffres après la virgule car ce fut de cette façon que j’ai configuré mon fichier EXCEL, alors même que mon fichier EXCEL déploie en vérité des chiffres pouvant aller à 10 chiffres après la virgule. Fort heureusement, le lecteur pourra constater que cela affecte nullement l’ampleur des corrélations. Enfin, je n’ai pas inclus Davis et al. (2009) malgré d’avoir 14 sous-tests et des sous-tests plus ou moins représentatifs, bien que moyennement, pour la raison évidente de son échantillon trop élevé. La corrélation méta-analytique finale est trop largement dépendante de Davis (2009), or bien que h2 serait augmenté par l’inclusion de Davis (2009), c2 passerait de -0.165 à 0.352. Le fait qu’un positif g*c2 soit entièrement conditionné par Davis (2009) malgré les 16 autres points de données mettant en lumière la tendance aléatoire de c2 rend l’exclusion de cette étude parfaitement légitime.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s