Gains de QI par l’effet de la pratique : Absence du facteur g

Dans le présent article seront analysées deux études présentant des effets ‘test-retest’ sur le QI, précisément Watkins (2007) et Schellenberg (2004, 2006). Les deux études utilisent le test d’intelligence de Wechsler. Malgré la présence d’un gain de QI, la corrélation entre changement du score et la saturation en g des sous-tests du Wechsler est négative, comme l’indiquaient déjà des études précédentes. Dans la mesure où g, l’ingrédient actif des tests cognitifs (Gottfredson, 1997), est absent des gains cognitifs, on devrait en conclure que l’effet de la pratique n’influence pas l’intelligence manifeste, mais uniquement les scores observables, et non les scores latents.

Pour introduire le topic, Skuy et al. (2002), Coyle (2006), Nijenhuis et al. (2001, 2007) ainsi que Reeve & Lam (2005, 2007), Lievens et al. (2007), Matton et al. (2009, 2011), Freund & Holling (2011), Arendasy & Sommer (2013), avaient pu démontré que les effets de pratique n’étaient pas liés au facteur g des tests de QI.

Nijenhuis et al. (2007) ont analysé les effets des gains séculaires du QI, connus sous l’effet Flynn, démontrant une corrélation parfaitement négative avec les saturations en g des tests cognitifs. Les auteurs ont aussi ré-analysé l’étude de Skuy et al. (2002) avec le résultat que les gains de QI chez les participants noirs, blancs, indiens et hybrides d’Afrique du Sud qui ont bénéficié du programme nommé Mediated Learning Experience (MLE) n’étaient pas liés à g. Le test d’intelligence fut le RSPM (Raven). Concrètement, les auteurs corrèlent les gains de scores avec les scores prétest (et non post-test) du RSPM. Ils notent également que le déclin de la variance totale expliqué par le premier composant principal, ou g, dans les scores post-test est probablement dû au phénomène connu sous le nom de “test sophistication” qui consiste en ce que les participants adoptent des stratégies différentes pour accroître leur score, ce qui fut permis par le programme MLE consistant notamment à faire du “coaching” sur les tests de QI, autrement dit, à “apprendre” les tests de QI. Nijenhuis (2001, p. 36) avait expliqué ce phénomène. Skuy et al. (2002), notamment, avaient démontré plus tôt déjà que les gains sur le RSPM n’étaient pas généralisables aux autres tests cognitifs (e.g., Stencil) qui requièrent la pensée abstraite, et donc vides en g-saturation, et ce, bien que les étudiants noirs ont vu leur score s’améliorer davantage que pour le groupe des étudiants blancs. Matton et al. (2011) ont mis en évidence le même phénomène. Alors même que les preneurs de tests de second passage (retakers) ont des scores supérieurs aux preneurs de tests de premier passage (first-time test takers) sur les ‘vieux’ tests, ces preneurs de tests de premier et de second passage sur les ‘nouveaux’ tests cette fois n’ont pas des scores sensiblement différents. Ils font ensuite valoir que les différences dans la structure des moyennes de scores suggèrent la violation de l’invariance de mesure, signifiant ainsi que les scores post-tests ne mesurent plus exactement la même chose que les scores prétests.

Coyle (2006, Table 3) pour sa part, utilisant un mixte de tests cognitifs et d’aptitudes scolaires, démontre que le SAT possède de fortes saturations sur PC1 tandis que les changements de scores du SAT dûs à des effets de pratique ou test-retest ont des charges élevées sur PC2 et proches de zéro sur PC1. Il montre également dans une seconde analyse que les scores SAT corrèlent avec avec les évaluations scolaires (GPA, Grade Point Average) alors même que les changements de SAT scores ne corrélaient pas avec le niveau GPA (Table 5).

Reeve & Lam (2007, Table 3) corrèlent eux aussi le vecteur des gains avec le vecteur des charges en g, avec une preuve démontrée d’une association significativement négative. Ils découvrent aussi (Table 4) que la motivation est en quelque sorte associée avec les gains dans le QI composite, et pourtant, le rôle du facteur motivationnel n’apparaît que très peu cohérent dans le schéma des corrélations avec les gains de scores dans les divers sous-tests de QI; corrélations négatives dans certains domaines et positives dans d’autres domaines. Les mêmes auteurs (2005) avaient auparavant démontré, néanmoins, la preuve de l’invariance de mesure, et que les gs (dérivés d’analyses CFAs indépendantes) au jour 1, jour 2, et jour 3, étaient fortement corrélés (Table 5). Ils montrent aussi (Table 6) que l’effet de pratique ne cause pas de changement significatif dans la validité reliée au critère (variable dépendante, e.g., GPA, par opposition à la variable indépendante ou prédicteur), dans la mesure où la corrélation du g-factor score avec le GPA auto-déclaré ne change pas significativement au travers des jours 1, jours 2, et jours 3. Néanmoins, ils notent : “Given that not all applicants may have had exposure to practice, differences in observed test scores may not accurately reflect individual differences on the construct of interest (i.e., g). That is, although the indicators on the test continue to relate to g and to narrow group factors in the same way across testing occasions, the observed total test score is likely to increase due to changes on either test-specific skills (i.e., skills not shared across the various scales) or other non-cognitive constructs. Thus, applicants who re-test are essentially being given the opportunity to boost observed scores by practicing those non-ability components. In addition to questions of fairness, such differences might alter the predictive validity of the observed total test scores (Sackett et al., 1989), even though the predictive validity of g and narrow group factors would remain unchanged.” (p. 546).

Le résultat de cette étude a été commenté par Lievens et al. (2007, p. 1680) qui eux sont parvenus à une conclusion inverse, à savoir que les comparaisons test-retest indiquent des biais de mesure. Statistiquement, ils testent la soutenabilité des quatre niveaux de l’invariance de mesure, 1) invariance configurale (i.e., égalité dans le nombre des facteurs et schéma des saturations en facteur à travers les groupes), 2) invariance métrique (i.e., égalité des saturations en facteur), 3) invariance scalaire (i.e., égalité des intercepts), et 4) invariance d’unicité (i.e., égalité dans les termes d’erreur). Le rejet de l’invariance métrique suggère que le test mesure différents facteurs à travers les groupes tandis que le rejet de l’invariance scalaire suggère que les items ou sous-tests présentent une difficulté inégale à travers les groupes. Le 2ème niveau d’invariance est connu sous “weak measurement invariance”, le 3ème niveau sous “strong invariance”, et le 4ème niveau sous “strict invariance”. L’invariance de mesure est dite être respectée lorsque le troisième niveau, au minimum, est atteint (Les niveaux 1, 2 et 3 maintenus simultanément). Ce que les auteurs ont découvert néanmoins est que l’invariance métrique et l’invariance d’unicité ont été transgressées. Les accroissements de scores sont dûs aux spécificités (uniqueness) des tests, cohérent avec la théorie de Lubinski, qu’ils décrivent ainsi : “Lubinski’s (2000) suggestion that practice builds up “nonerror uniqueness” components of ability tests – factors such as method-specific knowledge [1] (aka, test-wiseness), specific item content knowledge, or narrow skills unique to the item content (e.g., memorization of numbers).” (p. 1675). La spécificité non-erratique se réfère ici au fait que la spécificité contient à la fois la variance d’erreur aléatoire et systématique non partagée avec les autres indicateurs. Leur analyse du biais prédictif supporte l’idée que les effets de pratiques n’affectent pas le facteur g, comme ils écrivent : “These results reveal that the general factor derived from the retested data (i.e., Group A2) did not predict GPA (r = .00, ns), whereas the general factor derived from the group who did not retest (Group B) did predict GPA significantly (r = .48, p < .01).” (p. 1678). Comme test additionnel (Table 5), ils corrèlent le facteur latent général avec les scores sur le test de mémoire inclus dans la batterie complète de tests cognitifs et ont dérivé un g-score indépendant basé sur les scores échelonnés de la batterie de tests restante (en conduisant une analyse en facteurs principaux et en retenant le premier facteur non orienté, qu’ils nomment la variable GCA). La corrélation entre le facteur latent général et GCA était supérieure pour les sujets testés une fois (groupe B) que pour les sujets testés deux fois (groupe A2 pour deux fois, A1 pour une fois), avec r de 0.40 versus 0.22. Aussi, la corrélation entre le facteur latent et la mémoire augmente avec la ré-administration des tests QI (de -0.03 à 0.29). De plus, le facteur latent dérivé des scores retest était corrélé plus fortement avec la mémoire (r=0.29) qu’il ne l’était avec la variable GCA (r=0.14). Cette découverte, insistent-ils, est cohérent avec Reeve & Lam (2005, pp. 542-543) qui ont trouvé qu’après chaque administration de test, la variance attribuable au facteur de mémoire court-terme augmente tandis que les facteurs g, verbaux, visuo-spatiales et quantitatifs ne varient pas. Finalement, en utilisant la méthode des vecteurs corrélés de Jensen, Lievens et al. rapportent seulement une corrélation modérée (r=0.27) entre les vecteurs des factor scores dérivés des groupes A1 et A2, séparément.

Matton et al. (2009) ont tenté de tester l’invariance de mesure, également, et ont conclu que l’invariance métrique est transgressée, mais aussi que les gains de scores peuvent être expliqués par des effets situationnels communs, dans la mesure où le modèle d’invariance dans les variations d’erreurs a été retenu. Cela signifie que les erreurs temps 1 et temps 2 sont corrélées. Ils font valoir que les études précédentes ont peut-être testé la nature des gains de QI en ce qui concerne la spécificité des tests mais pas si ces gains pourraient être attribuables à des effets situationnels, qui englobent tous les effets dûs à la spécificité de l’état de la personne dans la situation présente, et qu’ils décrivent comme suit : “Situational effects were first formalized within the SEM framework in the Latent State-Trait Theory (Steyer, Ferring, & Schmitt, 1992; Steyer, Schmitt, & Eid, 1999). This theory states that any test score measures characteristics of the person (traits), but also measures characteristics of the situation and characteristics of the interaction between person and situation. Taken together these factors create a psychological state specific to the situation to which the person is exposed. Following this theory, a test never measures trait differences only but also individual differences due to situational effects.” (p. 413). Jensen (1998, p. 312) donne l’exemple des mesures d’ombre comme illustration.

Freund & Holling (2011, pp. 238-239) ont été capables de démontrer que les gains en scores dans les matrices d’items générés par ordinateur transgressent là encore l’invariance dans les paramètres de difficulté d’items. Ils comparent quatre groupes : 1) training + identical retest, 2) training + parallel retest, 3) no training + identical retest, 4) no training + parallel retest. La distinction est importante en ce que les effets d’entrainement ou coaching, par opposition aux effets de pratiques, impliquent une intervention d’un certain type. Il est bien connu, disent-ils (p. 234), que les tailles d’effet pour les effets d’entrainement sont supérieurs aux tailles d’effet pour les effets de pratique ou retest. Les auteurs rapportent de plus hauts gains pour les groupes entraînés vs contrôle. Bien qu’ils rapportent aussi de plus hauts gains pour les formes de tests identiques vs parallèles, il est apparu néanmoins que les gains différentiels disparaissent lorsque les variations individuelles dans l’intelligence générale ont été contrôlées.

Arendasy & Sommer (2013) proposent un autre test d’invariance de mesure en utilisant MGCFA. Au niveau du score du test, ils découvrent que “the strong measurement invariance model (M3) assuming equal intercepts across test forms fitted the data significantly worse than the weak measurement invariance model (M2).” même si l’invariance stricte de mesure à travers les formes de test est soutenable au niveau de l’item. Ils testent finalement la relation entre les gains en score et la saturation en g par MCV. Cette corrélation fut de -0.29. Ils concluent que le retest provoque des biais uniformes de mesure. Les auteurs suggèrent (p. 184) que les formes identiques et alternatives de retest doivent être prises en compte du fait qu’elles peuvent influencer les résultats. Leur commentaire sur certaines des précédentes études vaut la peine d’être considéré :

In line with Reeve and Lam (2005) our results indicated strict measurement invariance within- and across test administration sessions at the item level; indicating that retest score gains are attributable to an increase in narrower cognitive abilities. Although this finding confirmed our hypothesis regarding the two alternate retest forms, we would have expected to find measurement bias at the item level in case of the identical retest forms. The finding that measurement invariance at the item level can even be assumed for identical retest forms contradicts previous research findings (cf. Freund & Holling, 2011; Lievens et al., 2007). Several design characteristics of our study may account for this seemingly conflicting finding. First, Freund and Holling (2011) never examined measurement invariance across test form in a between-subject design. Therefore their finding that retesting induces uniform measurement bias in case of identical retest forms could also be due to differences in the psychometric characteristics of the two test forms. …

The interpretation of retest effects in terms of an increase in narrower cognitive abilities has also been supported in our multigroup confirmatory factor analyses. The results indicated that weak measurement invariance can be assumed, which means that retesting does not affect the g-saturation of the four cognitive ability tests. However, retesting induced a uniform measurement bias, which indicated that retest score gains are confined to narrower cognitive abilities and do not generalize to psychometric g.

Dans l’ensemble, ces documents apportent des preuves supplémentaires de l’échec des interventions notamment éducatives (e.g., Milwaukee Project) dans la tâche de généraliser les gains de QI (Herrnstein & Murray, 1994, pp. 408-409; Jensen, 1998, pp. 340-342). Une autre étude d’intérêt (Ritchie & Bates, 2013) indique que l’éducation (avec QI à l’enfance contrôlé) est positivement associée au QI à l’âge de 79 (échantillon 1) et 70 (échantillon 2) mais qu’il n’y a pas eu d’amélioration dans la vitesse de traitement, ce qui suggère fortement l’idée que l’éducation n’améliore pas g.

Étude #1. Les détails de l’échantillon de Watkins (N=289) sont décrits dans le document. Watkins et al. (2007, Table 3) nous donnent les coefficients de stabilité/fiabilité pour chacun des tests. Je ne les ai pas utilisé pour le test de la méthode des vecteurs corrélés ci-dessous. En fait, la correction pour fiabilité n’affecte pas les corrélations si appliquée aux changements de QI et à PC2 (non-g loadings), en revanche le PC1 (g-loadings) corrigé montre des corrélations moins négatives avec les changements de QI. Maintenant, les tests utilisés sont un mélange de tests de rendement et du WISC-III. L’interval test-retest fut de 2,8 ans.

La 1ère analyse montre un scatterplot des changements de QI sur les charges en g (calculées via une analyse en composantes principales, sur les intercorrélations des tests à temps 1, fournies dans le document). Dans la seconde analyse (voir Coyle 2006), j’ai rajouté aux intercorrélations de sous-tests les gains de QI pour chaque sous-test (voir fichier EXCEL à la fin du blogpost) et reconduit une analyse en composantes principales.

Test-retest effect - no g gains (fig.1)

Test-retest effect - no g gains (table.1)

Il est clair que les changements de QI ne sont pas liés à g, et ont de fortes saturations dans les facteurs représentant les variations non liées à g (PC2 ou PC3).

Étude #2. Schellenberg (2004, 2006) donne les détails de son échantillon apparemment non aléatoire (N=144). Le groupe expérimental comprend 72 enfants, le groupe de contrôle 72 également. Chaque groupe est composé de 2 sous-groupes (keyboard et voice pour le groupe expérimental, drama et no lessons pour le groupe de contrôle) mais étant donné les échantillons modestes, j’ai choisi de ne pas diviser les groupes davantage. Le test cognitif utilisé est le WISC-III. L’interval test-retest est de 1 an, puisque le groupe d’étude a reçu des leçons de musique pour 1 an.

Test-retest effect - no g gains (fig.2)

Test-retest effect - no g gains (fig.3)

Ce qui est intéressant, comme nous voyons, est que la corrélation négative entre gains de QI et g est plus forte dans le groupe expérimental. Ce phénomène a été également constaté par Nijenhuis et al. (2007, p. 294). Il semblerait que les gains étaient plus larges sur les sous-tests moins chargés en g. Il doit cependant être précisé, néanmoins (Schellenberg, 2006, pp. 461-462), que les leçons de musique semblent être positivement associées à la performance académique même après que les différences individuelles de QI ont été maintenues contantes. Fait intéressant, malgré le fait que l’association de long terme entre leçons de musique et QI a été prouvée dans son étude (2006), il admet ceci : “In Study 2 (undergraduates), each additional year of playing music regularly was accompanied by an increase in FSIQ of one third of a point (b = .333, SE = .134), after partialing out effects of parents’ education, family income, and gender. In childhood, then, six years of lessons (assuming 8 months of lessons per year) was associated, on average, with an increase in FSIQ increase of approximately 7.5 points, which is half a standard deviation and far from trivial. But the same 6 years of playing music regularly in childhood were predictive of an increase in FSIQ of only 2 points in early adulthood. In other words, short-term associations were stronger than long-term associations, which is in line with other findings indicating that associations between cognitive functioning and environmental factors decline throughout childhood and adolescence (Plomin et al., 1997).” (p. 465).

Discussion. Une des limites de la méthode de Jensen des vecteurs corrélés consiste en ce que le faible nombre de sous-tests (e.g., 10) rend la force de corrélation et leur direction pour le moins instable. Comme démontré dans mon analyse de l’étude d’adoption de Capron & Duyme, le seul sous-test Coding avait un impact considérable sur l’absence de corrélation entre facteur g et gain de QI par l’adoption. Cela ne veut pas dire que ce sous-test se doit d’être éliminé, mais que des batteries plus larges sont nécessaires, de même que des réplications supplémentaires. Ma méta-analyse des corrélations du facteur g avec les indices d’héritabilité des tests cognitifs démontre parfaitement les difficultés de cette méthode lorsqu’elle est appliquée à un nombre insuffisant de sous-tests. Quoi qu’il en soit, voici le fichier Excel (XLS) pour les chiffres additionnels et matrices de corrélations pour les deux études analysées.

4 comments on “Gains de QI par l’effet de la pratique : Absence du facteur g

  1. yoananda says:

    Bonjour,

    une étude américaine qui vient de parraître “démontre” que la pauvreté fait baisser de 13 points le QI des gens : http://www.20minutes.fr/societe/1215629-20130829-pauvrete-nuit-capacites-mentales-selon-etude-americaine

    Le lien de causalité est bien dans ce sens : préoccupés par les besoins matériels, les pauvres ont plus de mal a se concentré sur leurs tâches, ce qui fait baisser leur QI et nuit a leur performances dans le domaine éducatif.

    Donc, être pauvre ferait baisser le QI … et non l’inverse ! (enfin il n’est rien dit sur l’inverse).

    Qu’en pensez vous en tant que spécialiste de la question ?

  2. 猛虎 says:

    Comme d’habitude, ce genre d’article ne fournit même pas le lien de l’étude. C’est d’autant plus agaçant que je n’ai rien trouvé. Je dois donc commenter en fonction de ce qui est rapporté dans l’article.

    Pour commencer, le nom de l’article est trompeur. Dans les articles en anglais correspondant, on retrouve la même erreur. Il ne s’agit pas de la pauvreté en soi qui cause la perte de QI, mais le stress lié au manque de ressource financière. Autrement dit, le stress est le vecteur de causalité supposé, et non la pauvreté. Il y a une forte nuance.
    http://health.india.com/news/poverty-can-decrease-peoples-iq-and-other-decision-making-skills/

    Ce phénomène me rappelle l’effet d’anxiété sur les tests de QI. Jensen, dans The g Factor, disait la chose suivante :

    In fact, the phenomenon of stereotype threat can be explained in terms of a more general construct, test anxiety, which has been studied since the early days of psychometrics. [111a] Test anxiety tends to lower performance levels on tests in proportion to the degree of complexity and the amount of mental effort they require of the subject. The relatively greater effect of test anxiety in the black samples, who had somewhat lower SAT scores, than the white subjects in the Stanford experiments constitutes an example of the Yerkes-Dodson law. [111b] It describes the empirically observed nonlinear relationship between three variables: (1) anxiety (or drive) level, (2) task (or test) complexity and difficulty, and (3) level of test performance. According to the Yerkes-Dodson law, the maximal test performance occurs at decreasing levels of anxiety as the perceived complexity or difficulty level of the test increases (see Figure 12.14). If, for example, two groups, A and B, have the same level of test anxiety, but group A is higher than group B in the ability measured by the test (so group B finds the test more complex and difficult than does group A), then group B would perform less well than group A. The results of the Stanford studies, therefore, can be explained in terms of the Yerkes-Dodson law, without any need to postulate a racial group difference in susceptibility to stereotype threat or even a difference in the level of test anxiety. The outcome predicted by the Yerkes-Dodson law has been empirically demonstrated in large groups of college students who were either relatively high or relatively low in measured cognitive ability; increased levels of anxiety adversely affected the intelligence test performance of low-ability students (for whom the test was frustratingly difficult) but improved the level of performance of high-ability students (who experienced less difficulty). [111c]

    This more general formulation of the stereotype threat hypothesis in terms of the Yerkes-Dodson law suggests other experiments for studying the phenomenon by experimentally manipulating the level of test difficulty and by equating the tests’ difficulty levels for the white and black groups by matching items for percent passing the item within each group. Groups of blacks and whites should also be matched on true-scores derived from g-loaded tests, since equating the groups statistically by means of linear covariance analysis (as was used in the Stanford studies) does not adequately take account of the nonlinear relationship between anxiety and test performance as a function of difficulty level.

    Comme il est évoqué, c’est le même phénomène constaté durant les tests de QI administrés à des individus naivement “manipulés” comme les noirs et les filles, sur le fait implicitement qu’ils seraient moins intelligents que les autres groupes auxquels ils sont comparés. Ce n’est pas leur compétence cognitive générale, donc g, qui est affectée, mais les compétences cognitives spécifiques, par opposition à g.

    Dans mon article, vous pouvez lire ceci :

    Lievens et al. (2007, p. 1680) qui eux sont parvenus à une conclusion inverse, à savoir que les comparaisons test-retest indiquent des biais de mesure. Statistiquement, ils testent la soutenabilité des quatre niveaux de l’invariance de mesure, 1) invariance configurale (i.e., égalité dans le nombre des facteurs et schéma des saturations en facteur à travers les groupes), 2) invariance métrique (i.e., égalité des saturations en facteur), 3) invariance scalaire (i.e., égalité des intercepts), et 4) invariance d’unicité (i.e., égalité dans les termes d’erreur). Le rejet de l’invariance métrique suggère que le test mesure différents facteurs à travers les groupes tandis que le rejet de l’invariance scalaire suggère que les items ou sous-tests présentent une difficulté inégale à travers les groupes. Le 2ème niveau d’invariance est connu sous “weak measurement invariance”, le 3ème niveau sous “strong invariance”, et le 4ème niveau sous “strict invariance”. L’invariance de mesure est dite être respectée lorsque le troisième niveau, au minimum, est atteint (Les niveaux 1, 2 et 3 maintenus simultanément). Ce que les auteurs ont découvert néanmoins est que l’invariance métrique et l’invariance d’unicité ont été transgressées.

    Je vais essayer de le transcrire de façon encore plus claire. Dites moi si vous ne comprenez pas. Alors disons donc. Vos capacités générales augmentent disons de 10% lors du passage de re-test QI. Si cette hausse était due à des facteurs générales, donc liés au facteur g (pour rappel, “g” est l’abbréviation de “général” donc facteur g signifiant facteur général de l’intelligence, ou simplement intelligence générale, par opposition à spécifique), en ce cas les capacités cognitives dites spécifiques (e.g., verbales, spatiales, raisonnement, travaille de mémoire, vitesse de traitement, etc.) doivent être augmentées de la même ampleur soit 10%. Maintenant, supposez que la hausse observée de 10% des capacités cognitives générales se traduit en vérité de la façon suivante : verbales -10%, spatiales +30%, raisonnement -10%, mémoire +40%, vitesse +0%. Ce qu’il se passe est que la forte inégalité des “gains” dans les compétences ne saurait représenter une hausse des compétences générales puisque les gains de QI ont été dûs à des hausses substantielles dans certains domaines cognitifs, mais pas d’autres, qui ont stagné voire regressé. Il y a donc absence de facteur g. Votre score observable de 10% supérieur n’est donc pas équivalent à votre score latent, ou capacités latentes (g).

    Dans ces conditions, l’invariance de mesure de 3ème niveau, càd l’invariance scalaire, soit égalité des intercepts, sera transgressée, et donc, la mesure de QI dans la phase de ‘retest’ est psychométriquement biaisé.

    Pour mieux comprendre encore, prenez le cas des examens scolaires. Supposez que vous et moi ayons le même niveau réel de compétences cognitives. Mais la semaine avant l’examen, vous avez passé disons 10 ou 15 heures de plus à réviser que moi je l’ai fait. Donc, à compétences réelles égales, tous les deux nous devrions avoir des résultats aux examens sensiblement différents, avec avantage pour vous. L’invariance de mesure sera transgressée pour deux raisons. D’abord, si vous et moi avions révisé, nous n’avons certainement pas révisé les mêmes choses avec la même intensité et investissement pour chaque domaine. J’aurais par exemple investi davantage en physique-chimie, et vous en mathématiques. Donc les gains en scores dans les compétences spécifiques seront inégales. Et deuxièmement, elles seront d’autant plus inégales encore si vous avez passé plus de temps à réviser que moi. Cela veut dire en conclusion que les scores dans les examens sont difficilement comparables de vous à moi.

    Par voie de comparaison, si le prof nous donne tous deux une interrogation surprise sur des questions (ex, innovatrices) de logique par exemple, dans l’hypothèse où ni vous ni moi-même n’étions préparés, le fait que nous ayions le même niveau de QI (approximativement) fait que nous devrions avoir la même note à l’interrogation. En ce cas, l’invariance de mesure est respectée, et il y a absence de biais psychométrique.

    La probabilité de biais psychométrique augmente à mesure que les groupes sont racialement et/ou socio-économiquement disparates. Comprenez bien que dépendant des différences culturelles soit entre races/ethnies ou entre classes sociales, les difficultés et priorités des domaines cognitifs ne sont pas placées sur la même échelle. Un groupe racial préférera se concentrer sur les maths, s’ils sont faibles, genre, les africains, ou un autre groupe racial se concentrera sur les compétences qui touchent à l’écrit, l’oral, verbal, etc., comme les asiatiques dont c’est apparemment le point faible. Donc effectivement, il y a des chances que les évaluations scolaires entre différents pays, cultures, et même entre groupes à l’intérieur d’un pays ou région, présentent des biais psychométriques dans la mesure où les tests de compétences générales ont été boostés (ou l’inverse) non pas dûs à des hausses dans les compétences générales, mais uniquement grâce à des compétences spécifiques que l’on a sans doute sur-entrainé. Ainsi, les gains de QI ou tests de rendements scolaires, ne sont pas refletés par g, mais par des compétences spécifiques à des tests particuliers.

    La preuve de ce que je dis a été confirmée tout récemment par Taht & Must (2013). Leur étude est importante, car il arrive que certains auteurs comme Rindermann ou Richard Lynn utilisent les tests scolaires comme proxy pour mesurer le QI national d’un pays et les comparer ensuite entre eux, et les corréler avec des variables socio-démographiques etc. La logique derrière cette approche est le fait que les tests de QI ne sont pas administrés à des échantillons très larges de populations pour etre parfaitement représentatifs, voir n’existent quasiment pas pour certains pays. Le problème de cette approche est que justement les tests scolaires sont biaisés quand ils sont comparés entre pays ou groupes raciaux, probablement pour les mêmes raisons que je viens d’évoquer. Donc quand Lynn nous dit que tel ou tel pays est plus intelligent qu’un autre, basé sur les tests scolaires, l’affirmation est fragilisée par le fait que les scores sont difficilement comparables. Certains groupes peut-être de certains pays ou cultures, ont vu leurs scores être boostés artificiellement et de façon inégale par l’effet de pratique, révision scolaire, ou autre artéfacts du même genre.

    Dans le cas de l’étude que vous évoquez, par conséquent, le fait est que l’individu victime de stress pourrait voir ses compétences spécifiques varier si grandement qu’elles expliquent presque totalement la perte de 13 points de QI. Si cela est vrai, alors l’effet n’affecte pas g. Il est bien possible que cela n’affecte pas g. Les nombreux tests sur l’effet de l’anxiété durant le test QI démontrent généralement que l’effet est situationnel, ou transitoire, si vous préférez. Si par exemple, vous faites passer un test QI à quelqu’un de ivre, fatigué, ou stressé, la mesure de QI sera biaisé, et donc absence d’invariance de mesure, car les réponses seront totalement aléatoires par rapport à ce qui auraient été données si ces mêmes individus ont pris le test QI quand ils étaient dans un état normal.

    Quand vous analysez des gains ou pertes de QI, il est essentiel de savoir comment les compétences spécifiques suivent parallèlement les changements dans les compétences générales. Si elles suivent parfaitement, à savoir, qu’il n’y a pas de divergence statistiquement significative, alors on conclura que le changement de QI est lié à g. Mais apparemment, les articles qui rapportent l’étude en question ne parlent même pas de ça. Il n’est donc pas clair que les changements de QI sont des changements en g. Il aurait fallu tester cette hypothèse, via des méthodes sophistiqués genre MGCFA ou modèles IRT, ou plus simples, comme une analyse en composantes principales ou factorielle, voire sinon la méthode des vecteurs corrélés de Jensen. Personnellement, je maîtrise parfaitement les deux dernières. Concernant MGCFA, je suis en train de l’apprendre sur Amos (le temps que je m’y habitue). Pour la technique IRT, je crains que ce soit impossible vu qu’elle nécessite visiblement des outils statistiques non accessibles (gratuitement) au commun des mortels.

    Maintenant, je pense malgré tout qu’il y a sans doute quelque chose de vrai dans l’étude, bien que je ne puisse pas le lire, faute de le trouver, c’est que l’augmentation du stress accroit les chances de mauvais choix économiques. Et cela aura bien sûr des conséquences considérables sur la situation dégradante de ces individus.

    La même étude aurait aussi constaté des gains de QI chez les agriculteurs indiens. 10 points visiblement. La différence est qu’ils ont été rémunérés alors qu’auparavant, ils avaient des soucis financiers. Encore une fois, il faut se demander si l’effet est dû à des spécificités liés à des tests ou non. Cette recherche me rappelle la méta-analyse de Duckworth (même si c’est encore assez différent) que j’avais commenté il y a un moment déjà.

    IQ-Motivation : réfutation de Angela Lee Duckworth

    Elle disait que la motivation fait augmenter le QI, via des primes. Si vous lisez mon commentaire, vous verrez que ce n’est pas si évident. Deuxièmement, vous pouvez imaginer la même situation pour un conducteur qui se voit payé pour faire un pari. Imaginez que je sois un fou du volant, que vous hésitez à monter dans ma voiture. Vous pariez 1000 euros que je vais avoir un couac. Cela seul suffira à diminuer les chances que ça arrive, puisque je serais motivé à remporter le pari et les 1000 euros qui vont avec. Mais ça ne veut pas dire pour autant que je suis devenu un conducteur plus prudent, et meilleur. Cet effet est juste situationnel, éphémère, transitoire.

    P.S. Au passage, votre dernier article sur l’Egypte en mousse ou je-ne-sais-quoi fait énorme débat. Les commentaires se bousculent. Nom de dieu. Impossible de tout lire. Mais il est clair que la prose de Nioutaik n’est pas des plus plaisantes. C’est dommage que la forme soit aussi moche, alors que le contenu n’est pas nécessairement inintéressant. J’ai juste un peu parcouru la réponse de Patrice Pooyard sur le forum larevelationdespyramides-leforum. Malheureusement, mes connaissances en la matière sont limitées, je peux difficilement démêler le sens du non-sens dans les arguments avancés.

  3. 猛虎 says:

    J’ajoute ceci. L’étude en question ne dit pas, apparemment, que les individus testés ont reçu des dommages considérables au cerveau. Si cela avait été le cas, il y a de fortes chances que le facteur g aurait été affecté. Puisque ce n’est visiblement pas le cas, du fait de l’absence de test sur la présence ou non du facteur g, il est difficile de tirer une conclusion.

  4. 猛虎 says:

    Cet article là me semble être le meilleur exposé de l’étude en question.
    http://www.theatlanticcities.com/jobs-and-economy/2013/08/how-poverty-taxes-brain/6716/

    Human mental bandwidth is finite. You’ve probably experienced this before (though maybe not in those terms): When you’re lost in concentration trying to solve a problem like a broken computer, you’re more likely to neglect other tasks, things like remembering to take the dog for a walk, or picking your kid up from school. This is why people who use cell phones behind the wheel actually perform worse as drivers. It’s why air traffic controllers focused on averting a mid-air collision are less likely to pay attention to other planes in the sky.

    C’est visiblement comme ça aussi que les chercheurs présentent leur étude. Si c’est le cas, comme je l’ai dit, les changements de QI sont des changements dans les compétences spécifiques, et non générales.

Leave a comment