L’Effet Flynn et gains séculaires de QI : une illusion

L’effet Flynn est un phénomène communément considéré comme étant influencé par des facteurs environnementaux, et en ce cas, une raison d’espérer la disparition du ‘Black-White IQ gap’. Cette assertion présente plusieurs problèmes. D’abord il n’y a pas de preuves que l’écart de QI entre les blancs et les noirs aurait rétréci durant les dernières décennies, ou du moins, pas sur les items/sous-tests les plus chargés en “g”. Ensuite, concernant justement le facteur général (g) de l’intelligence, l’Effet Flynn n’est pas corrélé à g, ce qui rend le concept de gains séculaires de QI pour le moins douteux. Comme noté par Rodgers (1999), de nombreuses questions concernant la nature de l’Effet Flynn sont restées insolubles, alors que bien peu de psychologues osent questionner la validité des gains séculaires, l’acceptant sans la moindre critique.

De nombreuses recherches ont d’ores et déjà montré que l’Effet Flynn et le ‘Black-White IQ gap’ sont deux phénomènes biens distinctes. Jan te Nijenhuis (2007, 2012, 2013) a démontré par exemple que l’Effet Flynn et g sont négativement corrélés. Bien entendu, la méthode des vecteurs corrélés, utilisée par Jensen, dans “The g Factor”, et qui consiste à corréler le vecteur de la charge en g des sous-tests avec le vecteur des différences raciales sur les sous-tests tout en contrôlant les différences dans la fiabilité des sous-tests, a été critiquée par Wicherts (2004, p. 511) et Ashton & Lee (2005, pp. 433-440). te Nijenhuis et al. (2007, pp. 295-296), cependant, font valoir que le défaut de la méthode des vecteurs corrélés peut être surmonté par l’étude méta-analytique, qui aurait l’avantage de contourner le manque de contenu informationnel des études indépendantes utilisant la méthode des vecteurs corrélés du fait des corrections évidentes des artéfacts biaisant autrement les résultats (e.g., corrections des erreurs d’échantillonnage, de la restriction de distribution des saturations/charges en g, de la fiabilité des vecteurs de gains séculaires et des charges en g, pour la déviation de la validité parfaite de la construction). La table 2 indique les corrélations non corrigées (r) et corrigées (p) pour les artéfacts mentionnés. Le fait que ces artéfacts expliquent 99% de la variance entre études signifie que les autres plausibles effets comme l’âge, l’intervalle test-retest, type de test, ou encore le niveau de QI des sujets/échantillons, ne jouent en vérité aucun rôle.

Score gains on g-loaded tests - No g - Table 2

The large number of data points and the very large sample size indicate that we can have confidence in the outcomes of this meta-analysis. The estimated true correlation has a value of −.95 and 81% of the variance in the observed correlations is explained by artifactual errors. However, Hunter and Schmidt (1990) state that extreme outliers should be left out of the analyses, because they are most likely the result of errors in the data. They also argue that strong outliers artificially inflate the S.D. of effect sizes and thereby reduce the amount of variance that artifacts can explain. We chose to leave out three outliers – more than 4 S.D. below the average r and more than 8 S.D. below ρ – comprising 1% of the research participants.

This resulted in no changes in the value of the true correlation, a large decrease in the S.D. of ρ with 74%, and a large increase in the amount of variance explained in the observed correlations by artifacts by 22%. So, when the three outliers are excluded, artifacts explain virtually all of the variance in the observed correlations. Finally, a correction for deviation from perfect construct validity in g took place, using a conservative value of .90. This resulted in a value of −1.06 for the final estimated true correlation between g loadings and score gains. Applying several corrections in a meta-analysis may lead to correlations that are larger than 1.00 or −1.00, as is the case here. Percentages of variance accounted for by artifacts larger than 100% are also not uncommon in psychometric meta-analysis. They also do occur in other methods of statistical estimation (see Hunter & Schmidt, 1990, pp. 411–414 for a discussion).

La méthode des vecteurs corrélés a par la suite été défendue par Rushton et al. (2007, p. 11), et Rushton & Jensen (2010a, pp. 15-16). Quoi qu’il en soit, Rushton et Jensen (2010b, p. 216) sont arrivés à la même conclusion en ce qui concerne l’Effet Flynn. La dépression de consanguinité, un effet purement génétique, corrèle positivement avec les différences de QI constatées entre les noirs et les blancs, mais pas significativement avec les gains séculaires de QI, comme indiqué dans la Table 1 (première ligne). On peut noter que les charges en g corrèlent positivement avec les différences entre les noirs et les blancs et négativement avec les gains séculaires, comme indiqué dans la Table 1 (troisième ligne). En outre, l’analyse en composantes principales, à partir de la matrice corrélationnelle utilisée par Rushton (1999, Table 2), indique que les gains séculaires forment un groupe bien distinct des différences de QI entre les noirs et les blancs.

The rise and fall of the Flynn Effect as a reason to expect a narrowing of the Black-White IQ gap - Table 1

Rushton (1999) also conducted a principal components analysis of the partialed correlation matrix and extracted two significant components with eigenvalues > 1. Table 2 presents these in both unrotated and varimax rotated forms. The relevant findings are: (1) the IQ gains on the WISC-R and WISC-III form a cluster, showing that the secular trend in overall scores is a reliable phenomenon; but (2) this cluster is independent of the cluster formed by Black–White differences, inbreeding depression scores (a purely genetic effect), and g factor loadings (a largely genetic effect). This analysis shows that the secular increase in IQ and the mean Black–White differences in IQ behave in entirely different ways. The secular increase is unrelated to g and other heritable measures, while the magnitude of the Black–White difference is related to heritable g and inbreeding depression.

The rise and fall of the Flynn Effect as a reason to expect a narrowing of the Black-White IQ gap - Table 2

Les saturations de l’effet Flynn sont les plus fortes sur la composante première, PC1, mais les différences raciales et les charges en g ont les plus fortes saturations sur PC2. Ce résultat indique l’indépendance de ces deux phénomènes. Flynn (2000) avait répondu à Rushton en indiquant que l’intelligence fluide, comme étant une meilleure représentation de g, montrait des gains séculaires, alors même que les charges en g sur le Wechsler était biaisés en faveur d’un g crystallisé. Flynn a corrélé les sous-tests du Wechsler avec les matrices de Raven, leurs corrélations pouvant être considérées comme étant une saturation en g fluide. Mais curieusement, les chiffres de Flynn ne montrent aucune corrélation entre son g fluide et le g crystallisé de Rushton. Jensen (1998, pp. 90, 120) et Rijsdijk (2002, Table 2) ont indiqué que le Raven corrélait davantage avec les tests crystallisés qu’avec les tests fluides du Wechsler, ce qui signifie que l’ordre de classement (rank-ordering) dans les sous-tests du Wechsler entre g fluide et g crystallisé doit être similaire, soit le contraire de ce que les chiffres de Flynn tendent à indiquer. Autrement dit, le g fluide du Wechsler ne doit pas corréler avec les gains séculaires. Must (2003) avait ajouté que la distinction entre g fluide et g crystallisé n’avait pas lieu d’être puisque même le test de l’ASVAB pourtant biaisé en faveur d’un g crystallisé produit un facteur g qui corrèle fortement avec les temps de réaction, une mesure prototypique de l’intelligence fluide.

L’absence de lien entre gains séculaires et g a reçu un appui supplémentaire de Must et al. (2003, pp. 462, 468) et Gottfredson (2007, 2008, p. 560). Maintenant, le fait que l’Effet Flynn soit non corrélé à g indique également que l’Effet Flynn ne peut pas être causé, même partiellement, par l’effet d’hétérosis (Woodley, 2011). L’hétérosis, bien qu’étant un effet purement génétique, est l’opposé de la dépression de consanguinité, qui est pourtant corrélée positivement à g et inversement aux gains séculaires. Cela suggère qu’il n’y a pas de lien entre gains séculaires et effets génétiques.

D’autres chercheurs, ont étudié la loi des rendements décroissants de Spearman. Il a été rapportée que l’effet Flynn est le produit d’une hausse des capacités spécifiques, et non générales (g). Kane (2000, p. 565; & Oakland, 2000, p. 343) ont découvert que la moyenne des intercorrélations des sous-tests (‘positive manifold’) ont diminué avec le temps, ce qui le conduisit à conclure qu’une plus faible intercorrélation pourrait ne pas refléter une diminution de l’importance de g au fil du temps mais au contraire une amélioration des capacités cognitives spécifiques primaires, comme une explication possible (p. 565, pour une discussion approfondie). Une conclusion similaire a été énoncée par Lynn & Cooper (19931994). Juan-Espinosa (2006), pour sa part, énonce l’explication suivante :

The indifferentiation hypothesis has relevant practical implications. First of all, it can be assumed that Wechsler batteries are measuring the same g factor across all age groups. This being true, social correlates of the Wechsler’s scales as the prediction of the educational achievement or the likelihood of being out from the school (e.g., Neisser, Boodoo, Bouchard, Boykin, Brody, Ceci, Halpern, Loehlin, Perloff, Sternberg and Urbina, 1996) would be mostly due to the g factor (Jensen, 1998). However, the same cannot be said of the comparison across cohorts. The youngest cohorts depend more on non-g factors to achieve a higher performance level.

L’idée de la spécialisation et différentiation des capacités est très cohérente avec la théorie dite ‘cognitive differentiation-integration effort’ (CD-IE) de Michael Woodley (2011a, 2011b). L’idée serait que les individus à faible QI sont plus dépendants de g que ne le sont les individus à fort QI qui, eux, peuvent dépendre d’une vaste gamme de capacités. Voici, en bref, comment Woodley décrit son modèle :

The tradeoff concerns two hypothetical types of effort – cognitive integration effort (CIE), associated with a strengthening of the manifold via the equal investment of bioenergetic resources (such as time, calories and cognitive real estate) into diverse abilities, and cognitive differentiation effort (CDE), associated with a weakening of the manifold via the unequal investment of resources into individual abilities.

Certains chercheurs pensent que la nutrition/éducation, entre autres choses, pourrait être un facteur prédominant derrière l’Effet Flynn, mais Woodley (2011a) nous dit que tout facteur permettant l’amélioration de la santé, nutrition, l’éducation, l’environnement, et la réduction de la mortalité et des maladies, devrait permettre le développement des capacités différentiées, et conséquemment aux gains illusoires derrière l’Effet Flynn. Quatre succès du test de l’effet CD-IE (Woodley et al., 2013) montre que celui-ci se partage avec l’Effet Flynn les mêmes propriétés psychométriques, à savoir l’absence du Jensen Effect (i.e., saturation en g). Woodley and Madison (2013), en utilisant les données de Must et al. (2009) sur l’Estonie, montrent que les gains séculaires et les changements dans les saturations en g (Δg) montre de robustes corrélations négatives.

En utilisant des techniques bien différentes, d’autres chercheurs (Wicherts et al., 2004, pp. 529-532) découvrent également que les différences de QI constatées entre différentes cohortes ne sont absolument pas comparables, autrement dit, que ces différences ne dérivent pas d’un facteur commun. Ou pour dire autrement, ces différences ne sont pas liées à g. À l’aide de la méthode MGCFA, Wicherts et al. ont examiné une série d’étude pour en arriver à la conclusion que les gains séculaires ne sont pas mesure équivalent (i.e., “measurement invariant”). Un score observé n’est pas considéré mesure invariant dès l’instant où deux groupes de personnes ayant pourtant les mêmes capacités latentes (e.g., les facteurs d’ordre-premier (Jensen, 1998, p. 79) dérivées des analyses factorielles confirmatoires, du genre, capacités verbales ou capacités arithmétiques; voir Wicherts & Dolan, 2010, Figure 3) ont différentes probabilités d’atteindre le même score sur le test, ou item. Nous constaterons des différences systématiques sur les items/sous-tests biaisés. Le biais de mesure est alors détecté, ce qui veut dire que le score observé dépend, du moins en partie, au groupe auquel on appartient (cohorte, ethnicité, genre…).

La méthode MGCFA consiste à contraindre (maintenir constant) des paramètres, les ajoutant l’un après l’autre, l’un par dessus le précédent, comme dans les modèles à régression multiple où l’on ajoute des variables (à contrôler) les unes par dessus les autres. Les modèles MGCFA par ordre. 1) L’invariance configurale, qui implique une similarité des groupes pour la structure des facteurs latents (i.e., même nombre) et le modèle des paramètres (i.e., saturations) fixes et libres (i.e., zéro et non zéro). 2) L’invariance des saturations sur le facteur, qui implique une similarité des groupes sur les corrélations des sous-tests avec le facteur auquel ils appartiennent tandis que 1) est maintenu constant. 3) L’invariance des intercepts de mesure, qui implique une similarité des différences de moyennes (i.e., sur les scores), tandis que 1) et 2) sont maintenus constant, équivalent, entre groupes. Cela signifie que le modèle 3, celui des intercepts, étudie la question des différences de moyennes (sur les scores de tests) entre groupes sachant que la similarité des structure des facteurs latents et de la saturation des tests sur ces facteurs latent est déjà respectée. La transgression du modèle 1 indiquerait que les tests ne reflètent pas le même construit pour chaque groupe, la transgression du modèle 2 indiquerait que l’influence (saturation) des scores de sous-tests sur le(s) facteur(s) latent(s) n’est pas identique entre groupes, la transgression du modèle 3 indiquerait que les saturations des sous-tests ne sont pas colinéaires avec les différences de moyennes aux scores entre groupes. L’absence de biais de mesure est établie lorsque la similarité entre groupes (pour les 3 modèles simultanément) est démontrée.

Mais alors qu’il a été prouvé que les différences d’intelligence entre les noirs et les blancs ne proviennent pas d’un biais de mesure (Dolan, 2000; Dolan & Hamaker, 2001; Lubke et al., 2003), il a été trouvé que l’Effet Flynn dérive d’un biais de mesure.

Pour mieux comprendre ce qu’implique la violation de l’invariance factorielle que Wicherts essaie de tester, il est utile citer la discussion de Mingroni (2007, p. 812) quant au biais de mesure.

For example, Wicherts (personal communication, May 15, 2006) cited the case of a specific vocabulary test item, terminate, which became much easier over time relative to other items, causing measurement invariance to be less tenable between cohorts. The likely reason for this was that a popular movie, The Terminator, came out between the times when the two cohorts took the test. Because exposure to popular movie titles represents an aspect of the environment that should have a large nonshared component, one would expect that gains caused by this type of effect should show up within families. Although it might be difficult to find a data set suitable for the purpose, it would be interesting to try to identify specific test items that display Flynn effects within families. Such changes cannot be due to genetic factors like heterosis, and so a heterosis hypothesis would initially predict that measurement invariance should become more tenable after removal of items that display within-family trends. One could also look for items in which the heritability markedly increases or decreases over time. In the particular case cited above, one would also expect a breakdown in the heritability of the test item, as evidenced, for example, by a change in the probability of an individual answering correctly given his or her parents’ responses.

Comme on peut le voir, les vieilles cohortes qui n’ont pas connu le film Terminator, ou tout autre phénomène populaire, se retrouvent désavantagées sur certains sous-tests par rapport aux jeunes cohortes dont les nouvelles influences culturelles ont rendu plus faciles certains sous-tests pour les cohortes ayant été exposées à ces influences. En définitive, le test de l’invariance factorielle peut être aussi considéré comme un test de biais culturel. Si la stricte invariance factorielle est transgressée, le biais de mesure rend difficile la comparaison entre les jeunes et les vieilles cohortes. Wicherts et al. (2004) résument brièvement :

Conversely, if factorial invariance is untenable, the between-group differences cannot be interpreted in terms of differences in the latent factors supposed to underlie the scores within a group or cohort. This implies that the intelligence test does not measure the same constructs in the two cohorts, or stated otherwise, that the test is biased with respect to cohort. If factorial invariance is not tenable, this does not necessarily mean that all the constituent IQ subtests are biased.

Une différence dans les ‘intercepts’ signifierait que dans le cas de deux personnes aux capacités latentes identiques, la saturation d’un (ou plusieurs) sous-test(s) sur ce facteur latent n’est pas lié proportionnellement aux différences standardisées sur ce(s) sous-test(s) (Wicherts & Dolan, 2010, Figure 3). Concrètement, si les modèles à égalité de contraintes sur les intercepts de mesure indiquent un pauvre ou faible ajustement, la conclusion en serait que les différences dans les scores observés ne reflètent pas fidèlement les différences dans les scores latents. Les modèles 4a et 4b, figure ci-dessous, représentent la stricte invariance factorielle et la forte invariance factorielle, respectivement.

The results of the MGCFAs indicated that the present intelligence tests are not factorially invariant with respect to cohort. This implies that the gains in intelligence test scores are not simply manifestations of increases in the constructs that the tests purport to measure (i.e., the common factors). Generally, we found that the introduction of equal intercept terms (N1=N2; Models 4a and 4b; see Table 1) resulted in appreciable decreases in goodness of fit. This is interpreted to mean that the intelligence tests display uniform measurement bias (e.g., Mellenbergh, 1989) with respect to cohort. The content of the subtests, which display uniform bias, differs from test to test. On most biased subtests, the scores in the recent cohort exceeded those expected on basis of the common factor means. This means that increases on these subtests were too large to be accounted for by common factor gains. This applies to the Similarities and Comprehension subtests of the WAIS, the Geometric Figures Test of the BPP, and the Learning Names subtest of the RAKIT. However, some subtests showed bias in the opposite direction, with lower scores in the second cohorts than would be expected from common factor means. This applies to the DAT subtests Arithmetic and Vocabulary, the Discs subtest of the RAKIT, and several subtests of the Estonian NIT. Although some of these subtests rely heavily on learned content (e.g., Information subtest), the Discs subtest does not.

Once we accommodated the biased subtests, we found that in four of the five studies, the partial factorial invariance models fitted reasonably well. The common factors mean that the differences between cohorts in these four analyses were quite diverse. In the WAIS, all common factors displayed an increase in mean. In the RAKIT, it was the nonverbal factor that showed gain. In the DAT, the verbal common factor displayed the greatest gain. However, the verbal factor of the RAKIT and the abstract factor of the DAT showed no clear gains. In the BPP, the single common factor, which presumably would be called a (possibly poor) measure of g, showed some gain. Also in the second-order factor model fit to the WAIS, the second-order factor (again, presumably a measure of g) showed gains. However, in this model, results indicated that the first-order perceptual organization factor also contributed to the mean differences. …

Generally speaking, there are a number of psychometric tools that may be used to distinguish true latent differences from bias. It is notable that with the exception of Flieller (1988), little effort has been spent to establish measurement invariance (or bias) using appropriate statistical modeling. The issue whether the Flynn effect is caused by measurement artifacts (e.g., Brand, 1987; Rodgers, 1998) or by cultural bias (e.g., Greenfield, 1998) may be addressed using methods that can detect measurement bias and with which it is possible to test specific hypothesis from a modeling perspective. Consider the famous Brand hypothesis (Brand, 1987; Brand et al., 1989) that test-taking strategies have affected scores on intelligence tests. Suppose that participants nowadays more readily resort to guessing than participants in earlier times did, and that this strategy results in higher scores on multiple-choice tests. A three-parameter logistic model that describes item responses is perfectly capable of investigating this hypothesis because this model has a guessing parameter (i.e., lower asymptote in the item response function) that is meant to accommodate guessing. Changes in this guessing parameter due to evolving test-taking strategies would lead to the rejection of measurement invariance between cohorts. Currently available statistical modeling is perfectly capable of testing such hypotheses.

… Here, we use results from Dolan (2000) and Dolan and Hamaker (2001), who investigated the nature of racial differences on the WISC-R and the K-ABC scales. We standardized the AIC values of Models 1 to 4a within each of the seven data sets to compare the results of the tests of factorial invariance on the Flynn effects and the racial groups. These standardized AIC values are reported in Fig. 2.

Are intelligence tests measurement invariant over time - Investigating the nature of the Flynn effect - Figure 2

As can be seen, the relative AIC values of the five Flynn comparisons show a strikingly similar pattern. In these cohort comparisons, Models 1 and 2 have approximately similar standardized AICs, which indicates that the equality of factor loadings is generally tenable. A small increase is seen in the third step, which indicates that residual variances are not always equal over cohorts. However, a large increase in AICs is seen in the step to Model 4a, the model in which measurement intercepts are cohort invariant (i.e., the strict factorial invariance model). The two lines representing the standardized AICs from both B–W studies clearly do not fit this pattern. More importantly, in both B–W studies, it is concluded that the measurement invariance between Blacks and Whites is tenable because the lowest AIC values are found with the factorial invariance models (Dolan, 2000; Dolan & Hamaker, 2001). This clearly contrasts with our current findings on the Flynn effect. It appears therefore that the nature of the Flynn effect is qualitatively different from the nature of B–W differences in the United States. Each comparison of groups should be investigated separately. IQ gaps between cohorts do not teach us anything about IQ gaps between contemporary groups, except that each IQ gap should not be confused with real (i.e., latent) differences in intelligence. Only after a proper analysis of measurement invariance of these IQ gaps is conducted can anything be concluded concerning true differences between groups.

Whereas implications of the Flynn effect for B–W differences appear small, the implications for intelligence testing, in general, are large. That is, the Flynn effect implies that test norms become obsolete quite quickly (Flynn, 1987). More importantly, however, the rejection of factorial invariance within a time period of only a decade implies that even subtest score interpretations become obsolete. Differential gains resulting in measurement bias, for example, imply that an overall test score (i.e., IQ) changes in composition.

Si l’on se servait de l’Effet Flynn pour expliquer la réduction du QI entre les noirs et les blancs (qui n’a pas eu lieu), cette idée ne cadre pas avec les données longitudinales (CNLSY79) sur une période de 14 ans démontrant que les gains séculaires sont identiques quelque soit le groupe raciale (Ang et al., 2010). Ceci, encore, est cohérent avec le fait que les gains ne sont pas chargé en g et transgressent l’équivalence de mesure contrairement aux différences raciales elles-mêmes.

Quoi qu’il en soit, la conclusion que l’Effet Flynn transgresse l’invariance de mesure a également été confirmée par Must et al. (2009), avec l’usage de la même technique. La comparabilité des facteurs g entre trois cohortes (1933/36, 1997/98, et 2006) a été testée en Estonie. Les étudiants estoniens ayant la même capacité latente (g) montraient des résultats différents sur les scores observés des sous-tests. Leur discussion sur la relation entre les gains séculaires de QI et g vaut la peine d’être citée en entier :

Six NIT subtests have clearly different meaning in different periods. The fact that the subtest Information (B2) has got more difficult may signal the transition from a rural to an urban society. Agriculture, rural life, historical events and technical problems were common in the 1930s, such as items about the breed of cows or possibilities of using spiral springs, whereas at the beginning of the 21st century students have little systematic knowledge of pre-industrial society. The fact that tasks of finding synonyms–antonyms to words (A4) is easier in 2006 than in the 1930s may result from the fact that the modern mind sees new choices and alternatives in language and verbal expression. More clearly the influence of language changes was revealed in several problems related to fulfilling subtest A4 (Synonyms–Antonyms). In several cases contemporary people see more than one correct answer concerning content and similarities or differences between concepts. It is important that in his monograph Tork (1940) did not mention any problems with understanding the items. It seems that language and word connotations have changed over time.

The sharp improvement in employing symbol–number correspondence (A5) and symbol comparisons (B5) may signal the coming of the computer game era. The worse results in manual calculation (B1) may be the reflection of calculators coming in everyday use.

Le modèle à intercept égal (i.e., une valeur moyenne attendue équivalente) révélant un plus mauvais ajustement du modèle, cela est interprété pour signifier que des niveaux identiques en scores latents résulteront néanmoins en des scores observés (sur les sous-tests) différents. Le résultat des tests est détaillé comme suit :

Clearly the g models of 1933/36 and 2006 differ by regression intercepts (Table 7). In all three comparisons the subtests A5 (Symbol–Number) and B5 (Comparisons) have different intercepts. In two comparisons from three subtests A1 (Arithmetic), B1 (Computation), B2 (Information), and B3 (Vocabulary) regression intercepts were not invariant. It is evident that in 2006 the subtest A5 and B5 do not have the same meaning they had in 1933/36. The comparison of the cohorts on the bases of those subtests will give “hollow” results. The conclusions about gains based on the subtest A1, B1, B2, and B3 should also be made with caution.

In the initial stage (model 4), models testing the equality of intercepts yielded bad fit estimations. Table 7 shows, for instance, that comparing data from 1933/36 and 2006 using data from older children yielded values of RMSEA=.129, and CFI=.865. Thus, it can be concluded, that when comparing the data from 1933/36 and 2006 there are some minimal differences in factor loadings, but the main and significant differences are in regression intercepts. This means, first of all, that students at the same level of general mental ability (g) from different cohorts have different manifest test scores: g has different impact on the performance of students in different subtests in different cohorts making some subtests clearly easier for later cohorts.

Et d’où ils concluent : “With lack of invariance of the g factor, overall statements about Flynn Effects on general intelligence are unjustified”. En outre, leur Table 4 montre un fort déclin des intercorrélations moyennes des sous-tests du NIT mais également de la saturation moyenne sur le facteur g entre les cohortes 1933 et 1997 (ou 2006). Cela suggère un déclin du rôle de g dans les gains séculaires, même si les scores IRT montrent des gains séculaires très significatifs (Shiu & Beaujean, 2013, Table 3).

Par la suite, Must (2013, pp. 7-9) démontre qu’en Estonie les changements dans la stratégie dans la prise des tests QI étaient impliqués dans les gains séculaires. Le déclin des réponses manquantes était accompagné par une hausse des mauvaises et bonnes réponses. Cela démontre que la stratégie qui consiste à deviner la bonne réponse prenait un rôle de plus en plus important au fil du temps dans la complétion des tests.

In the period 1933/36-2006 mean subtest results of comparable age-cohorts have changed (Table 2). There is a general pattern that the frequency of missing answers in NIT subtests is diminished (approximately 1 d), with the exception of the subtest B1 (Computation), where the rise in missing answers was 0.36 d. The rise of right answers is evident in most of the subtests (7 from 9). The mean rise of right answers per subtest is about .86 d. The frequency of wrong answers rose as well. The mean rise effect of wrong answers (.30 d) is smaller than the mean rise in right answers, but it is also evident in 7 of the 9 subtests. In the FE framework it is important to note that the diminishing number of missing answers is offset by, not only right answers, but wrong answers as well.

Over time the general relationship between right, wrong and missing answers has changed.

One of the clearest findings in both cohorts is that instead of right answer there are missing answers. This correlation between the number of correct answers and missing answers was more apparent in 1933/36 (r = -.959, p < .001) than in 2006 (r = -.872, p < .001). In 1933/36 the number of wrong answers did not correlate with the number of right answers (r = -.005), but in 2006 the frequency of wrong answers moderately indicates a low number of right answers (r = -.367, p < .001). In both cohorts the number of missing answers is negatively correlated with wrong answers, but the relationship is stronger in the 2006 cohort (r = -.277, p < .001; in 1933/36 r = -.086, p = .01). The cohort differences between the above presented correlations across cohorts are statistically significant.

Aussi, Must (2013, Figure 1) a démontré qu’après ajustement des mauvaises réponses, l’effet de taille (effect size) est réduit parmi les sous-tests, bien qu’à des degrés différents. La Table 4 montre les changements dans la probabilité de donner une mauvaise, bonne réponse, ou manquante, au niveau des items. Les changements dans la structure des réponses sont mis en évidence (Table 5) par la corrélation entre les mauvaises réponses et l’ordre des items (i.e., la probabilité de donner une mauvaise réponse vers la fin du sous-test).  Cette relation est peu claire pour la cohorte 1933/36 (rho moyen = 0.086) tandis qu’elle était positive pour la cohorte 2006 (rho moyen = 0.426). Comme Must l’a indiqué : “The 2006 cohort tried to solve more items, but in a more haphazard way than did the cohort of 1933/36. The main difference between cohorts is the test-taking speed. But speed has its price – the more items that students tried to solve, the higher the probability of answering incorrectly as well (Table 5)”. Dans la mesure où les sous-tests sont organisés selon un ordre de difficulté croissant, la tentative de résoudre plus d’items produira plus d’erreurs, “especially so if the items required attention and thought or the test-takers are hurrying towards the end of test”. Tout ceci indique une fois de plus que les changements de QI impliquaient des spécificités liées à l’administration ou la prise des tests.

Ce scepticisme quant à l’interprétation de l’Effet Flynn est également partagé par Kaufman (2010a, p. 394; voir aussi, Flynn, 2010b, pp. 413-425, et Kaufman, 2010b, pp. 498-502), qui questionne lui aussi la comparabilité des scores observés entre différentes cohortes. Selon lui, le principal problème vient du fait de l’administration des tests QI encourageant les sujets à répondre plutôt qu’à laisser des items (questions) sans réponse, ce qui a pour effet d’inflater les scores. Et c’est sans compter le fait qu’aujourd’hui, les figures proposées par des tests de QI comme le Raven sont exposées à peu près partout de nos jours, alors qu’autrefois, les gens étaient très peu familiers avec ce genre de figures, soit exactement le problème souligné par Rushton et Jensen (2010b), “Although the secular gains are on g-loaded tests (such as the Wechsler), they are negatively correlated with the most g-loaded components of those tests. Tests lose their g loadedness over time as the result of training, retesting, and familiarity (te Nijenhuis et al., 2007).” (p. 218). Selon les propres mots de Kaufman (2010a) :

The item type used in Similarities resembles the age-old questions that teachers have asked children in schools for generations. In contrast, matrices-type items were totally unknown to children or adults of yesteryear and remained pretty atypical for years. Over time, however, this item type has become more familiar to people around the world, especially as tests of this sort have been increasingly used for nonbiased assessment, including for the identification of gifted individuals from ethnic minorities. And, because Raven’s tests can be administered by nonpsychologists, these items tend to be more accessible to the public than are items on Wechsler’s scales, which are closely guarded because of the clinical training that is a requisite for qualified examiners. But go to any major bookstore chain, or visit popular websites, and you can easily find entire puzzle books or pages of abstract matrix analogies.

It is, therefore, difficult to evaluate gains on matrices tasks without correcting these gains for time-of-measurement effects. The power of this “time lag” variable was demonstrated by Owens in his groundbreaking longitudinal study of aging and intelligence. Owens (1953) administered the Army Alpha test in 1950 to 127 men, age 50, who had been administered the same test in 1919 at age 19, when they were freshmen at Iowa State University (initial N = 363). The study continued in 1961 when 96 of these men were tested again, at age 61 (Owens, 1966).

The 96 men tested three times improved in verbal ability between ages 19 and 50 followed by a slight decline from age 50 to 61. On nonverbal reasoning ability, they displayed small increments from one test to the next. However, Owens had the insight to also test a random sample of 19-year-old Iowa State freshmen on the Army Alpha in 1961 to 1962 to permit a time-lag comparison. He was able to use the data from the 19-year-olds to estimate the impact of cultural change on the obtained test scores. When Owens corrected the data for cultural change, the Verbal scores continued to show gains between ages 19 and 61; but what had appeared to be small increments in Reasoning were actually steady decreases in performance.

The time-lag correction may reflect real differences in mental ability (i.e., FE) as well as changes in test-taking ability and familiarity with a particular kind of task. The mere fact of large gains on a test such as Raven’s matrices over several generations, in and of itself, cannot be interpreted unequivocally as an increase in abstract reasoning ability without proper experimental controls. When Flynn has interpreted gain scores for groups of individuals tested generations apart on the identical Raven’s matrices items (e.g., Flynn, 1999, 2009a), he has not controlled for time-of-measurement effects.

Et dans sa réponse à Flynn, Kaufman (2010b) note le même phénomène suggéré par te Nijenhuis, à savoir, la familiarité des tests de QI comme le Raven ayant conduit à une hausse artificielle des QIs. Il est effectif que la modernisation des sociétés s’est accompagnée d’une révolution dans les expériences visuelles, notamment médias visuels, qui explique la familiarité avec le type de contenu des tests Raven :

I am not talking about practice effects, the kind of IQ gains that occur over an interval of weeks or months simply because of the experience of having taken the same test before. Rather, I am talking about a cohort effect, one that affects virtually everyone who is growing up during a specific era. In the 1930s, matrices tests were largely unknown and children or adults who would have been administered such tests would have found them wholly unfamiliar. A whole society would have performed relatively poorly on such test items because of their unusualness. By the 1950s, such tests would have been known by some, not many, and by the 1990s and 2000s, matrices tests and similar item styles proliferate and are accessible to everyone. Therefore, it is feasible that people would score higher on a Raven test from one generation to the next simply because the construct measured by the test would have been a bit different from one decade to the next. Such time-of-measurement or time lag cohort effects exert powerful influences in cross-sectional and longitudinal studies of IQ and aging (Kaufman, 2001b; Owens, 1966) and must be controlled when evaluating true changes in ability between early adulthood and old age.

These time lag effects include both instrumentation and real FE gains in IQ. It is the instrumentation aspect of cohort effects that needs to be controlled in FE studies to determine which aspect of the gain is “real” and which aspect concerns the familiarity of the test.

Le problème lié à cet artéfact est mieux compris si l’on tient compte des remarques de Jensen (1998) qui mentionne : “These tendencies increase the chances that one or two multiple-choice items, on average, could be gotten “right” more or less by sheer luck. Just one additional “right” answer on the Raven adds nearly three IQ points” (p. 323). En général, le fait que les gains sur le Raven transgressent l’équivalence (ou invariance) de mesure ne permet en aucun cas de conclure que le QI a réellement augmenté sur le test Raven, comme indiqué par Fox & Mitchum (2012). En somme, le “DIF” (ou biais de mesure) pointe vers la direction d’une sur-estimation des scores pour les cohortes plus récentes. À score brut égal, les vieilles cohortes seraient capables d’inférer un plus grand nombre de règles. Une brève description de ce qu’est une règle est illustrée ci-dessous :

Raven's Advanced Progressive Matrices

The correct answer is 5. The variations of the entries in the rows and columns of this problem can be explained by 3 rules.

1. Each row contains 3 shapes (triangle, square, diamond).
2. Each row has 3 bars (black, striped, clear).
3. The orientation of each bar is the same within a row, but varies from row to row (vertical, horizontal, diagonal).

From these 3 rules, the answer can be inferred (5).

Puisque 3 règles préexistent, la réponse correcte doit contenir ici 3 objets corrects. Les auteurs classifient les catégories de réponse comme suit : 1 pour aucun objet correct, 2 pour un objet correct, 3 pour deux objets corrects, 4 pour trois objets corrects. Nous voyons dans leur Figure 10, qu’à n’importe quel niveau donné des scores sur le Raven, les sujets ayant les catégories de réponses les plus élevées sont plus susceptibles d’appartenir à une cohorte plus vieille. Puisque la complexité du Raven est une fonction des règles et types de règles (Carpenter et al., 1990; Primi, 2001), les items plus complexes impliquant plus de règles et plus de règles complexes, il peut être inféré que l’effet apparemment environnemental de l’Effet Flynn n’est pas saturé en facteur g, là encore. Un autre problème de taille concernant l’argument avancé qui veut que l’intelligence manifeste ait réellement connu des gains séculaires sous prétexte que le Raven (test purement fluide) soit plus affecté que d’autres tests conventionnels plus crystallisés est le fait que les tests Piaget, connus aussi pour être libre de contenu culturel à l’instar du Raven, montrent au contraire de forts déclins séculaires (Shayer et al., 2007). Même les gains incroyables sur le Raven ne sont pas observés partout. Par exemple, ces gains étaient totalement absents en Australie entre 1975 et 2003 (Williams, 2013, pp. 2-3). De même, les tendances au Brésil de 180 à 2000 ne démontrent aucune hausse sur le Raven (Bandeira et al., 2012).

Faisant écho aux précédentes recherches, Kanaya & Ceci (2010, Table 3) ont examiné l’Effet Flynn sur les sous-tests du WISC-R (ancienne norme) et WISC-III (nouvelle norme, supposée être plus difficile) dans un échantillon longitudinal de plus de 2500 enfants d’âge scolaire, testés entre 1974 et 2002. Le groupe testé deux fois sur WISC-III, comparé au groupe testé deux fois sur WISC-R, ne montre pas différence significative lorsque les covariables telles que l’âge, le QI initial et l’effet de pratique (i.e., temps écoulé entre deux tests) ont été contrôlées. En revanche, le groupe testé sur le WISC-R et retesté sur le WISC-III ont montré des déclins significatifs de QI. Les auteurs concluent que tout ceci suggère l’absence d’un changement de QI ou d’un effet de pratique.

Ceci, encore une fois, illustre le fait que les scores entre cohortes ne sont pas comparables entre eux du fait des changements dans les propriétés psychométriques des tests. Cette incomparabilité des scores a également été confirmée par Beaujean et Osterlind (2008) qui ont testé l’invariance de mesure, concernant l’Effet Flynn, en s’appuyant sur le modèle de l’Item Response Theory (IRT) pour spécifier comment les capacités latentes individuelles et les propriétés de l’item (a : difficulté, b : discrimination, c : deviner la correction) sont reliées à la façon dont un sujet répond à cet item, ou ensemble d’items, du test QI. Cette question est d’une importance cruciale car tout le problème est de savoir si l’Effet Flynn est causé par une amélioration des capacités cognitives, d’un déclin systémique du niveau de difficulté des items, ou d’une interaction de ces possibilités. Pour le savoir, ils en viennent à examiner si le fonctionnement différentiel des items (“differential item functioning”, ou DIF) se produit ou non. Le DIF survient lorsque les paramètres d’items diffèrent en fonction des groupes (ex, races, âge, temps…) ce qui implique que l’invariance est transgressée, et ce pourquoi “if intelligence is actually rising, then the individuals who took the test at different time points can be placed on the same underlying θ (ability) distribution, which makes ability comparisons especially easy, as one can determine how many standard deviations one group’s (average) cognitive ability is from another’s”. Les auteurs expliquent en ces termes :

Perhaps a more concrete example would be useful. In large-scale educational assessments, it is common to put scores from different grades on the same scale (i.e., θ) to make comparisons easier. However, it would not be prudent to, say, give 5th graders and 3rd graders the same items; difficult items for 5th graders would not discriminate well for 3rd graders, and easy items for 3rd graders would not discriminate well for 5th graders. However, if there is a sufficient number of common items between the two tests that do not exhibit DIF, the two tests can be placed onto the same θ scale, which allows for a direct comparison between 5th grade and 3rd grade scores. The items that were not used for equating, however, are still useful as they can help determine θ within a grade.

In studying the FE, the same concept applies. As long as there is a sufficient number of items not exhibiting DIF across the groups, the underlying θ for both groups can be placed on the same scale.

L’IRT était aussi connu sous l’appellation Item Characteristic Curve, ou ICC. Jensen (1980, p 443 et suivantes) donne la description suivante : “If the test scores measure a single ability throughout their full range, and if every item in the test measures this same ability, then we should expect that the probability of passing any single item in the test will be a simple increasing monotonic function of ability, as indicated by the total raw score on the test.” (p. 442). Si les paramètres a, b et c sont mesure invariant, le biais de mesure n’est alors pas détecté, et les scores ainsi comparables. Jensen explique le concept comme suit :

Hence, a reasonable statistical criterion for detecting a biased item is to test the null hypothesis of no difference between the ICCs of the major and minor groups. In test construction, the items that show a significant group difference in ICCs should be eliminated and new ICCs plotted for all the remaining items, based on the total raw scores after the biased items have been eliminated. The procedure can be reiterated until all the biased items have been eliminated. The essential rationale of this ICC criterion of item bias is that any persons showing the same ability as measured by the whole test should have the same probability of passing any given item that measures that ability, regardless of the person’s race, social class, sex, or any other background characteristics. In other words, the same proportions of persons from each group should pass any given item of the test, provided that the persons all earned the same total score on the test. In comparing the ICCs of groups that differ in overall mean score on the test, it is more accurate to plot the proportion of each group passing the item as a function of estimated true scores within each group (rather than raw scores on the test), to minimize group differences in the ICCs due solely to errors of measurement.

En d’autres termes, il est possible d’estimer les vrais scores avec l’IRT s’il reste assez d’items invariant pour être utilisés dans la comparaison des scores latents entre groupes. Quant au résultat de l’étude de Beaujean, la Table 3 montre que lorsque l’IRT est utilisé, les gains de QI (0.06 points par an) sur le Peabody Picture Vocabulary Test-Revised disparaissent presque complètement.

Using Item Response Theory to assess the Flynn Effect in the National Longitudinal Study of Youth 79 Children and Young Adults data - Table 3

The results from the PPVT-R analysis are shown in Table 2, with the columns labeled IRT being the derived IRT latent trait scores. As with the PIAT-Math scores, Cohen’s (1988) d (with a pooled standard deviation) was calculated for all score types to facilitate comparison (see Table 3). Like the PIAT-Math, the raw, standardized, and percentile scores show an increase over time of the magnitude of .13, .41, and .48 standard deviations, but the IRT scores show a negligible increase over time of the magnitude of .06. This pattern is generally repeated when the data are grouped by age, when the n is of appreciable size.

Beaujean (2010, Figure 1) a également testé l’effet Flynn se produisant sur le Wordsum test dans les données du GSS. La même conclusion en a été tirée, à savoir un moindre changement des IRT scores. Ceci mis à part, une question restée en suspens et peu étudiée par les psychologues, c’est l’impact de l’Effet Flynn sur la partie supérieure de la distribution du QI (le top 5%). Wai et Putallaz (2011) ont justement touché au sujet en examinant si l’effet sur le top 5% apparaît sur le SAT, ACT et EXPLORE, des tests d’évaluation, et si cet effet est similaire pour les hommes et femmes, si cet effet perdure, si cet effet apparaît sur des sous-tests particuliers, si cet effet opère différemment en fonction des groupes d’âge. La réponse à toutes ces questions est affirmative. Néanmoins, quant à la question de savoir si cette hausse des scores est causée (1) par une hausse réelle de l’intelligence ou (2) par des biais psychométriques, la première hypothèse est très incertaine :

For example, for tests that are most g loaded such as the SAT, ACT, and EXPLORE composites, the gains should be lower than on individual subtests such as the SAT-M, ACT-M, and EXPLORE-M. This is precisely the pattern we have found within each set of measures and this suggests that the gain is likely not due as much to genuine increases in g, but perhaps is more likely on the specific knowledge content of the measures. Additionally, following Wicherts et al. (2004), we used multigroup confirmatory factor analysis (MGCFA) to further investigate whether the gains on the ACT and EXPLORE (the two measures with enough subtests for this analysis) were due to g or to other factors. 4

4. … Under this model the g gain on the ACT was estimated at 0.078 of the time 1 SD. This result was highly sensitive to model assumptions. Models that allowed g loadings and intercepts for math to change resulted in Flynn effect estimates ranging from zero to 0.30 of the time 1 SD. Models where the math intercept was allowed to change resulted in no gains on g. This indicates that g gain estimates are unreliable and depend heavily on assumptions about measurement invariance. However, all models tested consistently showed an ACT g variance increase of 30 to 40%. Flynn effect gains appeared more robust on the EXPLORE, with all model variations showing a g gain of at least 30% of the time 1 SD. The full scalar invariance model estimated a gain of 30% but showed poor fit. Freeing intercepts on reading and English as well as their residual covariance resulted in a model with very good fit: χ² (7) = 3024, RMSEA = 0.086, CFI = 0.985, BIC = 2,310,919, SRMR = 0.037. Estimates for g gains were quite large under this partial invariance model (50% of the time 1 SD). Contrary to the results from the ACT, all the EXPLORE models found a decrease in g variance of about 30%. This demonstrates that both the ACT and EXPLORE are not factorially invariant with respect to cohort … gains may still be due to g in part but due to the lack of full measurement invariance, exact estimates of changes in the g distribution depend heavily on complex partial measurement invariance assumptions that are difficult to test. Overall the EXPLORE showed stronger evidence of potential g gains than did the ACT.

Même si l’Effet Flynn affecte la partie supérieure de la distribution du QI, les auteurs mettent en garde que la nutrition comme facteur causal de l’Effet Flynn sur la partie inférieure de la distribution du QI ne doit pas être rejetée pour autant (p. 9). Selon eux, la partie supérieure serait affectée par des facteurs autres que les facteurs qui affectent la partie inférieure. Néanmoins, concernant les pays développés, il apparaît assez peu probable que la nutrition soit le meilleur élément explicatif de la hausse des scores de la partie inférieure. Rönnlund et al. (2013) montrent qu’en Suède, les gains séculaires ne sont pas corrélés à des hausses de la taille du corps, qui est pourtant considérée comme un indicateur de bonne nutrition, comme ils écrivent : “gains in height observed during the preceding period (1970–1979), unlike the cognitive gains, appeared to be uniform across the distribution”. Sundet et al. (2004, Figure 4) montre des résultats encore plus inquiétants pour la théorie nutritionnelle, même si Lynn (2009) affirme que ce lien ne doit pas nécessairement être linéaire, parallèle, ou systématique. En Norvège, effectivement, les gains séculaires affectent davantage la partie inférieure de la distribution du QI alors que les gains en hauteurs ont augmenté sensiblement dans la partie supérieure de la distribution de la hauteur, alors que dans le même temps les individus situés dans la partie inférieure de la distribution de la hauteur ont vu leur taille moyenne diminuer. Dans certains pays européens, l’Effet Flynn commence d’ailleurs à s’essouffler ou à montrer une inversion (Teasdale & Owen, 2008; Shayer & Ginsburg, 2007; Dutton & Lynn, 2013).

Le fait que les groupes d’enfants différant dans le revenu familiale et l’éducation maternelle font l’expérience de gains séculaires identiques atténue généralement la thèse nutritionnelle (Ang et al., 2010). En outre, Flynn (2009) note qu’en Angleterre, le Raven CPM montre des gains plus forts pour les enfants de familles aisées (toutes catégories d’âge entre 5 et 11 ans) sur la période 1938-2008. En revanche, le Raven SPM montre des gains plus forts chez les enfants de familles aisées, pour la catégorie 5-9 ans, mais des gains plus forts chez les enfants de familles pauvres, pour la catégorie 9-15 ans. Quoi qu’il en soit, ces données ne cadrent pas tellement avec la théorie nutritionnelle.

Une des théories les plus populaires et communément invoquées est l’amélioration de l’éducation comme cause importante. Mais Lynn (2009, pp. 18-19) explique que les gains développementaux (DQ) et gains de QI des adultes, enfants d’âge pré-scolaire, et les nourrissons sont tout à fait similaires, ce qui rejettent définitivement cette théorie. Lynn soupçonne un facteur commun pour les gains de QI des groupes de tous âges. Mais cette cause n’est pas la nutrition, comme expliqué ci-dessus. Par ailleurs, Ang et al. (2010) mentionnent le fait que les filles durant l’enfance sont plus studieuses que les garçons, et que par conséquent la théorie du travail scolaire prédirait des gains séculaires supérieures pour les filles. La théorie éducative prédirait aussi un taux de gains plus élevé pour les minorités ethniques compte tenu de la qualité éducative et scolaire supérieure pour la population blanche en générale. Mais les gains furent équivalents pour tous les groupes (genre, race, tranche de revenus, niveau d’urbanisation, …).

Dans ‘The g Factor’ (1998, pp. 331-332), Jensen propose une autre ligne d’attaque. Il fait valoir que si les gains séculaires constituaient là une explication du B-W IQ gap, les scores de QI auraient “sous-prédit” la performance (e.g., académique) des noirs. Cela veut dire qu’à niveau de QI équivalent, les noirs seraient par exemple plus performants que les blancs sur les tests scolastiques. Pourtant, il n’y a pas de sous-prédiction envers les minorités ethniques, après correction par atténuation, sans laquelle il y aurait sur-prédiction de la performance des noirs, ce qui sous-entend que la différence constatée des scores reflète une réelle différence des capacités fonctionnelles entre les races. Il en va de même aussi concernant les validités prédictives au travers des différentes générations; si les tests de QI maintiennent leur validité prédictive, l’effet Flynn est “vide” en facteur g. Selon ses propres mots :

A definitive test of Flynn’s hypothesis with respect to contemporary race differences in IQ is simply to compare the external validity of IQ in each racial group. The comparison must be based, not on the validity coefficient (i.e., the correlation between IQ scores and the criterion measure), but on the regression of the criterion measure (e.g., actual job performance) on the IQ scores. This method cannot, of course, be used to test the “reality” of the difference between the present and past generations. But if Flynn’s belief that the intergenerational gain in IQ scores is a purely psychometric effect that does not reflect a gain in functional ability, or g, is correct, we would predict that the external validity of the IQ scores, assessed by comparing the intercepts and regression coefficients from subject samples separated by a generation or more (but tested at the same age), would reveal that IQ is biased against subjects from the earlier generation. If the IQs had increased in the later generation without reflecting a corresponding increase in functional ability, the IQ would markedly underpredict the performance of the earlier generation – that is, their actual criterion performance would exceed the level of performance attained by those of the later generation who obtained the same IQ. The IQ scores would clearly be functioning differently in the two groups. This is the clearest indication of a biased test – in fact, the condition described here constitutes the very definition of predictive bias. If the test scores had the same meaning in both generations, then a given score (on average) should predict the same level of performance in both generations. If this is not the case (and it may well not be), the test is biased and does not permit valid comparisons of “real-life” ability levels across generations.

Au commentaire de Jensen, Williams (2013) ajoute ceci : “This assumes that the later test has not been renormed. In actual practice tests are periodically renormed so that the mean remains at 100. The result of this recentering is that the tests maintain their predictive validity, indicating that the FE gains are indeed hollow with respect to g”.

Considérant que les gains séculaires montrent des biais psychométriques sur les tests de QI papier-crayon, on pourrait se demander si ces gains séculaires pourraient être retranscrits sur les tests de temps de réaction. Une étude a testé cette hypothèse (Nettelbeck & Wilson, 2004). Et les auteurs écrivent “Despite the Flynn effect for vocabulary achievement, Table 1 demonstrates that there was no evidence of improvement in IT from 1981 (overall M= 123±87 ms) to 2001 (M = 116±71 ms).” malgré le fait que le PPVT (un test à fort contenu culturel) a montré des tendances à la hausse. Il doit être noté cependant que l’échantillon d’étude était de taille très modeste. Woodley et al. (2013) ont quant à eux mis en évidence le déclin dans la vitesse de traitement de l’information telle que mesurée par les temps de réaction (RT).

Tout ceci, maintenant, a des conséquences importantes pour ce qui concerne le modèle de Dickens et Flynn (2001), qui ont posé le principe que même une différence mineure des capacités héritées (ex, intelligence, talent, etc.) pourrait se développer en différences majeures au travers de ce qu’il appelle les multiplicateurs environnementaux. Leur raisonnement est le suivant : si une personne avait au préalable un avantage génétique en athlétique, cette personne serait davantage prédisposée à la pratique du sport et serait motivée par les tâches qui lui réussissent le mieux, ce qui permet de maximiser son potentiel génétique, et donc d’améliorer ses performances, ce qui une fois de plus motive cette personne à investir encore davantage de temps et d’effort. Et ainsi de suite. En provoquant des effets multiplicateurs, cette boucle rétroactive est à l’origine de l’augmentation des différences intra et inter groupes. La même chose s’appliquerait pour les capacités cognitives. D’après eux, le détail important est les individus seront émulés essentiellement par des individus intelligents à leur contact : “it is not only people’s phenotypic IQ that influences their environment, but also the IQs of others with whom they come into contact” (p. 347). C’est ainsi que Dickens et Flynn (2001, pp. 349-350) tentent de résoudre le soi-disant paradoxe des gains séculaires et de l’héritabilité élevée du QI.

Et c’est pourquoi Dickens (2005, p. 64) fait valoir que “we might expect that persistent environmental differences between blacks and whites, as well as between generations, could cause a positive correlation between test score heritabilities and test differences” parce que leur modèle implique que plus l’avantage physique initial est grand et plus l’influence environnementale sur ce trait héritable sera grande.

Moreover, our model also has explanations for the correlation of the heritability of scores on different tests with the size of the black-white gap on those tests and the anomalous correlation of the size of gains in cognitive ability over time on different tests with the heritability of those test scores. Those cognitive abilities for which multiplier processes are most important will be the ones that show the largest heritability, because of the environmental augmentation of the genetic differences. But they will also be the ones on which a persistent change in environment will have the biggest influence.

Leur modèle, d’après eux (Dickens & Flynn, 2001, pp. 347-348), permettrait d’expliquer le B-W IQ gap par des facteurs environnementaux, sans poser l’hypothèse d’un facteur X qui affecterait uniformément les noirs. Un facteur X (environnemental unique à un groupe donné) qui a d’ailleurs été prouvé être non existant (Rowe et al., 1994, 1995; Rowe & Cleveland, 1996). La conclusion générale étant que les facteurs génétique et environnementaux impactant les différences individuelles de QI à l’intérieur d’un groupe racial expliquent également les différences raciales en termes de QI.

Mais, le simple fait que les gains de QI constatés chez les nourrissons, enfants d’âge pré-scolaires et les adultes soient identiques annihile purement et simplement la théorie des multiplicateurs sociaux. Car ce modèle postulerait effectivement des gains (séculaires) de QI de plus en plus élevés jusqu’à la période adulte du fait des effets cumulatifs (Lynn, 2009, pp. 18-19).

Indépendamment de cela, Flynn (2010a, p. 364) exprime ici son désaccord avec Jensen :

Originally, Jensen argued: (1) the heritability of IQ within whites and probably within blacks was 0.80 and between-family factors accounted for only 0.12 of IQ variance — with only the latter relevant to group differences; (2) the square root of the percentage of variance explained gives the correlation between between-family environment and IQ, a correlation of about 0.33 (square root of 0.12=0.34); (3) if there is no genetic difference, blacks can be treated as a sample of the white population selected out by environmental inferiority; (4) enter regression to the mean — for blacks to be one SD below whites for IQ, they would have to be 3 SDs (3×.33=1) below the white mean for quality of environment; (5) no sane person can believe that — it means the average black cognitive environment is below the bottom 0.2% of white environments; (6) evading this dilemma entails positing a fantastic “factor X”, something that blights the environment of every black to the same degree (and thus does not reduce within-black heritability estimates), while being totally absent among whites (thus having no effect on within-white heritability estimates).

I used the Flynn Effect to break this steel chain of ideas: (1) the heritability of IQ both within the present and the last generations may well be 0.80 with factors relevant to group differences at 0.12; (2) the correlation between IQ and relevant environment is 0.33; (3) the present generation is analogous to a sample of the last selected out by a more enriched environment (a proposition I defend by denying a significant role to genetic enhancement); (4) enter regression to the mean — since the Dutch of 1982 scored 1.33 SDs higher than the Dutch of 1952 on Raven’s Progressive Matrices, the latter would have had to have a cognitive environment 4 SDs (4×0.33=1.33) below the average environment of the former; (5) either there was a factor X that separated the generations (which I too dismiss as fantastic) or something was wrong with Jensen’s case. When Dickens and Flynn developed their model, I knew what was wrong: it shows how heritability estimates can be as high as you please without robbing environment of its potency to create huge IQ gains over time.

Transposer la logique de Jensen sur les groupes raciaux aux groupes intergénérationnelles pourrait s’avérer juste à la seule condition que les gains séculaires affectent essentiellement g, et ne reflètent aucun biais de mesure. Dickens (2009) n’a pas daigné fournir une réponse à ce détail, ce qui est logique car l’absence de relation entre g et les gains séculaires signifierait l’effondrement de leur modèle. Voici comment Flynn (2010a) a tenté de rejeter g :

You cannot dismiss the score gains of one group on another merely because the reduction of the score gap by subtest has a negative correlation with the g loadings of those subtests. In the case of each and every subtest, one group has gained on another on tasks with high cognitive complexity. Imagine we ranked the tasks of basketball from easy to difficult: making lay-ups, foul shots, jump shots from within the circle, jump shots outside the circle, and so on. If a team gains on another in terms of all of these skills, it has closed the shooting gap between them, despite the fact that it may close gaps less the more difficult the skill. Indeed, when a worse performing group begins to gain on a better, their gains on less complex tasks will tend to be greater than their gains on the more complex. That is why black gains on whites have had a (mild) tendency to be greater on subtests with lower g loadings.

Reverting to group differences at a given time, does the fact that the performance gap is larger on more complex then easier tasks tell us anything about genes versus environment? Imagine that one group has better genes for height and reflex arc but suffers from a less rich basketball environment (less incentive, worse coaching, less play). The environmental disadvantage will expand the between-group performance gap as complexity rises, just as much as a genetic deficit would. I have not played basketball since high school. I can still make 9 out of 10 lay-ups but have fallen far behind on the more difficult shots. The skill gap between basketball “unchallenged” players and those still active will be more pronounced the more difficult the task. In sum, someone exposed to an inferior environment hits what I call a “complexity ceiling”. Clearly, the existence of this ceiling does not differentiate whether the phenotypic gap is due to genes or environment.

Bien que Flynn ait raison sur le fait qu’une personne à faible g s’améliorerait davantage sur les items les moins chargés en g, c’est-à-dire moins difficiles, l’analogie de Flynn est maladroite, ou Flynn ne comprend pas bien la nature de g. Le facteur g, l’ingrédient qui fait que lorsque l’on excelle dans un domaine, on excelle aussi dans les autres domaines. Il est difficile de croire que le manque de pratique en basket-ball (capacités spécifiques) affectera négativement tous les autres domaines sportifs (capacités générales). Il est encore plus improbable que le manque de pratique dans un domaine spécifique comme le basket-ball affectera davantage ses performances sportives dans leur globalité qu’il n’affectera ses performances en basket-ball. Comme Murray (2005, fn. 71) l’a parfaitement expliqué :

An athletic analogy may be usefully pursued for understanding these results. Suppose you have a friend who is a much better athlete than you, possessing better depth perception, hand-eye coordination, strength, and agility. Both of you try high-jumping for the first time, and your friend beats you. You practice for two weeks; your friend doesn’t. You have another contest and you beat your friend. But if tomorrow you were both to go out together and try tennis for the first time, your friend would beat you, just as your friend would beat you in high-jumping if he practiced as much as you did.

La pratique d’un domaine spécifique améliore essentiellement les capacités spécifiques, tout comme le manque de pratique d’un domaine spécifique détériore essentiellement les capacités spécifiques. Flynn a donc tort. Jensen (1998) avait quant à lui introduit l’idée qu’un effet chargé en “g” se doit de montrer des effets de transfert, de généralisation à d’autres tests, indépendamment des saturations des tests/sous-tests en g : “Scores based on vehicles that are superficially different though essentially similar to the specific skills trained in the treatment condition may show gains attributable to near transfer but fail to show any gain on vehicles that require far transfer, even though both the near and the far transfer tests are equally g-loaded in the untreated sample. Any true increase in the level of g connotes more than just narrow (or near) transfer of training; it necessarily implies far transfer.” (p. 334).

Maintenant, la conclusion que l’effet Flynn, par les effets multiplicateurs, éliminerait le Black-White IQ gap présuppose que le comportement et donc l’environnement, est facilement malléable, ce qui est loin d’être le cas en vérité. Comme l’indique la littérature (Lai, 2011, pp. 15, 35-36), ce sont les performances précédentes, ou initiales qui encouragent la motivation future, plus que l’inverse. Si les noirs avaient initialement du mal à l’école, du fait de leur QI peu élevé, ils seront peu encouragés à poursuivre de tels efforts. Si les noirs avaient un avantage physique initial, comme c’est le cas (Saletan, 2008; Fuerle, 2008, pp. 142, 179), ils s’orienteraient davantage vers la pratique du sport. Ils seraient bien plus motivés à exercer les domaines qu’ils excellent le plus. Mieux ils performent, et plus ils apprécient cette activité. La raison pour laquelle l’Effet Flynn n’éliminera pas le B-W gap tient au fait que les noirs et les blancs sont génétiquement différents (Jensen, 1998, pp. 428-432). Les races diffèrent dans la physionomie et les capacités latentes, raison pour laquelle les individus réagissent différemment même lorsqu’ils sont exposés à un environnement similaire, raison aussi pour laquelle ils sont perçus différemment par leurs pairs. Dans la mesure où même les différences culturelles peuvent être d’origine génétique (Plomin & Colledge, 2001, p. 231; Fuerle, 2008, pp. 66-67, 175, 257 fn. 2, 399-400 fn. 5), il est peu probable que les individus de groupes différents réagissent de façon similaire aux mêmes expériences.

Néanmoins, Dickens et Flynn (2001, p. 363) savaient probablement que les multiplicateurs environnementaux n’assuraient pas que les noirs se construiraient plus facilement un environnement propice au développement intellectuel, dans la mesure où ils écrivent :

… intervention programs are able to change them and take children’s “control” over them away, which means that the environment that affects a child’s IQ must be external to the child or at least subject to manipulation by outsiders.

Cette issue, malheureusement, est également bloquée. Un sérieux problème avec leur modèle est que l’environnement est essentiellement modelé par l’individu, plus que l’inverse (Rowe, 2001, pp. 68-72). Et à cela, faut-il rajouter que la corrélation gène-environnement passe du type passif au type actif de l’enfance à l’âge adulte (Rowe, 2003, pp. 79-80; Jensen, 1998, pp. 179, 181). Les individus construisent leur propre environnement à mesure qu’ils grandissent, et réagissent différemment aux mêmes expériences du fait de leur génotype. C’est pourquoi selon Sesardic (2005, pp. 93-95) la corrélation G-E active devrait être interprétée comme étant une influence génétique. C’est une erreur de traiter l’environnement comme étant une variable purement environnementale dans la mesure où l’environnement lui-même est soumis à des facteurs génétiques (Gottfredson, 2009, p. 50; Plomin, 2003, pp. 189-190; Plomin & Bergeman, 1991; Vinkhuyzen et al., 2009; Herrnstein & Murray, 1994, p. 314). Aussi, l’environnement non-partagé, i.e., l’expérience propre de chaque enfant, n’est pas toujours sous contrôle des parents. Rowe (1997) écrit très justement : “Parents do affect their children, but the direction of that “nudge” is often unpredictable. Encouraging one child to study hard may make that child get better grades, whereas a brother or sister may rebel against being “bossed” by the parents.” (p. 141). C’est pourquoi il est difficile de manipuler l’environnement. Par ailleurs, si le retard de QI des noirs par rapport aux blancs est dû essentiellement aux environnement cognitivement délétères, on se demande bien pourquoi le retard de QI des noirs est plus prononcé aux niveaux supérieurs du statut social (Jensen, 1998, pp. 358, 469).

En outre, les interventions tentées dans le passé ont échoué à augmenter durablement le QI des enfants pauvres, qu’ils soient blancs ou noirs. Leur théorie ne passe pas le test empirique. Même si les interventions éducatives réussissaient à augmenter le QI, ces mesures ne pourraient pas garantir que la persistance du IQ gap disparaîtrait. Il est même d’ailleurs fort possible que les interventions, et financement, en matières éducatives augmentent ces disparités au lieu de les réduire (Herrnstein & Murray, 1994, p. 394).

There are a number of problems with this assumption. One basic error is to assume that new educational opportunities that successfully raise the average will also reduce differences in cognitive ability. Consider trying to raise the cognitive level by putting a public library in a community that does not have one. Adding the library could increase the average intellectual level, but it may also spread out the range of scores by adding points to the IQs of the library users, who are likely to have been at the upper end of the distribution to begin with. The literature on such “aptitude-treatment interactions” is large and complex. [16] For example, providing computer assistance to a group of elementary school children learning arithmetic increased the gap between good and bad students; [17] a similar effect was observed when computers were used to teach reading; [18] the educational television program, “Sesame Street” increased the gap in academic performances between children from high- and low-status homes. [19] These results do not mean that such interventions are useless for the students at the bottom, but one must be careful to understand what is and is not being improved: The performance of those at the bottom might improve, but they could end up even further behind their brighter classmates.

Dickens et Flynn (2002, p. 16) ne l’ignorent probablement pas. Mais ce qui est encore plus incroyable est que Dickens et Flynn (2001, pp. 350, 364) savent pertinemment que les interventions n’ont que très peu d’influence à long terme, comme ils écrivent :

Our analogy also shows that there can be a de-escalation once the original environmental advantage is removed. Once the boy escaped the ongoing influence and encouragement of his father and withdrew some of his interest from basketball, his skills deteriorated, which led to a further loss of interest and a further drop in skills. This second point will prove significant when we address some problems in the IQ literature: why the effects of intervention and adoption on IQ diminish, why the stability of IQ increases, and why the heritability of IQ increases with age. …

First, if family influences become weak in late adolescence, the effects of adoption will fade — no matter what the race of the child. Second, adoptees will tend to return to their preintervention IQs if their postfamily genes and environments are similar to their prefamily genes and environments (the latter is notional, of course).

Cette déclaration semble en contradiction avec leur déclaration précédente selon laquelle on pourrait accroitre le QI des enfants par des interventions en nullifiant l’action individuelle de ces personnes. Même si l’évanouissement des gains de QI étaient réellement dû à un ré-inversement des habitudes de vie, comme ils le prétendent, cela démontre tout simplement qu’il est très difficile de changer les cultures.

Une autre incohérence de leur modèle émerge lorsque l’on considère la régression vers la moyenne (Jensen, 1998, pp. 468-471; Rushton & Jensen, 2005, p. 263). Selon leur modèle, il est clair que ce sont les individus les plus intelligents qui seront exposés à un environnement plus cognitivement stimulant et inversement pour les individus à faible intellect. Cela sous-entend que les personnes ayant un faible QI, au préalable, prennent de plus en plus de retard sur les personnes intelligentes à mesure qu’elles grandissent. C’est le déficit cumulatif. Or, ce que nous apprend la régression vers la moyenne, c’est que plus le QI d’un individu est éloigné de la moyenne, plus le QI de ses enfants et de ses frères et soeurs régresseront vers la moyenne. Autrement dit, plus le QI d’un individu dépasse la moyenne de sa population, plus ses frères et soeurs perdent des points de QI, et plus le QI d’un individu est inférieur à la moyenne de sa population, plus ses frères et soeurs gagnent des points de QI. Cela ne cadre absolument pas avec leur modèle. Ceci apparaît encore plus clair lorsque l’on considère que les individus intelligents ont moins d’enfants (Herrnstein & Murray, 1994, pp. 352-353). Ce détail est d’importance, car avoir peu d’enfants permet d’investir davantage dans le développement intellectuel de chaque enfant, d’autant que la qualité de l’environnement familial décroît lorsque le QI des parents diminue (Herrnstein & Murray, 1994, pp. 220-228).

Mais le plus grave problème au modèle Dickens-Flynn, c’est que l’Effet Flynn transgresse l’invariance de mesure (Wicherts et al., 2004) alors que le ‘Black-White IQ gap’ ne transgresse pas l’invariance de mesure (Dolan, 2000; Dolan & Hamaker, 2001; Lubke et al., 2003). Cela conduit Wicherts et al. (2004) à conclure que “the nature of the Flynn effect is qualitatively different from the nature of B-W differences in the United States”. Tant que l’Effet Flynn est indépendent de g, le modèle Dickens-Flynn reste sans importance. Par conséquent, leur théorie ne nous apprend rien sur la relation entre les gains séculaires et le B-W IQ gap.

L’Effet Flynn n’ayant rien à voir avec g, nous en convenons que les preuves suggérant que les jeunes cohortes seraient plus intelligentes que les anciennes cohortes sont très minces, de même que les preuves suggérant que les gains séculaires élimineraient le B-W IQ gap.

Références :

  1. Ang SiewChing, Rodgers Joseph Lee, & Wänström Linda, 2010, The Flynn Effect within subgroups in the U.S.: Gender, race, income, education, and urbanization differences in the NLSY-Children data.
  2. Ashton Michael C., and Lee Kibeom, 2005, Problems with the method of correlated vectors.
  3. Bandeira Denise R., Costa Angelo, & Arteche Adriane, 2012, The Flynn effect in Brazil: Examining generational changes in the Draw-a-Person and in the Raven’s Coloured Progressive Matrices.
  4. Beaujean A. Alexander, and Osterlind Steven J., 2008, Using Item Response Theory to assess the Flynn Effect in the National Longitudinal Study of Youth 79 Children and Young Adults data.
  5. Beaujean A. Alexander, and Sheng Yanyan, 2010, Examining the Flynn Effect in the General Social Survey Vocabulary test using item response theory.
  6. Carpenter Patricia A., Just Marcel Adam, and Shell Peter, 1990, What One Intelligence Test Measures: A Theoretical Account of the Processing in the Raven Progressive Matrices Test.
  7. Dickens William T., 2005, Genetic Differences and School Readiness.
  8. Dickens William T., 2009, A Response to Recent Critics of Dickens and Flynn (2001).
  9. Dickens William T., and Flynn James R., 2001, Heritability estimates versus large environmental effects: The IQ paradox resolved.
  10. Dickens William T., and Flynn James R., 2002, The IQ Paradox: Still Resolved.
  11. Dolan Conor. V., 2000, Investigating Spearman’s hypothesis by means of multi-group confirmatory factor analysis.
  12. Dolan Conor V., and Hamaker Ellen L., 2001, Investigating black–white differences in psychometric IQ: Multi-group confirmatory factor analysis of the WISC-R and K-ABC and a critique of the method of correlated vectors.
  13. Flynn James R., 2000, IQ gains, WISC subtests and fluid g: g theory and the relevance of Spearman’s hypothesis to race, in The Nature of Intelligence (Wiley).
  14. Flynn James R., 2009, Requiem for nutrition as the cause of IQ gains: Raven’s gains in Britain 1938–2008.
  15. Flynn James R., 2010a, The spectacles through which I see the race and IQ debate.
  16. Flynn James R., 2010b, Problems With IQ Gains: The Huge Vocabulary Gap.
  17. Fox M. C., Mitchum A. L., 2012, A Knowledge-Based Theory of Rising Scores on “Culture-Free” Tests.
  18. Fuerle Richard D., 2008, Erectus Walks Amongst Us: The evolution of modern humans.
  19. Gottfredson Linda S., 2007, Shattering Logic to Explain the Flynn Effect.
  20. Gottfredson Linda S., 2008, Of What Value Is Intelligence?.
  21. Gottfredson Linda S., 2009, Logical fallacies used to dismiss the evidence on intelligence testing.
  22. Herrnstein Richard J., and Murray Charles, 1994, The Bell Curve: Intelligence and Class Structure in American Life, With a New Afterword by Charles Murray.
  23. Jensen Arthur R., 1980, Bias in Mental Testing.
  24. Jensen Arthur R., 1998, The g Factor: The Science of Mental Ability.
  25. Juan-Espinosa Manuel, Cuevas Lara, Escorial Sergio, & García Luis F., 2006, The differentiation hypothesis and the Flynn effect.
  26. Kanaya Tomoe, and Ceci Stephen J., 2010, The Flynn Effect in the WISC Subtests Among School Children Tested for Special Education Services.
  27. Kane Harrison D., 2000, A secular decline in Spearman’s g: evidence from the WAIS, WAIS-R and WAIS-III.
  28. Kane Harrison D., & Oakland Thomas D., 2000, Secular Declines in Spearman’s g: Some Evidence From the United States.
  29. Kaufman Alan S., 2010a, “In What Way Are Apples and Oranges Alike?” A Critique of Flynn’s Interpretation of the Flynn Effect.
  30. Kaufman Alan S., 2010b, Looking Through Flynn’s Rose-Colored Scientific Spectacles.
  31. Lai Emily R., 2011, Motivation: A Literature Review.
  32. Loehlin John C., 2002, The IQ Paradox: Resolved? Still an Open Question.
  33. Lubke Gitta H., Dolan Conor V., Kelderman Henk, and Mellenbergh Gideon J., 2003, On the relationship between sources of within- and between-group differences and measurement invariance in the common factor model.
  34. Lynn Richard, 2009, What has caused the Flynn effect? Secular increases in the Development Quotients of infants.
  35. Lynn Richard, & Cooper Colin, 1993, A secular decline in Spearman’s g in France.
  36. Lynn Richard, & Cooper Colin, 1994, A Secular Decline in the Strength of Spearman’s g in Japan.
  37. Mingroni Michael A., 2007, Resolving the IQ Paradox: Heterosis as a Cause of the Flynn Effect and Other Trends.
  38. Murray Charles, 2005, The Inequality Taboo.
  39. Must Olev, Must Aasa, and Raudik Vilve, 2003, The secular rise in IQs: In Estonia, the Flynn effect is not a Jensen effect.
  40. Must Olev, & Must Aasa, 2013, Changes in test-taking patterns over time.
  41. Must Olev, te Nijenhuis Jan, Must Aasa, and van Vianen Annelies E.M., 2009, Comparability of IQ scores over time.
  42. Nettelbeck Ted, & Wilson Carlene, 2004, The Flynn effect: Smarter not faster.
  43. Pietschnig Jakob, Tran Ulrich S., Voracek Martin, 2013, Item-response theory modeling of IQ gains (the Flynn effect) on crystallized intelligence: Rodgers’ hypothesis yes, Brand’s hypothesis perhaps.
  44. Plomin Robert, 2003, General Cognitive Ability, in Behavioral Genetics in the Postgenomic Era.
  45. Plomin Robert, and Bergeman C. S., 1991, The nature of nurture: Genetic influence on “environmental” measures.
  46. Plomin Robert, and Colledge Essi, 2001, Genetics and Psychology: Beyond Heritability.
  47. Rodgers Joseph L., 1999, A Critique of the Flynn Effect: Massive IQ Gains, Methodological Artifacts, or Both?.
  48. Rönnlund Michael, Carlstedt Berit, Blomstedt Yulia, Nilsson Lars-Göran, and Weinehall Lars, 2013, Secular trends in cognitive test performance: Swedish conscript data 1970–1993.
  49. Rowe David C., 1997, A Place at the Policy Table? Behavior Genetics and Estimates of Family Environmental Effects on IQ.
  50. Rowe David C., 2001, Do People Make Environments or Do Environments Make People?.
  51. Rowe David C., 2003, Assessing Genotype-Environment Interactions and Correlations in the Postgenomic Era, in Behavioral Genetics in the Postgenomic Era.
  52. Rowe David C., & Rodgers Joseph L., 2002, Expanding Variance and the Case of Historical Changes in IQ Means: A Critique of Dickens and Flynn (2001).
  53. Rowe David C., Vazsonyi Alexander T., and Flannery Daniel J., 1994, No More Than Skin Deep: Ethnic and Racial Similarity in Developmental Process.
  54. Rowe David C., Vazsonyi Alexander T., and Flannery Daniel J., 1995, Ethnic and Racial Similarity in Developmental Process: A Study of Academic Achievement.
  55. Rowe David C., and Cleveland Hobard H., 1996, Academic Achievement in Blacks and Whites: Are the Developmental Processes Similar?.
  56. Rushton J. Philippe, 1999, Secular gains in IQ not related to the g factor and inbreeding depression – unlike Black-White differences: A reply to Flynn.
  57. Rushton J. Philippe, Čvorović Jelena, Bons Trudy Ann, 2007, General mental ability in South Asians: Data from three Roma (Gypsy) communities in Serbia.
  58. Rushton J. Philippe, and Jensen Arthur R., 2005, Thirty Years of Research on Race Differences in Cognitive Ability.
  59. Rushton J. Philippe, and Jensen Arthur R., 2010a, Race and IQ: A Theory-Based Review of the Research in Richard Nisbett’s Intelligence and How to Get It.
  60. Rushton J. Philippe, and Jensen Arthur R., 2010b, The rise and fall of the Flynn Effect as a reason to expect a narrowing of the Black–White IQ gap.
  61. Saletan William, 2008, Race, genes, and sports.
  62. Shiu William, Beaujean A. Alexander, Must Olev, te Nijenhuis Jan, Must Aasa, 2013, An item-level examination of the Flynn effect on the National Intelligence Test in Estonia.
  63. Sundet Jon Martin, Barlaug Dag G., Torjussen Tore M., 2004, The end of the Flynn effect? A study of secular trends in mean intelligence test scores of Norwegian conscripts during half a century.
  64. te Nijenhuis Jan, 2012, The Flynn effect, group differences, and g loadings.
  65. te Nijenhuis Jan, van Vianen Annelies E.M., van der Flier Henk, 2007, Score gains on g-loaded tests : No g.
  66. te Nijenhuis Jan, & van der Flier Henk, 2013, Is the Flynn effect on g?: A meta-analysis.
  67. Vinkhuyzen Anna A. E., van der Sluis Sophie, de Geus E. J. C., Boomsma Dorret I., and Posthuma Danielle, 2009, Genetic influences on ‘environmental’ factors.
  68. Wai Jonathan, and Putallaz Martha, 2011, The Flynn effect puzzle: A 30-year examination from the right tail of the ability distribution provides some missing pieces.
  69. Wicherts Jelte M., & Dolan Conor V., 2010, Measurement Invariance in Confirmatory Factor Analysis: An Illustration Using IQ Test Performance of Minorities.
  70. Wicherts Jelte M., Dolan Conor V., Hessen David J., Oosterveld Paul, van Baal G. Caroline M., Boomsma Dorret I., Span Mark M., 2004, Are intelligence tests measurement invariant over time? Investigating the nature of the Flynn effect.
  71. Williams L. Robert, 2013, Overview of the Flynn effect.
  72. Woodley Michael A., 2011a, A life history model of the Lynn–Flynn effect.
  73. Woodley Michael A., 2011b, The Cognitive Differentiation-Integration Effort Hypothesis: A Synthesis Between the Fitness Indicator and Life History Models of Human Intelligence.
  74. Woodley Michael A., 2011c, Heterosis Doesn’t Cause the Flynn Effect: A Critical Examination of Mingroni (2007).
  75. Woodley Michael A., & Figueredo Aurelio José, Brown Sacha D., Ross Kari C., 2013, Four successful tests of the Cognitive Differentiation-Integration Effort hypothesis.
  76. Woodley Michael A., & Madison Guy, 2013, Establishing an association between the Flynn effect and ability differentiation.
  77. Woodley Michael A., & Meisenberg Gerhard, 2013, In the Netherlands the anti-Flynn effect is a Jensen effect.

One comment on “L’Effet Flynn et gains séculaires de QI : une illusion

  1. yoananda says:

    Vu que la charge en g diminue si on répète les tests de QI INDIVIDUELLEMENT, se pourrait-il qu’il y ai aussi un effet collectif intergénérationnel ?

    En gros, par un mécanisme inconnu, quand le grand frère a passé un test de QI, il s’améliore, mais le petit frère aussi, qui va donc mieux scorer, même si son intelligence n’a pas bougée d’un poil.

Leave a comment