Différences de QI entre les noirs et les blancs dans le NLSY97 : L’éducation est-elle si importante ?

Il est souvent pensé à tort que l’éducation et plus largement le statut social sont largement responsables des différences de QI entre les blancs et les noirs. Comme nous allons le voir, mes tests successifs échouent à confirmer la théorie environnementale du QI.

D’abord, pour la présente analyse, j’utilise les données du NLSY97, une enquête longitudinale représentative de la population américaine, disponibles sur NLS Investigator, ainsi que l’outil statistique SPSS. J’explique la procédure étape par étape dans les notes [1], [2] et [3].

Voyons en premier lieu l’écart de QI entre les blancs et les noirs reflété par les tests ASVAB. Ceux qui ont lu The Bell Curve (1994, Appendix 3, pp. 603-613) savent particulièrement que l’AFQT est un test très chargé en facteur g, ce qui en fait un excellent test de QI. Voici une comparaison de moyennes de QI entre les blancs et les noirs nés aux Etats-Unis [4].

NLSY97 - Black-White gap in ASVAB and GRADE

L’écart de QI (exprimé en anglais sous la fameuse appellation “black-white IQ gap” ou encore “d gap”) se trouve être de 1.052 SDs (standard deviations), ce qui donne en termes de QI 1.052 x 15 = 15.78 points de QI (en utilisant cette formule). Comme on peut le voir, une différence de seulement un an d’éducation est suffisant pour produire une différence d’un écart-type de QI entre les blancs et les afro-américains. Notons que c’est à peu près ce que Dickens et Flynn ont trouvé dans leur étude “Black Americans Reduce the Racial IQ Gap” (2006a) où ils indiquent que l’écart de QI a rétréci pour les échantillons comprenant des enfants mais pas pour les adultes, même si l’on peut avoir des doutes si l’on jette un oeil à ce graphique. Dans une réplique à Rushton et Jensen (2005, 2006), “Common ground and differences” (2006b), ils ont avoué la chose suivante :

Our data give a current IQ for blacks age 24 of 83.4 or exactly 1.1 SDs below whites.

Il faut savoir aussi que dans The Bell Curve, Herrnstein & Murray (1994, p. 278) avaient rapporté un écart de QI de 1.21 SDs pour l’AFQT administré vers 1980, pour un échantillon de 6,502 blancs et 3,022 noirs, soit à peu près le double de mon échantillon (voir table ci-dessus). Plus tôt encore, Jensen, dans Educability & Group Differences (1973, pp. 62-63), avait rapporté un écart de QI de 0.99 SD pour l’AFQT 1968 sur un échantillon large comprenant 1,009,381 blancs et 155,531 noirs. Là encore, si l’on se restreint aux scores de l’AFQT, sur une période s’étalant jusqu’à 30 ans (1968-1999), on ne constate aucune réduction de l’écart de QI entre blancs et noirs.

Maintenant, ceci étant dit, il nous reste à tester l’hypothèse que l’éducation est bien le déterminant des différences de QI entre noirs et blancs. Un moyen de tester cette hypothèse est l’usage de la corrélation partielle. Pour rappel, la corrélation partielle consiste à corréler deux variables (exemple, QI et race) en contrôlant l’influence d’une troisième variable (niveau d’éducation) sur les deux variables à corréler. Andy Field (2009, pp. 189-190) explique en détail de quoi il en retourne. Je commence donc par dichotomiser la variable RACE_ETHNICITY pour ne retenir que les noirs et les blancs [5]. Concrètement, cela consiste presque à conduire une corrélation bisériale de point, ou corrélation point-bisériale (Field, 2009, pp. 182-186) en contrôlant l’effet de la troisième variable. Voici le tableau que j’ai obtenu :

NLSY97 - Black-White IQ gap controlling for RGrade (Weighted)

Comme on peut le voir, l’inclusion de la variable RGRADE n’a presque pas d’effet sur l’étendue des différences de QI. Car si tel était le cas, la corrélation entre BWRACE et ASVAB aurait été considérablement réduite [6]. Autrement dit, le nombre d’année d’éducation n’exerce strictement aucun effet sur les différences de QI entre noirs et blancs. Ensuite, je remplace la variable RGRADE par ma variable PARENTEDUC, qui désigne en fait le niveau d’éducation des parents [7]. Voici le nouveau tableau :

NLSY97 - Black-White IQ gap controlling for ParentEduc (Weighted)

La corrélation entre race et QI est passée de 0.355 à 0.302. L’effet de l’éducation parentale semble donc assez faible. L’effet non nul néanmoins n’est pas surprenant, vu que le QI prédit un plus haut niveau d’éducation, ce qui signifie que contrôler l’éducation parentale revient immédiatement à contrôler le QI des parents. Or, le QI est connu pour être hautement héritable à l’âge adulte (80%) ce qui est aussi attesté par l’échec des programmes éducatifs visant à augmenter le QI. De même, j’avais déjà expliqué en long et en large, dans un article précédent, le sophisme qui consiste à contrôler les facteurs environnementaux, car cette pratique consiste en vérité à retirer les facteurs de causalité influençant les différences de QI entre les noirs et les blancs.

De ces résultats obtenus, nous pouvons estimer que le niveau d’éducation compte pour seulement (0.354)² – (0.337)² = 0.125 – 0.113 = 0.012, ou 1.2% des variations totales du QI. Autrement dit, presque rien. De même, le niveau d’éducation des parents compte pour (0.355)² – (0.302)² = 0.126 – 0.091 = 0.035, ou 3.5% des variations totales du QI. Encore une fois, presque rien. Le calcul est tiré de Jensen, Educability and Group Differences (1973, p. 207).

Maintenant, on peut aussi tester l’effet du revenu parental. L’effet est identique à celui de l’éducation parentale. La corrélation tombe de 0.313 à 0.275. Si j’ajoute PARENTEDUC comme deuxième variable de contrôle, la corrélation passe de 0.310 à 0.258. L’effet n’est pas cumulatif, pour la simple et bonne raison que ces deux variables mesurent plus ou moins la même chose : le statut économique. Un plus haut revenu est souvent synonyme d’un plus haut niveau d’éducation, et vice versa. Mais encore une fois, l’effet du statut social n’est pas extraordinaire.

Comme si cela ne suffisait pas, la théorie environnementale qui postule l’idée que les différences de QI diminueraient à mesure que le statut socio-économique augmente est erronée. De nombreuses études (Jensen, 1973, p. 241; Herrnstein & Murray, 1994, pp. 287-288; Jensen, 1998, p. 358; Murray, 1999, Figure 3; Gottfredson, 2003, Table 12) avaient précédemment démontré que l’inverse se produisait.

The g Factor (Arthur Jensen) p. 358

Ce phénomène est définitivement fatal pour la théorie environnementale. Le statut socio-économique est un indice de stimulation cognitive, par le biais de la santé, de la culture, des styles parentaux, et ainsi de suite. La culture varie aussi à l’intérieur des groupes. Il est bien connu que les individus à faible QI et aussi à faible niveau de SES (socio-economic status) grandissent dans des environnements familiaux chaotiques. Pourtant, les différences de QI augmentent précisément là où la théorie culturelle prédirait une diminution de l’écart.

En me servant une fois de plus des données du NLSY97, je parviens à répliquer les précédentes recherches en ce domaine. Voici une table des comparaisons de moyenne que j’ai exécuté [8].

NLSY97 - Black-White IQ gap by Parental Education (Weighted)

Black-White IQ gap by Parental Education (Excel function)

L’écart de QI au niveau 1 de l’éducation parentale (moins de 12 années d’éducation) est de 0.77 SD. L’écart de QI au niveau 2 de l’éducation parentale (12 années d’éducation) est de 0.96 SDs. L’écart de QI au niveau 3 de l’éducation parentale (plus de 12 années d’éducation) est de 0.94 SD. L’augmentation de l’écart de QI est plus modeste comparée aux précédentes études, mais elle confirme néanmoins le phénomène. La théorie culturelle-environnementale du QI est rejetée dans chacun des tests [9].

NOTES :

[1] Une fois sur NLS Investigator, après s’être créé un compte (gratuit), il est nécessaire de télécharger la collection de variables dont vous avez besoin. Choisissez l’enquête NLSY97. Cliquez sur Variable Search, Browse Index, et choisissez les variables nécessaires. Ou utilisez l’option Search. Choisissez un critère, par exemple Question Text (enter search term), et tapez le mot clé, par exemple, birth, born, grade, etc. Quand les variables sont définies, cliquez sur Save/Download, puis, Basic Download. Vous devez ensuite extraire le fichier dans un nouveau fichier sur votre PC, par exemple, intitulé “NLSY97investigator_variables”.

Ensuite, ordonnez SPSS d’ouvrir le fichier. Une fois sur la page Syntax Editor, il est impératif de modifier la première ligne, le “handle file” de sorte qu’il puisse localiser l’endroit où vous avez généré votre fichier “NLSY97investigator_variables”. Plus simplement, le handle file doit ressembler à ça.

[2] La liste des variables nécessaires pour la présente analyse :

R12358.00 CV_SAMPLE_TYPE SAMPLE TYPE. CROSS-SECTIONAL OR OVERSAMPLE 1997
R12362.01 SAMPLING_PANEL_WEIGHT ROUND 1 SAMPLING WEIGHT PANEL METHOD 1997
R12013.00 CV_CITIZENSHIP CITIZENSHIP STATUS BASED ON BIRTH 1997
R05364.02 KEY!BDATE_Y KEY!BDATE, RS BIRTHDATE MONTH/YEAR (SYMBOL) 1997
S76422.00 YHHI-55701 WAS R BORN IN U.S., ITS TERRITORIES OR PUERTO RICO 2006
T01358.00 YHHI-55701 WAS R BORN IN U.S., ITS TERRITORIES OR PUERTO RICO 2007
T21107.00 YHHI-55701 WAS R BORN IN U.S., ITS TERRITORIES OR PUERTO RICO 2008
T37217.00 YHHI-55701 WAS R BORN IN U.S., ITS TERRITORIES OR PUERTO RICO 2009
R13025.00 CV_HGC_BIO_MOM BIOLOGICAL MOTHERS HIGHEST GRADE COMPLETED 1997
R13024.00 CV_HGC_BIO_DAD BIOLOGICAL FATHERS HIGHEST GRADE COMPLETED 1997
R14826.00 KEY!RACE_ETHNICITY KEY!RACE_ETHNICITY, COMBINED RACE AND ETHNICITY (SYMBOL) 1997
R05386.00 KEY!ETHNICITY KEY!ETHNICITY, IS R HISPANIC (SYMBOL) 1997
R05387.00 KEY!RACE KEY!RACE, RACE OF R (SYMBOL) 1997
R06098.00 P5-016 TOTAL INCOME FROM PRS WAGES AND SALARY LAST YEAR (TRUNC) 1997
R06101.00 P5-019 PRS TOTAL INCOME FROM BUS OR FARM LAST YEAR (TRUNC) 1997
R06105.00 P5-028 TOTAL INCOME PRS SPOUSE FROM WAGES AND SALARY LAST YEAR (TRUNC) 1997
R06108.00 P5-032 TOTAL INCOME OF PRS SPOUSE FROM BUS OR FARM LAST YEAR (TRUNC) 1997
R06111.00 P5-046 TOTAL INCOME FROM INTEREST FROM PRS BANK SOURCES AND ACCOUNTS? (TRUNC) 1997
R06127.00 P5-068 PRS TOTAL INCOME FROM SS, PENSION, VETERAN, INSURANCE LAST YEAR (TRUNC) 1997
Z90838.00 CVC_HGC_EVER RS HIGHEST GRADE COMPLETED XRND
R98296.00 ASVAB_MATH_VERBAL_SCORE_PCT ASVAB MATH_VERBAL SCORE PERCENT 1999

Concernant les variables de l’éducation parentale, les valeurs allant de 0 à 20, (et 95 pour les “Ungraded”) correspondent à 1rst grade, 2nd grade, et ainsi de suite. À partir de 13, il s’agit de 1rst year college, et ainsi de suite jusqu’à 20. Idem pour la variable HGC_EVER. Quant aux lettres XRND qui apparaissent à la place du numéro de l’année, elles signifient tout simplement que les informations (sur les sujets) ayant servi à créer cette variable proviennent de l’interview la plus récente.

Un détail d’importance. Avant d’exécuter des analyses de corrélations, il est impératif de recoder les variables du niveau d’éducation, dans la mesure où elles contiennent des valeurs aberrantes (“outliers”) du fait de la valeur 95. Cela pourrait distordre les corrélations. C’est pourquoi j’ai recodé ces variables pour retirer toutes les valeurs au-dessus de 20 (i.e., ayant une valeur de 95).

Il est important de comparer les résultats avec et sans poids d’échantillonnage dans la mesure où l’application des poids rend les résultats plus représentatifs, mais sur SPSS néanmoins, les p-values et les tailles d’échantillon ne sont plus du tout informatives. La taille des échantillons peut être obtenue pour les résultats sans l’application des poids. Quant aux valeurs p, il faut les calculer autrement. La fiche Technical Sampling Report du NLSY97 explique l’avantage de la pondération :

Data from large-scale national samples typically need to be weighted to achieve an unbiased estimator of the population total. The weights are needed for four main reasons. First, the weights compensate for differences in the selection probabilities of individual cases, which often arise by design, as in the NLSY97/PAY97, where different overall sampling rates were required for Hispanics, non-Hispanic blacks, and others within the eligible age ranges. Second, weighting compensates for subgroup differences in participation rates; even if the sample as selected were representative of the larger population, differences in participation rates can compromise the representativeness of the sample. For example, different geographic areas may experience different rates of screener nonresponse. Such differences in participation rates can introduce nonresponse bias into the results; weighting can reduce these biases. Third, weights compensate for random fluctuations from known population totals due to sampling. For instance, if one sex were overrepresented in the NLSY97 sample purely by chance, it would be possible to use data from the Decennial Census or the Current Population Survey to adjust for this departure from the population distribution. And fourth, adjusting the data to known population totals can help reduce the impact of survey undercoverage (such as undercoverage arising from the omission of persons in partially enumerated households).

Maintenant, pour appliquer les poids, allez dans Data, Weight Cases, puis sélectionnez votre variable R1 SAMPLE WEIGHT PANEL [R1236201]. Ou alors, faites exécuter la syntaxe suivante :

WEIGHT BY R1236201.

Pour le désactiver :

WEIGHT OFF.

En ce qui concerne les variables du revenu parental, voici leur description :

Pour R0609800,

TOTAL INCOME PRS SPOUSE FROM WAGES AND SALARY LAST YEAR (TRUNC)

During 1996, how much income did your [spouse/partner] receive from wages, salary, commissions, or tips from all jobs, before deductions for taxes or anything else?

Pour R0610100,

PRS TOTAL INCOME FROM BUS OR FARM LAST YEAR (TRUNC)

During 1996, how much income did you receive from your own farm, business, partnership or professional practice AFTER EXPENSES?

(IF RESPONDENT LOST MONEY ON OWN FARM, BUSINESS, PARTNERSHIP OR PROFESSIONAL PRACTICE AFTER EXPENSES ENTER NEGATIVE VALUE)

Pour R0610500,

TOTAL INCOME PRS SPOUSE FROM WAGES AND SALARY LAST YEAR (TRUNC)

During 1996, how much income did your [spouse/partner] receive from wages, salary, commissions, or tips from all jobs, before deductions for taxes or anything else?

Pour R0610800,

TOTAL INCOME OF PRS SPOUSE FROM BUS OR FARM LAST YEAR (TRUNC)

During 1996, how much did your [spouse/partner] receive from [his/her] own farm, business. partnership or professional practice AFTER EXPENSES?

(IF [spouse/partner] LOST MONEY ON OWN FARM , BUSINESS, PARTNERSHIP OR PROFESSIONAL PRACTICE AFTER EXPENSES ENTER NEGATIVE VALUE.)

Pour R0611100,

TOTAL INCOME FROM INTEREST FROM PRS BANK SOURCES AND ACCOUNTS? (TRUNC)

What was the total amount of interest and dividend payments [you/you or your spouse/partner] received during 1996, including even small amounts and amounts reinvested or credited to the accounts?

Pour R0612700,

PRS TOTAL INCOME FROM SS, PENSION, VETERAN, INSURANCE LAST YEAR (TRUNC)

What was the total amount [you/you and your spouse/partner] received from all other sources (e.g., friends, relatives, royalties or any other regular or periodic source of income) during 1996?

[3] Pour la présente analyse, voici la syntaxe que j’ai utilisé :

RECODE R1201300 (1=1) (2=2) into RUSBORN1.
VARIABLE LABELS RUSBORN1 1 ‘Yes’ 2 ‘No’.
EXECUTE.

RECODE S7642200 (1=1) (0=2) into RUSBORN2.
VARIABLE LABELS RUSBORN2 1 ‘Yes’ 2 ‘No’.
EXECUTE.

RECODE T0135800 (1=1) (0=2) into RUSBORN3.
VARIABLE LABELS RUSBORN3 1 ‘Yes’ 2 ‘No’.
EXECUTE.

RECODE T2110700 (1=1) (0=2) into RUSBORN4.
VARIABLE LABELS RUSBORN4 1 ‘Yes’ 2 ‘No’.
EXECUTE.

RECODE T3721700 (1=1) (0=2) into RUSBORN5.
VARIABLE LABELS RUSBORN5 1 ‘Yes’ 2 ‘No’.
EXECUTE.

COMPUTE RUSBORN =0.
IF R1201300 =1 or S7642200 =1 or T0135800 =1 or T2110700 or T3721700 =1 RUSBORN =1.
EXECUTE.

LIST R1201300 S7642200 T0135800 T2110700 T3721700 RUSBORN.
EXECUTE.

IF R1302500=0 or R1302400=0 PARENTEDUC=0.
IF R1302500=1 or R1302400=1 PARENTEDUC=1.
IF R1302500=2 or R1302400=2 PARENTEDUC=2.
IF R1302500=3 or R1302400=3 PARENTEDUC=3.
IF R1302500=4 or R1302400=4 PARENTEDUC=4.
IF R1302500=5 or R1302400=5 PARENTEDUC=5.
IF R1302500=6 or R1302400=6 PARENTEDUC=6.
IF R1302500=7 or R1302400=7 PARENTEDUC=7.
IF R1302500=8 or R1302400=8 PARENTEDUC=8.
IF R1302500=9 or R1302400=9 PARENTEDUC=9.
IF R1302500=10 or R1302400=10 PARENTEDUC=10.
IF R1302500=11 or R1302400=11 PARENTEDUC=11.
IF R1302500=12 or R1302400=12 PARENTEDUC=12.
IF R1302500=13 or R1302400=13 PARENTEDUC=13.
IF R1302500=14 or R1302400=14 PARENTEDUC=14.
IF R1302500=15 or R1302400=15 PARENTEDUC=15.
IF R1302500=16 or R1302400=16 PARENTEDUC=16.
IF R1302500=17 or R1302400=17 PARENTEDUC=17.
IF R1302500=18 or R1302400=18 PARENTEDUC=18.
IF R1302500=19 or R1302400=19 PARENTEDUC=19.
IF R1302500=20 or R1302400=20 PARENTEDUC=20.

RECODE R1302400 (1 thru 11=1) (12=2) (13 thru 20=3) (ELSE=SYSMIS) INTO FATHERGRADE3C.
VARIABLE LABELS FATHERGRADE3C ‘DAD_GRADE3C’.
EXECUTE.

RECODE R1302500 (1 thru 11=1) (12=2) (13 thru 20=3) (ELSE=SYSMIS) INTO MOTHERGRADE3C.
VARIABLE LABELS MOTHERGRADE3C ‘MOM_GRADE3C’.
EXECUTE.

IF MOTHERGRADE3C=1 or FATHERGRADE3C=1 PARENTGRADE3C=1.
IF MOTHERGRADE3C=2 or FATHERGRADE3C=2 PARENTGRADE3C=2.
IF MOTHERGRADE3C=3 or FATHERGRADE3C=3 PARENTGRADE3C=3.

RECODE R1482600 (1=1) (4=2) (ELSE=SYSMIS) INTO BW_RACE.
VARIABLE LABELS BW_RACE ‘BWRACE_var’.
EXECUTE.

COMPUTE PARENTAL_INCOME = SUM(R0609800, R0610100, R0610500, R0610800, R0611100, R0612700).
EXECUTE.

RECODE Z9083800 (1 thru 20=COPY) (ELSE=SYSMIS) INTO RGRADE.
EXECUTE.

RECODE Z9083800 (1 thru 11=1) (12=2) (13 thru 20=3) (ELSE=SYSMIS) INTO RGRADE3C.
VARIABLE LABELS RGRADE3C ‘rgrade3C’.
EXECUTE.

USE ALL.
COMPUTE filter_$=(RUSBORN=1).
VARIABLE LABELS filter_$ ‘RUSBORN=1 (FILTER)’.
VALUE LABELS filter_$ 0 ‘Not Selected’ 1 ‘Selected’.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

WEIGHT BY R1236201.

MEANS TABLES=RGRADE R9829600 BY BW_RACE
/CELLS MEAN COUNT STDDEV.

MEANS TABLES=R9829600 BY BW_RACE BY PARENTGRADE3C
/CELLS MEAN COUNT STDDEV.

COMPUTE ScaledWeights1=(R1236201*4946/1189562665).
EXECUTE.
WEIGHT BY ScaledWeights1.

PARTIAL CORR
/VARIABLES=BW_RACE R9829600 BY RGRADE
/SIGNIFICANCE=TWOTAIL
/STATISTICS=DESCRIPTIVES CORR
/MISSING=LISTWISE.

COMPUTE ScaledWeights2=(R1236201*4832/1164436435).
EXECUTE.
WEIGHT BY ScaledWeights2.

PARTIAL CORR
/VARIABLES=BW_RACE R9829600 BY PARENTEDUC
/SIGNIFICANCE=TWOTAIL
/STATISTICS=DESCRIPTIVES CORR
/MISSING=LISTWISE.

WEIGHT OFF.
WEIGHT BY R1236201.

PARTIAL CORR
/VARIABLES=BW_RACE R9829600 BY PARENTEDUC PARENTAL_INCOME
/SIGNIFICANCE=TWOTAIL
/STATISTICS=CORR
/MISSING=LISTWISE.

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT RGRADE
/METHOD=ENTER R0536402
/SAVE ZRESID.

DESCRIPTIVES VARIABLES=PARENTAL_INCOME PARENTEDUC RGRADE R9829600
/SAVE
/STATISTICS=MEAN STDDEV MIN MAX.

MEANS TABLES=ZRE_1 ZRGRADE ZPARENTEDUC ZPARENTAL_INCOME ZR9829600 BY BW_RACE
/CELLS MEAN COUNT STDDEV.

Copiez-collez la syntaxe, puis sur la page Syntax Editor de SPSS, cliquez sur “Run”, “All”.

[4] Pour ce faire, allez dans Data, Select Cases, et cochez “If condition is satisfied”. Cliquez sur “If”. Copiez-collez le code suivant :

RUSBORN=1

Ou encore, copiez-collez la syntaxe suivante, surlignez-la, et cliquez sur Run, Selection.

USE ALL.
COMPUTE filter_$=(RUSBORN=1).
VARIABLE LABELS filter_$ ‘RUSBORN=1 (FILTER)’.
VALUE LABELS filter_$ 0 ‘Not Selected’ 1 ‘Selected’.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

Cela a pour effet de limiter l’échantillon d’analyse aux individus nés aux Etats-Unis.

[5] Ladite variable RACE_ETHNICITY possède les valeurs suivantes : 1 = Black, 2 = Hispanic, 3 = “Mixed Race (Non-Hispanic)”, 4 = “Non-Black / Non-Hispanic”. J’ai recodé 4 pour 2 dans ma variable dichotomique, en considérant 2 comme étant l’échantillon des blancs compte tenu du fait que la catégorie 4 comprend presque uniquement des blancs non hispaniques. Toute autre valeur est traitée comme “missing value” dans ma nouvelle variable. Sinon, utilisez le code suivant :

IF R0538700=1 and R0538600=0 NH_WHITE=1.
IF R0538700=2 and R0538600=0 NH_BLACK=1.

IF NH_BLACK=1 BWRACE2=0.
IF NH_WHITE=1 BWRACE2=1.

Le résultat sera le même de toute façon.

[6] Il est possible que la restriction de la plage de distribution, dit aussi “restriction range”, en ce qui concerne le niveau d’éducation, aurait pu réduire l’effet de l’éducation sur les différences de QI. Pour examiner cette possibilité, je transforme la variable RGRADE en z-scores.

Pour calculer les z-scores, allez dans “Analyze”, “Descriptive Statistics”, “Frequencies”. Sélectionnez vos variables, cliquez sur “Mean” et Standard Deviation”. Exécuter la manoeuvre. Ensuite, allez dans “Transform”, “Compute Variable”. Mettez le nom de la nouvelle variable z-score transformée dans la case “Target Variable” et ensuite dans l’espace “Numeric Expression”, entrez :

(nom de la variable originelle – mean) / standard deviation

Une fois les valeurs appliquées, cliquez sur OK. Vous obtenez votre variable exprimée en z-scores. Mais il existe un moyen encore plus simple. Allez dans “Analyze”, “Descriptive Statistics”, “Descriptives”. Sélectionnez vos variables et cliquez sur “Save standardized values as variables”. Cela créera automatiquement votre variable z-score. Vous pouvez aussi à la place utiliser la syntaxe suivante :

DESCRIPTIVES VARIABLES=PARENTAL_INCOME PARENTEDUC RGRADE R9829600
/SAVE
/STATISTICS=MEAN STDDEV MIN MAX.

Copiez-collez le code. Surlignez-le, cliquez sur “Run”, et enfin “Selection”. Vos 4 variables z-score transformées en main, exécutez une comparaison de moyennes. Voici le tableau généré :

NLSY97 - Black-White gaps in Z-scores (Weighted)

B-W gaps expressed in d differences

Comme nous pouvons le voir, l’écart du niveau d’éducation entre les noirs et blancs exprimé en standard deviations, n’est pas énorme mais il n’est pas négligeable non plus (d=0.37). Trois choses. D’une, cela n’explique pas toutefois pourquoi l’effet de l’éducation est tout simplement quasi inexistant. De deux, il faut savoir que même si cela était vrai, cela impliquerait nécessairement que la différence de QI de 1.1 SDs entre noirs et blancs ne peut pas être expliquée par les différences de niveau d’éducation. Et de trois, les échecs des programmes éducatifs pour stimuler g jettent un réel doute quant à la malléabilité du QI. Et inutile de mentionner l’Effet Flynn, dépourvu de g.

[7] Pour effectuer une analyse de corrélation partielle, allez dans Analyze, Correlate, Partial, choisissez vos variables. Allez dans Options, et cochez “Zero-order correlations”. Cela produira la corrélation bivariée dans la partie supérieure du tableau et la corrélation partielle dans la partie inférieure du tableau.

[8] Allez dans Analyze, Compare Means, Means. Dans Dependent List, mettez la variable ASVAB. Dans Independent List (Layer 1) mettez BWRACE_var, cliquez sur Next pour ouvrir Layer 2, et mettez PARENTGRADE3C. Cliquez sur OK.

[9] J’ai également analysé les données du NLSY79 et produit un résultat similaire. L’éducation ne réduit pas réellement les différences de QI. Ci-dessous, la liste des variables utilisées :

R02161.00 SAMPWEIGHT SAMPLING WEIGHT 1979
R02161.01 C_SAMPWEIGHT CROSS SECTIONAL SAMPLING WEIGHT 1979
R00007.00 FAM-2A COUNTRY OF BIRTH 1979
R00006.00 FAM-1B AGE OF R 1979
R00065.00 HGC-MOTHER HIGHEST GRADE COMPLETED BY R’S MOTHER 1979
R00079.00 HGC-FATHER HIGHEST GRADE COMPLETED BY R’S FATHER 1979
R34015.00 HGC HIGHEST GRADE COMPLETED AS OF MAY 1 SURVEY YEAR 1990
R02147.00 SAMPLE_RACE R’S RACIAL/ETHNIC COHORT FROM SCREENER 1979
R06182.00 AFQT-1 PROFILES, ARMED FORCES QUALIFICATION TEST (AFQT) PERCENTILE SCORE – 1980 1981
R06183.00 AFQT-2 PROFILES, ARMED FORCES QUALIFICATION TEST (AFQT) PERCENTILE SCORE – REVISED 1989 1981
R06183.01 AFQT-3 PROFILES, ARMED FORCES QUALIFICATION TEST (AFQT) PERCENTILE SCORE – REVISED 2006 1981

NLSY79 – Black-White IQ (AFQT revised) gap controlling for RGRADE79(1990)

NLSY79 – Black-White IQ (AFQT revised) gap controlling for PARENTEDUC79

Les différences entre les noirs et les blancs au regard du niveau d’éducation du sujet, de l’éducation et du revenu des parents sont similaires à ce qui a été trouvé dans le NLSY97, excepté pour l’AFQT. Le fait que les différences entre les noirs et les blancs concernant le niveau d’éducation soient beaucoup plus faibles que le niveau d’éducation n’est pas le meilleur indice des différences de QI entre les noirs et les blancs, même si le QI reste le meilleur prédicteur de réussite scolaire.

NLSY79 - Black-White gap in AFQT and GRADE

NLSY79 B-W gaps expressed in d differences

J’ai utilisé la version révisée de l’AFQT, plutôt que les versions précédentes, compte tenu de ses avantages. On peut lire sur la page Aptitude, Achievement & Intelligence Scores du NLSY79

AFQT-1: To construct AFQT-1, the raw scores from the following four sections of the ASVAB are summed:

Section 2 (arithmetic reasoning),
Section 3 (word knowledge),
Section 4 (paragraph comprehension),
and one half of the score from Section 5 (numerical operations).

AFQT-2: Beginning in January 1989, DOD began using a new calculation procedure. The numerical operations section of the AFQT-1 had a design inconsistency resulting in respondents getting tests that differed slightly and resulted in slight completion rate differences.

Creation of this revised percentile score, called AFQT-2, involves:

computing a verbal composite score by summing word knowledge and paragraph comprehension raw scores;
converting subtest raw scores for verbal, math knowledge, and arithmetic reasoning;
multiplying the verbal standard score by two;
summing the standard scores for verbal, math knowledge, and arithmetic reasoning;
converting the summed standard score to a percentile.

AFQT-3: In 2006 the AFQT-2 scores were renormed controling for age so that the AFQT can be used comparatively with the NLSY97. For this reason NLS staff recommend using the AFQT-3. Although the formula is similar to the AFQT score generated by DOD for the NLSY79 cohort, this variable reflects work done by NLS program staff and is neither generated nor endorsed by DOD.

To calculate the AFQT-3, NLS Program staff first grouped respondents into three-month age groups. That is, the oldest cohort included those born from January through March of 1957, while the youngest were born from October through December 1964, a total of 32 cohorts, with an average of about 350 respondents per cohort (there was one unusually small cohort: the youngest cohort has only 145 respondents). The revised dates of birth from the 1981 survey (R0410100 and R0410300) were used whenever these disagreed with the information from the 1979 survey. With the revised birth dates, a few respondents were born outside the 1957-1964 sampling space of the survey.

Those born before 1957 were assigned to the oldest cohort, while those born after 1964 were assigned to the youngest cohort. ASVAB sampling weights from the Profiles section were used (R0614700). Within each three-month age group and using the sampling weights, staff assigned percentiles for the raw scores for the tests on Mathematical Knowledge (MK), Arithmetic Reasoning (AR), Word Knowledge (WK), and Paragraph Comprehension (PC) based on the weighted number of respondents scoring below each score (ties are given half weight). Staff added the percentile scores for WK and PC to get an aggregate Verbal score (V) for which an aggregated intra-group, internally normed, percentile was then computed. NLS Program staff then added the percentile scores for MK, AR and two times the aggregated percentile for V. Finally, within each group we computed a percentile score, using the weights, on this aggregate score, yielding a final value between zero and 100. Note there are three implied decimal places.

Quelque soit la version de l’AFQT utilisée, les résultats sont similaires. Voici la syntaxe utilisée pour produire le résultat ci-dessus :

RECODE R0006500 (1 thru 11=1) (12=2) (13 thru 20=3) (ELSE=SYSMIS) INTO DAD79GRADE3C.
VARIABLE LABELS DAD79GRADE3C ‘dad_GRADE3C’.
EXECUTE.

RECODE R0007900 (1 thru 11=1) (12=2) (13 thru 20=3) (ELSE=SYSMIS) INTO MOM79GRADE3C.
VARIABLE LABELS MOM79GRADE3C ‘mom_GRADE3C’.
EXECUTE.

IF MOM79GRADE3C=1 or DAD79GRADE3C=1 PARENTGRADE3C=1.
IF MOM79GRADE3C=2 or DAD79GRADE3C=2 PARENTGRADE3C=2.
IF MOM79GRADE3C=3 or DAD79GRADE3C=3 PARENTGRADE3C=3.

IF R0006500=0 or R0007900=0 PARENTEDUC79=0.
IF R0006500=1 or R0007900=1 PARENTEDUC79=1.
IF R0006500=2 or R0007900=2 PARENTEDUC79=2.
IF R0006500=3 or R0007900=3 PARENTEDUC79=3.
IF R0006500=4 or R0007900=4 PARENTEDUC79=4.
IF R0006500=5 or R0007900=5 PARENTEDUC79=5.
IF R0006500=6 or R0007900=6 PARENTEDUC79=6.
IF R0006500=7 or R0007900=7 PARENTEDUC79=7.
IF R0006500=8 or R0007900=8 PARENTEDUC79=8.
IF R0006500=9 or R0007900=9 PARENTEDUC79=9.
IF R0006500=10 or R0007900=10 PARENTEDUC79=10.
IF R0006500=11 or R0007900=11 PARENTEDUC79=11.
IF R0006500=12 or R0007900=12 PARENTEDUC79=12.
IF R0006500=13 or R0007900=13 PARENTEDUC79=13.
IF R0006500=14 or R0007900=14 PARENTEDUC79=14.
IF R0006500=15 or R0007900=15 PARENTEDUC79=15.
IF R0006500=16 or R0007900=16 PARENTEDUC79=16.
IF R0006500=17 or R0007900=17 PARENTEDUC79=17.
IF R0006500=18 or R0007900=18 PARENTEDUC79=18.
IF R0006500=19 or R0007900=19 PARENTEDUC79=19.
IF R0006500=20 or R0007900=20 PARENTEDUC79=20.

RECODE R3401500 (1 thru 20=COPY) (ELSE=SYSMIS) INTO RGRADE79.
EXECUTE.

RECODE R0214700 (2=1) (3=2) (ELSE=SYSMIS) INTO BW_RACE79.
VARIABLE LABELS BW_RACE79 ‘BWRACE79_var’.
EXECUTE.

USE ALL.
COMPUTE filter_$=(R0000700=1).
VARIABLE LABELS filter_$ ‘R0000700=1 (FILTER)’.
VALUE LABELS filter_$ 0 ‘Not Selected’ 1 ‘Selected’.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

PARTIAL CORR
/VARIABLES=BW_RACE79 R0618301 BY RGRADE79
/SIGNIFICANCE=TWOTAIL
/STATISTICS=DESCRIPTIVES CORR
/MISSING=LISTWISE.

PARTIAL CORR
/VARIABLES=BW_RACE79 R0618301 BY PARENTEDUC79
/SIGNIFICANCE=TWOTAIL
/STATISTICS=DESCRIPTIVES CORR
/MISSING=LISTWISE.

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT RGRADE79
/METHOD=ENTER R0000600
/SAVE ZRESID.

WEIGHT BY R0216100.

DESCRIPTIVES VARIABLES=RGRADE79 PARENTEDUC79 R6478700 R0618301
/SAVE
/STATISTICS=MEAN STDDEV MIN MAX.

MEANS TABLES=ZRE_1 ZRGRADE79 ZPARENTEDUC79 ZR6478700 ZR0618301 RGRADE79 BY BW_RACE79
/CELLS MEAN COUNT STDDEV.

WEIGHT OFF.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s