《走向优质——中国幼儿园教育质量评价标准》的测量学属性分析

    陈德枝 李克建 周兢

    

    

    

    [摘 要] 幼儿园教育质量评价标准的编制具有重要的理论与实践意义。中国学前教育研究会组建了一个包含了來自国内6所高校的专家的跨学科研究团队,遵循严谨的测量学研制程序,经过两年扎实的研究,编制了《走向优质——中国幼儿园教育质量评价标准》(简称《优质标准》)。为验证该标准的有效性,课题组采用分层抽样的方法,在位于我国不同区域的5个省区抽取了不同性质与等级的城乡幼儿园共计100所,采用《优质标准》进行质量评价,同时从300个样本班级中随机抽取了1670名儿童(男女各半),对其语言、数学认知、情感社会性发展水平进行测评。基于幼儿园教育质量和儿童发展水平测评数据,课题组对《优质标准》进行了信效度分析。结果显示,《优质标准》总体及其各领域内部一致性均达到较高水平;绝大部分项目具有良好的区分度;《优质标准》具有良好的结构效度,包含两个潜在的质量因子,分别是课程教学与学习环境、管理支持与师资保障;幼儿园教育质量评价结果与儿童发展水平测评结果总体上呈显著相关,不同质量领域与儿童不同发展领域之间的相关性存在一定差异。综合以上证据表明,《优质标准》是适用于我国幼儿园教育情境的有效评估工具,其评价结果是可靠、可信的。

    [关键词] 《优质标准》;测量学属性;信度;效度

    一、前言

    (一)学前教育质量评价工具研制的价值

    幼儿园教育质量对儿童的学习与发展至关重要。[1][2][3]当前,我国学前教育正处于从高速度增长向高质量发展转型的关键期。2018年,我国幼儿园教育普及率达到81.7%,在园儿童超过4656万。[4]面对如此庞大的学前儿童群体,如何科学地评价幼儿园教育质量,引领广大幼儿教育工作者不断改进教育实践,有效促进儿童的学习和发展,成为重要而紧迫的任务。众所周知,幼儿园教育质量评价工具的研制,是一项专业性、科学性很强的工作。自20世纪80年代以来,我国各地陆续建立了以教育行政部门为主导的幼儿园分等定级体系和评估标准。但这些评估标准体系基本上是建立在地方实践经验的基础上,往往未经过科学的测量学研制程序和信效度检验,存在许多明显的缺陷,如侧重静态要素的评价、对动态的教育过程的评价不足,评价信息采集渠道单一、可靠性不足,评分方法不够科学合理等。[5][6][7]在此背景下,研制一份适宜我国文化和学前教育情境、科学有效的幼儿园教育质量评价工具,具有重要意义。

    (二)学前教育质量评价工具研究的国际趋势

    从国际范围来看,对学前教育质量评价工具的研究大致呈现如下特征。第一,评价功能与评价工具相匹配。出于学前教育机构管理与政策调控目的的评价,往往是从学前教育机构整体进行质量评价,评价内容侧重机构的条件保障(物质环境、经费、师资)、管理运行的合规性、保教工作的规范性。比如,美国各州的QRIS体系、美国幼教协会的高质量托幼机构认证标准、德国的日托机构质量标准、新加坡的SPARK等。出于研究性目的和教育过程质量提升目的的评价,往往是以班级为单位进行观察评价,评价内容侧重点各异,如ECERS系列量表关注的是幼儿的学习环境,[8][9]ECERS-E主要是对几个领域的课程进行评价,[10]CLASS量表聚焦于师幼关系与互动的评价,[11]SSTEW、MOVERS则是对班级的环境、课程、教学能否形成对儿童多领域(语言、认知、情感社会性、运动)核心素养的有效支持进行评价。[12][13]第二,信效度验证方法的多元性。科学的质量评价工具是建立在严格的、不断累积的信效度验证的基础上的。在量表研制过程中,往往通过采集一定规模的样本数据,采用现代心理与教育测量学技术对这些工具的信、效度进行探索。如,通常采用克隆巴赫系数估计量表各项目间的内部一致性;[14]因幼儿园教育质量评价是多人参与的多维度评价,已有研究采用多元概化理论和项目反应理论对测评的信度展开了深入探索;[15][16][17]效度研究方面,通常采用探索性因素分析(EFA)或验证性因素分析(CFA)对评价工具结构效度进行探索,[18]尤其重视质量工具的测评结果与儿童发展结果(如语言、认知、情感社会性)的校标关联效度或预测效度。[19][20][21]

    (三)《优质标准》的研发

    中国学前教育研究会(以下简称“研究会”)作为全国学前教育研究者和实践者的专业性组织,有力量也有使命引领全国学前教育科学研究和提升其质量。2018年初,研究会设立了“十三五”重点项目“中国优质幼儿园评价标准研究”,整合国内多所高校的研究力量,组建了一个包括学前教育学、儿童发展心理学、教育测量与统计学等领域专家的跨学科研究团队,开始进行幼儿园优质标准的研制工作。研制这一标准的初衷是引领全社会更新幼儿园教育质量观念,支持幼儿园教师专业发展,促进幼儿园的质量提升,为政府部门的学前教育决策提供参考,同时,研究会可以依据该标准展开学前教育质量相关的科学研究以及优质幼儿园认证。

    经过两年扎实的工作,课题组研制出《走向优质——中国幼儿园教育质量评价标准》(以下简称《优质标准》)。研究团队基于人类发展生态系统理论、发展适宜性实践理论、需求层次理论等,广泛借鉴了多个国家、专业组织的学前教育机构质量评价标准以及ECERS系列、CLASS、SSTEW、MOVERS等评价工具的质量观念与指标框架,结合中国国情以及学前教育研究与实践,构建起具有中国特色的《优质标准》质量概念与指标框架。在评价指标编写的过程中,研究团队坚持了以儿童为本、系统思维、动态思维、层层递进、问题导向等基本原则。

    2018年12月,《优质标准》草稿基本完成,并召开了境内外专家咨询会,征求了来自美国、英国、中国香港的多位学前教育质量评价领域资深专家的意见和建议,《优质标准》的质量概念、指标框架、评价方式等得到了专家们的肯定。2019年3月、6月、9月,研究团队分别在四川成都、浙江杭州、上海进行了三次幼儿园现场试测,基于每次试测的数据分析结果,研究团队对标准的项目结构、指标数量和内容不断进行调整和优化。2019年10月,《优质标准》正式定稿,2019年10月至12月,为验证《优质标准》的测量学属性,研究团队在全国抽样了100所幼儿园和1670名儿童进行测评,基于测评数据对该标准的测量学属性进行了基本分析。

    二、研究方法

    (一)抽样说明

    1. 幼儿园和班级抽样。

    课题组采用分层抽样的方法,在广西、陕西、吉林、江苏和浙江5个省区的市区、城郊、县镇和农村,分别抽样公办和民办不同性质、不同等级幼儿园共计100所,幼儿园样本分布情况如表1所示。每所幼儿园各随机抽样大、中、小各1个班级,共计300个班级。评估员团队运用《优质标准》对样本幼儿园和班级进行了质量评估。

    2. 儿童抽样。

    为检验《优质标准》的实证效度,幼儿园质量测评当日在每个样本班级随机抽样6名儿童(男女各半),运用PPVT、REMA、情感社会性量表对儿童进行发展水平测试。剔除无效样本,最终从100所幼儿园300个班级共获得了1670名儿童的发展测评数据,儿童样本分布情况如表2所示。需要说明的是,一名儿童需参与三份量表测评,但并非每位儿童均完成了所有测评。最终,实际参与PPVT测评的儿童1669名,有效率为99.94%;参与REMA测评的儿童1594名,有效率为95.45%;参与情感社会性测评的儿童1548名,有效率为92.69%。

    (二)评价工具

    1. 幼儿园教育质量评价:《优质标准》。

    (1)《优质标准》的结构与内容。

    用于本轮测试的《优质标准》包含5个质量领域、28个评价项目,具体情况如下:一是管理引领(6个项目),二是环境支持(5个项目),三是课程促进(9个项目),四是师资保障(4个项目),五是家园社区合作(4个项目)。每个项目由若干子项目组成,每个子项目又包含了若干个不同等级的精细评价指标。如表3所示,领域一“管理引领”的项目2理念与规划,由2个子项目组成;其中子项目2.1理念与愿景有1~7个评分等级,每个等级下有若干不等的精细指标组成,如在不适宜等级(1分指标)有3个精细指标2.1.1a,2.1.1b,2.1.1c。统计结果显示,《优质标准》共包含80个子项目、880个精细指标。

    需要特别指出的是,《优质标准》综合了已有评价工具的共性内容和先进理念,兼顾了幼儿园和班级两个层面的质量评价。在幼儿园整体层面,主要对幼儿园管理、总体环境、课程建设、师资队伍、家园社区合作等方面进行评价;在班级层面,则对班级内部的学习环境(物质环境与心理环境)、各领域课程的实施(健康、语言、社会、科学、艺术)进行评价,关注环境创设、活动安排、教学互动对幼儿各领域核心经验获得的支持与促进。

    (2)评分规则说明。

    首先,精细指标评分规则。每个精细指标均应进行评价,评价结果为“是”或“否”(“不适用”情况除外)。

    其次,子项目评分规则。子项目采用7点Likert量表进行评分:1分=不適宜,3分=合格,5分=良好,7分=优秀。子项目评分采取由低到高逐级推理的原则,依据精细指标测评结果和评分推理规则(如表4所示),赋予子项目相应等级计分(1~7分之间)。

    第三,项目的计分方法。项目得分为所含多个子项目得分的均分,在1~7分之间变化(保留2位小数)。

    2. 儿童发展测评工具。

    评估团队采用3个应用广泛、具有良好测量学属性的儿童发展测评工具,包括PPVT(Peabody Picture Vocabulary Test,《皮博迪图片词汇测验(修订版—甲式)》),[22]REMA-SF(Research-based Early Mathematics Assessment-Short Form,《研究型早期数学测验—短版》)[23]和《情感与社会性个别测试》,[24]从语言/词汇、数学认知和情感社会性3个方面对儿童发展水平进行测评。PPVT采用0~1计分方式,作答正确为“1”,作答错误为“0”。REMA-SF每个项目计分编码包含是否正确和采用的策略等,该研究主要采用了正确作答与否计分方式,正确为“1”,错误或没有作答为“0”或“9”。REMA-SF相关研究显示其具有较好的信效度,较适合测评学前儿童数学能力。[25][26]情感社会性等问卷依据幼儿的作答进行编码,中性为“1”、积极为“2”和消极为“0”。

    (三)测评过程

    正式测评开始前,课题组对参与测评的评估员进行了统一、严格的测评培训,包括测评方法、测评指标解读、现场试测培训等。已有研究结果表明,两人一组进行测评是经济有效的。[27]本研究中,幼儿园(班级)的质量测评采用两人一组,各自独立评分。待测评结束后两人再进行讨论,做出最后的测评结果。每所幼儿园的测评时间一般从早上8:00至下午4:00。本轮测评中,《优质标准》的评价者间一致性百分比为0.819~0.986,达到了可接受水平。

    在幼儿园质量测评当日,由儿童发展测评人员在幼儿园对抽样儿童进行一对一测评。具体而言,分别对每位儿童依次进行PPVT、情感社会性和REMA-SF测评。测评指导语和流程严格按照各量表说明进行。每个工具的测评时间一般为10~20分钟;一名儿童参与三份工具的测评时间一般为30~60分钟(视儿童年龄与反应时间而异)。如测评过程中儿童疲劳、注意力下降,让儿童适当休息后继续。所有参与测评的儿童,均已取得其父母书面同意。

    (四)数据分析

    数据分析采用SPSS 26.0和R软件进行处理。

    三、研究结果与分析

    (一)内部一致性信度

    《优质标准》总体内部一致性和各个领域内部一致性分析结果如表5所示。结果显示,总体内部一致性α=0.926;各领域的内部一致性α系数在0.554~0.934之间。相对来说,领域四的内部一致性α系数偏低,领域五的内部一致性α系数也低于0.7,一致性α系数较高的是领域三。内部一致性系数与测验长度有关,增加项目数可以提高内部一致性,但更重要的是提高项目编制质量。分析结果表明,领域四、五的评价项目和指标的编制质量需要进一步提升。

    各领域所含项目与领域得分的相关性分析结果如下表6所示,各项目得分与所在质量领域得分的相关系数都较高,且均具有显著性。

    (二)项目区分度

    采用高低分组法,高、低分组各取《优质标准》总分高、低部分的30%,对《优质标准》的28个项目进行区分度分析,[28][29]结果如表7所示。结果显示,24个项目的区分度指标均在可接受的范围(CR值在0.2~0.3之间),4个项目(项目17语言、21师资配备、22工资待遇和25统筹管理)CR值在0.2以下,课题组接下来应考虑对这些项目进行适当修订。另外,对高、低分组进行显著性檢验,结果表明,除项目1依法办园外,其他均具有显著性(P<0.01)。可见,《优质标准》的项目区分度总体上达到可接受水平,个别项目仍需修订和优化。

    (三)结构效度

    研究者采用了探索性因子分析(EFA)对《优质标准》的潜在结构进行了探索。其中KMO=0.883,Barletts=1804.656,df=378,P <0.01,表明测评数据有条件运用EFA进行分析。[30]采用主成分法提取公因子,运用平行分析法确定因子个数,[31]结果如图1所示。

    依据上图EFA和平行分析结果,基于《优质标准》5个领域的基本内涵,最终确定抽取2个公因子。结合2个公因子所含项目的基本内涵和考察的主要内容,把这2个公因子分别命名为:公因子1“课程教学与学习环境”,公因子2“管理支持和师资保障”。这2个公因子可解释的累积方差贡献率为50.326%。运用最大方差旋转法进行旋转后,依据因子负荷系数大于等于0.4进行归类,结果如表8所示。其中项目9户外空间与设施设备和项目22工资待遇的因子负荷系数在0.4以下,依据负荷系数的大小将它们归于相应的公因子。另外,项目24能力建设在这2个公因子上的负荷系数都较高,依据其基本含义,将其归类于公因子2。这些项目在未来进一步的修订中应被关注。

    (四)实证效度

    本研究中,我们把儿童发展测评的结果作为《优质标准》的效标,实证效度分析主要围绕样本幼儿园在《优质标准》上的得分与样本儿童在3个发展评价工具上的得分的相关性展开,主要包括:《优质标准》总分与儿童语言、数学认知、情感社会性发展之间的相关分析;《优质标准》2个公因子得分与儿童发展间的相关分析;《优质标准》5个质量领域与儿童发展测评结果的相关分析。

    相关分析结果显示(见表9),《优质标准》总测评结果与儿童语言、数学认知和情感社会性测评结果均存在弱的显著正相关。《优质标准》公因子1(课程教学与学习环境)得分与儿童语言、情感社会性测评结果之间存在显著正相关;公因子2(管理支持与师资保障)得分与儿童语言、数学认知测评结果之间存在显著正相关。《优质标准》5个领域得分与儿童语言、情感社会性测评结果之间均存在弱的显著正相关;儿童数学认知(REMA-SF测评结果)仅与领域2(环境支持)、领域4(师资保障)和领域5(家园社区合作)之间存在弱的显著正相关。

    儿童发展受到众多因素的影响,其中家庭教育背景对儿童发展具有重要影响。依据已有研究,[32]研究者以母亲受教育程度为控制变量,对《优质标准》得分与儿童发展测评结果进行偏相关分析。偏相关分析结果表明(见表10),《优质标准》总分与儿童语言、情感社会性发展测评结果呈弱的显著正相关;公因子1(课程教学与学习环境)与儿童语言、情感社会性测评结果均有弱的显著正相关性,但是公因子2(管理支持与师资保障)与儿童发展未见显著相关;领域1~5与儿童语言发展均有显著的偏正相关,领域2(环境支持)与儿童数学认知发展有显著正相关,领域2、3和5与儿童情感社会性发展存在显著正相关。与已有研究类似,[33]这些偏相关系数均不高。

    四、讨论

    (一)《优质标准》的内部一致性信度和项目区分度

    《优质标准》的信度分析首先采用了最常用的内部一致性α系数进行分析和报告。从总体内部一致性和各领域所含项目间一致性的分析结果来看,该标准总体内部一致性达到较高水平(α系数为0.926);各个领域的内部一致性α系数值在0.554~0.934之间,其中领域3(课程促进)的α系数值最高,领域4(师资保障)最低。一般来说,α系数值与测验长度有关,领域3所含的项目数最多,领域4所含项目数最少。当然,更重要的是项目的编制质量。在《优质标准》未来的修订中需要关注并着力提升领域4的项目编制质量,以提高其信度。已有研究发现,美国的《幼儿学习环境评价量表》(ECERS)各子量表的内部一致性α系数值在0.32~0.79之间,其修订版ECERS-R各子量表的α系数值在0.71~0.83之间。[34]与之相比,本研究中《优质标准》的内部一致性信度总体上略优于ECERS/ECERS-R。其次,《优质标准》各质量领域与各项目得分的相关分析结果也显示,各项目与所属的领域均呈显著正相关。这些分析结果均表明,《优质标准》总体及各领域内部一致性较好,其测评结果是稳定可靠的。

    本研究采用了经典测量理论中常用的高低分组法对《优质标准》的项目区分度进行计算。分析结果显示,除项目1、17、21、22和25的区分度值在0.2以下,其他项目的区分度值均在可接受的范围内。项目1是考察幼儿园办园是否合法,抽样的100所幼儿园均为合法办园。但不能仅从这点对项目1做修改或删除的举措,合法办园是幼儿园举办、管理和质量的根本,从项目的测评意义和重要性来分析,项目1须继续保留。项目17、21、22和25分别考察语言、师资配备、工资待遇和(家园社区工作的)统筹管理,从区分度值分析结果来看,其值近似于0.2,可考虑对这些项目进行适当修订,调整其评价内容和评价方式,以提高其区分度。此外,研究者还对各项目高、低分组进行了统计检验,结果表明,除项目1以外,其他所有的项目均能对高、低分组进行显著性区分。项目1之所以无显著性,主要是因为该项目考察幼儿园办园的合法性,而抽样的100所幼儿园均为合法幼儿园。同上原因,这一结果不足以作为对项目1进行调整的依据。

    《优质标准》的内部一致性和项目的区分度分析结果均基于经典测量理论,经典测量理论非常依赖于样本,同时也难以对优质标准项目水平上的信度展开讨论。另外,幼儿园教育质量测评是多人参与的多维主观评价活动。因经典测量理论的局限性以及篇幅所限,本研究未对这些问题展开深入讨论,有待后续另辟篇幅做进一步探讨。

    (二)《优质标准》的结构效度和实证效度

    为探讨和验证《优质标准》的有效性,研究团队对抽样的100所幼儿园进行了实际测评,与此同时对300个样本班级进行了儿童发展的抽样测评。基于这些测评数据,从结构效度和实证效度两方面展开《优质标准》的效度分析。在结构效度方面,研究者采用了常用的探索性因子分析(EFA)对《优质标准》的潜在结构进行了探索。研究提取了2个公因子:课程教学与学习环境、管理支持与师资保障,这2个公因子可解释的方差贡献率超过50%,可以较好地解释和代表《优质标准》的结构。对《优质标准》潜在结构的探索一方面为我们进一步解释和建构幼儿园教育质量的基本内涵提供了依据,同时也为进一步优化项目、提高项目质量提供了科学依据和参考。如分析结果表明,项目22(工资待遇)因子负荷系数较低,可以在后期的优化中对该项目做适当的修订。

    在评价标准潜在因子的探索上,样本数据的不同、因子提取方法的不同,会带来分析结果的差异。比如美国的ECERS-R,有的研究发现其包含1个公因子,[35]有的研究发现其具有2个公因子,[36][37]有的研究则揭示其潜在结构是3个公因子。[38]在我国,浙江师范大学团队研制的《中国幼儿园教育质量评价量表》(CECERS)则在历次的研究中保持其两公因子结构不变。[39][40]值得注意的是,虽然都是学前教育机构教育质量评价工具,但《优质标准》与ECERS-R、CECERS等量表所测评的质量内涵和维度不同,潜在结构也会有所差异。此外,受样本量限制,本研究仅对《优质标准》的潜在结构进行了探索性因子分析,相关验证性因素分析还有待未来的研究与应用加以检验。

    实证效度主要从《优质标准》测评结果与儿童发展水平间的关系来进行探索。本文在探讨两者关系时先进行二元相关分析,并在此基础上以母亲受教育程度为控制变量进行偏相关分析,探讨《优质标准》各项得分(包括总分、因子得分、领域得分)与儿童发展测评结果(包括语言、数学认知、情感社会性)之间的关系。这些分析结果显示,《优质标准》总体上与儿童各领域发展之间存在显著的相关性。

    具体来看,《优质标准》各项得分与儿童不同领域之间的关联性呈现出差异化的特点,本研究的结果与已有的研究发现既具有一致性,也有不同的发现值得进一步关注。在控制母亲受教育程度的条件下,公因子1(课程教学与学习环境)与儿童语言、情感社会性发展存在显著相关性,这与已有研究发现是一致的;[41]但与儿童数学认知发展不存在显著关联性,这与已有研究发现不一致,值得进一步探究。公因子2(管理支持与师资保障)与儿童各领域发展均不存在显著相关性,这与已有发现是一致的,[42]主要的解释是管理与师资属于结构性质量要素,对儿童发展并没有直接效应,但对教育过程质量具有显著的预测效应。[43]我们可以做出这样的推断,在《优质标准》的两因子结构中,公因子2(管理支持与师资保障)通过公因子1(课程教学与学习环境)这一中介变量对儿童发展产生作用。这一假设有待于未来研究的验证。

    在《优质标准》的5个领域中,不同质量领域与儿童发展不同领域之间的关联性也呈现出不同特征。在控制母亲受教育程度的情况下,5个领域的教育质量与儿童语言发展均存在显著相关性;领域2(环境支持)、领域3(课程促进)、领域5(家园社区合作)的测评结果与儿童情感社会性发展均存在显著相关性。这些研究发现与已有研究发现基本一致。[44]但儿童数学认知的测评结果仅与领域2(环境支持)的测评得分存在相关性。这一结果与《优质标准》编制者的理论预设存在一定出入,比如,我们预期质量领域3(课程促进)的得分应该与儿童各领域发展(包括数学学习)存在显著相关性。这一结果与已有研究发现也不尽一致,比如,已有研究发现教学与互动质量与儿童数学学习结果存在显著相关性。[45][46]造成这种差异的其中一个重要原因,可能在于儿童的数学学习方式与儿童语言、社会性学习存在差异,比如,儿童的语言学习、社会性学习更加依赖于人际互动,[47][48]而数学的学习更加依赖于对数学材料的独立操作,[49][50]因而,本研究中发现仅学习环境质量与儿童数学认知测评结果存在相关性。另外一个可能的解释是,幼儿园教育质量与儿童数学认知发展之间有可能存在非线性相关,比如,可能存在“门槛效应”(threshold effect):质量得分上存在一个临界值,不同质量水平与儿童的數学学习结果之间存在显著不同的相关性。幼儿园教育质量与儿童数学学习、语言和社会性学习结果之间关系的差异性,以及幼儿园教育质量对儿童不同领域的发展均存在显著的“门槛效应”,这些在李克建等人最近的一项研究中也得到了证实。[51]

    总体而言,通过质量测评结果与儿童发展测评结果的相关分析,研究发现,《优质标准》测评得分与儿童语言、数学认知、情感社会性发展之间存在弱的正相关性,这与已有研究发现基本一致。[52][53][54][55]这些证据能够支持研究者作出这一谨慎的结论:在我国的幼儿园教育情境中,《优质标准》的测评结果是有意义的和有效的。当然,本研究仅是一次初步的探索,存在一定的局限性,比如,现有的数据分析方法尚未考虑教育质量测评数据的层次性和数据嵌套关系。另外,《优质标准》所测评的质量水平是否与儿童发展间存在“门槛效应”,是否受到其他因素的影响等,针对这些问题,我们将另辟篇幅展开更深入精细的讨论。

    参考文献:

    [1]BURCHINAL M, MAGNUSON K, POWELL D, et al. Early child care and education and child development[C]//LERNER R, BORNSTEIN M M H, LEVENTHAL T. Handbook of child psychology and developmental science(7th ed). Hoboken, NJ: Wiley,2015,4:223-267.

    [2][40]李克建.中國托幼机构教育质量评价研究[M].北京:北京师范大学,2017.

    [3]秦金亮,等.基于证据的学前教育需求与质量研究[M].北京:北京师范大学出版社,2018.

    [4]教育部.2018年全国教育事业发展统计公报[EB/OL].(2019-07-24)[2020-04-18].http://www.moe.gov.cn/jyb_sjzl/sjzl_fztjgb/201907/t20190724_392041.html.

    [5]刘焱.试论托幼机构教育质量评价的几个问题[J].学前教育研究,1998(03):14-17.

    [6]戴双翔,刘霞.我国现行托幼机构教育质量评价工具研究[J].学前教育研究,2003(01):39-41.

    [7]刘丽湘.当前我国幼儿园教育质量评价工作的误区及调整策略[J].学前教育研究,2006(01):85-87.

    [8]HARMS T, CLIFFORD R M, CRYER D. Early childhood environment rating scale-revised version (ECERS-R) [M]. New York: Teachers College Press,1998.

    [9]HARMS T, CLIFFORD R M, CRYER D. Early childhood environment rating scale(ECERS-3)[M]. New York: Teachers College Press,2015.

    [10]SYLVA K, SIRAJ-BLATCHFORD I, TAGGART B. ECERS-E: the four curricular subscales extension to the early childhood environment rating scale(ECERS-R) 4th Edition[M]. New York: Teachers College Press,2010.

    [11]PIANTA R C, LA PAR KM, HAMRE B K. Classroom assessment scoring system (CLASS) manual, K-3[M]. Baltimore, MD: Brookes,2008.

    [12]IRAM S, DANISE K, EDWARD M.持续共享思维和情绪情感健康评量表(SSTEW)[M]. 詹慧妮,朱珊,译.南京:南京师范大学出版社,2019.

    [13]CAROL ARCHER, IRAM SIRAJ.运动环境评量表(MOVERS)[M].张丹丹,刘萌然,译.南京:南京师范大学出版社,2019.

    [14][19][32][33][39][41][44][45][54]LI K, HU B Y, PAN Y, et al. Chinese early childhood environment rating scale(trial) (CECERS): a validity study[J]. Early Childhood Research Quarterly,2014,29(3):268-282.

    [15][27]CHEN D, HU B Y, FAN X, et al. Measurement quality of the Chinese early childhood program rating scale: an investigation using multivariate generalizability theory[J]. Journal of Psychoeducational Assessment,2014,32(3):236-248.

    [16]BATRK R, IIKOLU N. Analyzing process quality of early childhood education with many facet rash measurement model[J]. Educational ences: Theory and Practice,2008,8(1):25-32.

    [17]陈德枝,秦金亮,李克建.托幼机构教育质量评价中评委偏差的多侧面Rasch分析[J].心理科学,2016(03):628-636.

    [18][34][36]CASSIDY D J, HESTENES L L, HEGDE A, et al. Measurement of quality in preschool child care classrooms: an exploratory and confirmatory factor analysis of the early childhood environment rating scale-revised[J]. Early Childhood Research Quarterly,2005,20(3):345-360.

    [20]SYLVA K, SIRAJ-BLATCHFORD I, TAGGART B, et al. Capturing quality in early childhood through environmental rating scales[J]. Early Childhood Research Quarterly,2006,21(1):76-92.

    [21]HOWARD S J, SIRAJ-BLATCHFORD I, MELHUISH E C, et al. Measuring interactional quality in pre-school settings: introduction and validation of the Sustained Shared Thinking and Emotional Wellbeing (SSTEW) scale[J]. Early Child Development & Care,2018(08):1-14.

    [22]陸莉,刘鸿香.皮博迪图片词汇测验(修订版—甲式):指导手册[M].台北:心理出版社,2005.

    [23]SARAMA J H, CLEMENTS D H. Interventions in early mathematics: avoiding pollution and dilution[J]. Advances in Child Development and Behavior,2017(53):95.

    [24]盖笑松.情感与社会性个别测试.儿童入学准备研究与实践[M].长春:吉林教育出版社,2007.

    [25]WEILAND C, WOLFE C B, HURWITZ M D, et al. Early mathematics assessment: validation of the short form of a prekindergarten and kindergarten mathematics measure[J]. Educational Psychology,2012, 32(3):311-333.

    [26]CLEMENTS D H , SARAMA J H , LIU X H . Development of a measure of early mathematics achievement using the Rasch model: the research-based early math assessment[J]. Educational Psychology, 2008,28(4):457-482.

    [28]戴海崎,张峰,陈雪枫.心理与教育测量学(第三版)[M].广州:暨南大学出版社,2011:88-89.

    [29]王孝玲.教育测量[M].上海:华东师范大学出版社,2005:121-123.

    [30]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004:220-222.

    [31]孔明,卞冉,张厚粲.平行分析在探索性因素分析中的应用[J].心理科学,2007,30(4):924-925.

    [35]HOLLOWAY S D, KAGAN S L, FULLER B, et al. Assessing child-care quality with a telephone interview[J]. Early Childhood Research Quarterly,2001,16(2):165-189.

    [37]SAKAI L M, WHITEBOOK M, WISHARD A, et al. Evaluating the early childhood environment rating scale (ECERS): assessing differences between the first and revised edition[J]. Early Childhood Research Quarterly,2003,18(4):427-445.

    [38][53]GPRDON R A, FUJIMOTO K, KAESTNER R, et al. An assessment of the validity of the ECERS-R with implications for measures of child care quality and relations to child development[J]. Developmental Psychology,2013,49(1):146-160.

    [42][46][55] LI K, PAN Y, HU B Y, et al. Early childhood education quality and child outcomes in China: evidence from Zhejiang Province[J]. Early Childhood Research Quarterly,2016,36:427-438.

    [43]HU B Y, MIRANDA C K M, JENNIFER N, et al. Predictors of Chinese early childhood program quality: implications for policies[J]. Children and Youth Services Review,2016,70:152-162.

    [47]周兢.学前儿童语言学习与发展核心经验[M].南京:南京师范大学出版社,2015.

    [48]刘晶波.社会学视野下师幼互动行为研究:我在幼儿园里看到了什么?[M].南京:南京师范大学出版社,2006.

    [49]吴慧鸣.操作法的原理及其在幼儿数学教育中的应用[J].学前教育研究,1995(06):43-45.

    [50]黄瑾,田方.学前儿童数学学习与发展核心经验[M].南京:南京师范大学出版社,2015.

    [51]LI K, ZHANG P, HU B Y, et al. Testing the ‘thresholds of preschool education quality on child outcomes in China[J]. Early Childhood Research Quarterly,2019,47(1):445-456.

    [52]BURCHINAL M. Measuring early care and education quality[J]. Child Development Perspectives, 2018,12(1):3-9.