政策研究有关专科毕业论文范文和公共管理和政策中的实地实验：因果推断和影响评估的视角相关论文范文例文-论文范文网

公共管理和政策中的实地实验：因果推断和影响评估的视角，本文是政策研究相关论文范文例文和公共管理和政策研究和因果方面论文范文例文.

王思琦

【摘要】实验方法作为统计学因果推断的重要方法,在公共管理与公共政策研究中得到了越来越多的应用.实地实验作为实验方法的新发展,相比传统的实验室实验和调查实验具有更高的外在效度和现实应用价值,被广泛用于变量之间的因果推断及政策与项目的影响评估中.论文在解释实验方法的统计学因果推断基础、并比较各类实验优劣势之后,举例分析了实地实验的基本原理、程序和可能出现的各种现实问题,并以公共政策影响评估为切入点讨论了中国公共管理与政策研究中使用实地实验方法面临的挑战与机遇.

【关键词】因果推断实地实验准实验自然实验影响评估

【中图分类号】D63

【文献标识码】A

【文章编号】1674 -2486 (2018) 01 -0087 -21

一、引言

实地实验（Field Experiments,也称为田野实验或现场实验）方法是近年来社会科学实验方法发展的一个新阶段.相比于传统的观察研究( ObservationalStudies),如社会科学研究方法中最常用的问卷调查与管理数据分析等,实验研究( Experimental Studies)对模型设定(Specification)和变量控制的依赖程度较小,因此不必限定过多的假设条件和想方设法找出各种控制变量.同时,实验方法通过随机分配( Random Assignment)和进行干预（Treatment,也称为处理）,能够有效克服内生性( Endogeneity)、遗漏变量(Omitted Variable)、混淆变量( Confounder)、样本选择性偏误(Selection Bias)等统计推断中的常见问题.作为目前社会科学因果推断( Causal Inference)的前沿方法,实验方法受到了越来越多的关注与应用.

在实验方法内部,不同于经典的实验室实验( Lab Experiments)通常招募学生作为实验被试( Subjects)、采用抽象的激励手段（金钱或点数）来研究诸如拍卖、决策、偏好等心理学和博弈论的理论问题.实地实验通过随机分配现实中的被试（包括个人、家庭、机构、村庄、社区、地区等不同单位）,在真实的社会经济环境( Real Setting)下,使用真实的干预手段,具有更高的外在效度( External Validity)和解释力.正是由于实地实验的结论能够推广到更大的范围中去,除了一般学术研究中的作为因果推断方法的黄金标准( Golden Standard)外,还被世界银行、世界卫生组织等国际组织和各国各地区政府广泛用于公共政策与项目的影响评估（Impact Evaluation,或称为结果评估、效果评估）中,成为非常具有现实应用价值的一种研究方法（耿曙等,2016）.

到目前为止,实地实验目前应用最多领域是经济学（罗俊等,2015）,顶级经济学期刊（AER、JPE、QJE等）几乎每期都刊有采用实地实验方法进行研究的学术论文,①涉及行为经济学、发展经济学和劳动经济学等各个领域( Hamson& List,2004；Angrist&Pischke,2008).近年来,实地实验在政治学、管理学、传播学等学科的应用也越来越广泛.

虽然在公共管理与公共政策研究中,实验方法尤其是实地实验方法的应用相对整个实证研究论文的数量来说还较少(Baekgaard et al．,2015；Doberstein,2017; Margetts,2011),但是越来越多的实验研究范式出现在国际顶级的公共管理刊物上,如最近几年,JPART、PAR、PMR、PA等刊物经常都有实验研究,其中越来越多的研究采用实地实验方法( Gregg et al．,2017).有学者认为( Grimmelikhuijsen et al．,2017；James et al．,2017),这一方法的发展趋势与“行为公共管理学”( Behioral Public Administration)研究范式的兴起是高度一致的.

这些公共管理实地实验研究涉及的研究主题非常丰富,②包括：公民对绩效信息的感知实验( Olsen,2017),公共服务中的风险偏好（Baekgaard,2017）,领导方式对绩效的影响( Belle,2013),地方政府开放性和透明性的研究(Ben - Aaronet al．,2017),透明度、知识对公民政府信任的研究(Grimmelikhuijsen,2012),司法透明度对公共信任的影响研究( Grimmelikhuijsen&Klijn,2015),使用电话来提高公民会议参与率的研究( Hock&Potoski,2013),公共服务的合作生产( Jakobsen,2013),公共组织中社会交换关系研究(Jakobsen&Andersen,2013),如何补偿公民接受的公共服务质量( Thomassen et al．,2017),公共部门领导的*与操守是否会影响雇员态度和行为( Thaler&Helmig,2015),政府繁文缛节( Red Tape)对公民满意度的影响(Kaufmann&Tummers,2017；Tummers etal．,2016),透明是否有利于败(Peisakhin&Pinto,2010),协商实验中的问责与联盟( Bouwman et al．,2017)．等等.

与国外相比,国内的公共管理与政策研究中实验方法的使用无论从选题还是数量都明显滞后,但也逐渐开始出现呼吁加强实验研究的文献(马亮,2015),这些国内外的研究趋势均表明,越来越多的公共管理与政策研究者希望采用实验方法来增加研究在因果关系建立方面的可信度,可以预期,公共管理与政策研究即将迎来方法论上的“实验转型”(景怀斌,2015；Bouwman&Grimmelikhuijsen,2016；Morton,2015).虽然国内已经有一些文献对实验方法进行了介绍和综述（周佳、景怀斌,2015；余莎等,2015）,但是实证研究仍然非常少（李明,2013）,其中采用实地实验方法的更为缺乏.

因此,本文尝试回答以下的问题,来促进实地实验方法在中国公共管理与政策研究中的应用,这些问题包括：为什么实地实验方法在因果推断中的意义如此重要？与其他实验方法相比,具有什么样的优势？公共管理实地实验的基本程序和通常面临的挑战是什么？如何在中国的公共管理制度和文化背景下使用实地实验进行因果推断和政策影响评估？

本文的结构安排如下,第二部分对统计学与计量经济学中的因果推断范式进行解释和评述,并且比较实地实验方法与其他准实验、自然实验（陈少威等,2016；马超等,2015）以及调查实验、实验室实验之间的差异（李明,2013；徐彪,2014）.第三部分举例说明了实地实验的基本原则和程序,并对实地实验中常见的困难和问题进行了分析.第四部分结合中国的制度与文化环境,对实地实验与公共政策与项目影响评估的关系进行了思考.最后的结论部分进一步对实地实验方法的意义进行了反思.

二、实地实验方法的统计原理：因果推断

(一)因果推断的反事实框架

社会科学的实验方法,其因果推断的统计学基础建立在唐纳德·鲁宾( DonaldB．Rubin)(Rubin,1974,1980)提出的反事实框架(Counterfactual Framework)之上,在这个统计学框架中,我们可以用Yi(1)表示如果实验被试i接受干预( Treatment)的可能结果,Yi(0)表示被试不接受干预时的结果.每个被试i接受干预丁.的因果效应,被定义为这两种潜在结果( Potential Outcome)之间的差,即表达式(1)：

例如,如果我们想计算某个人i读大学（放在公共政策背景下,即是接受高等教育的干预）对其将来收入的因果效应,可将其读大学后的年收入Yi(1)假设为10万元,没有读大学直接工作的年收入Yi(O)假设为4万元,那么读大学对于个体i年收入的因果效应Ti就是10 -4 等于6万元.

现实世界中,研究者面临的挑战是,在任何给定的时间点,只能观察到Yi(1)或Yi/(O)两者之一,而不能同时观察到两者.如前面的例子那样,在真实的社会中,一个人只能处于读大学和不读大学这两种状态的其中之一,不可能同时处于两种状态,只要选择了一种人生道路,另外一种道路就成为了“反事实”状态,即两者相互构成对方的反事实结果.两种状态不能同时存在的条件下,每个被试的结果可以使用表达式(2)来表示：

一般来说,我们规定干预变量di取值0或者1,因此等号右边总有一项为零.如果实施了干预(di等于1),我们将观察到干预导致的潜在结果Yi(1).如果没有实施干预(di等于0),我们将观察到没有干预时的潜在结果Yi(0).

但在之前的例子中,我们关注的是个体意义上的因果效应,而在社会科学研究,尤其是公共管理与政策研究中,通常我们并不关心某个个体的问题,研究者真正想要知道的是某项干预产生的群体意义上的因果效应,即所谓的“平均因果效应”.在潜在结果框架下,这种因果效应也被称为平均干预效应( Average Treatment Effects,ATE),我们可以将平均干预效应用表达式(3)来表示.

在实验方法中,我们将接受政策干预的研究对象命名为干预组( TreatmentGroup),而没有接受干预的研究对象,则构成控制组(Control Group)或者对照组( Comparison Group),两者互为对方的反事实比较组,即干预组是接受了干预的( Treated)控制组,控制组是没有接受干预(Untreated)的干预组.与此对应,这里的μY（1）是接受干预的群体（干预组）中所有被试干预效应Yi(1)的平均值,μY（0）是未接受干预的群体（控制组）中所有被试Yi(O)的平均值.

在实验方法的文献中( Gerber&Green,2012),这里的ATE计算公式也被称为均值差估计量( Difference in Means Estimator),①仍然采用之前读大学的例子,如果我们把一定数量的被试分配到干预组（读大学）以及控制组（不读大学）,经过几年大学教育的干预之后,可以通过计算干预组被试与控制组被试的平均收入之差,即得到接受高等教育政策干预的平均干预效应ATE.此外,ATE在不同的统计设定（主要是后文介绍的遵从性、缩减的不同状态）下,还有各种各样的变体,如ATT、ITT、CACE等.ATE估计量与传统统计方法,如回归分析等得到的各种系数相比（除非满足具体的条件,大多数情况下,这些系数体现的只是一种相关性,并不能做因果解释）,其简单性、清晰性的优势非常明显,并且与人们的直觉最为相符,不用进行各种各样的转换（如Logistic回归中Odds Ratio那样）.

由于具有随机分配和干预这两个基本程序,与传统的观察性研究相比,实验研究在建立反事实对照组的特殊优势非常明显.整个社会科学,包括部分自然科学,如医学中的随机对照试验( Randomized Controlled Trails,RCT),实验研究方法的目标,就是尽可能通过随机化( Randomization),将实验对象随机分配到干预组和控制组中,从而形成协变量高度平衡( Perfect Balanced)、在统计学意义上各组完全等价、并且可互换的反事实比较组,从而消除混淆变量、不可观察因素等通常因果推断中的障碍,得到某项政策干预产生的因果效应( Causal Effects),即排除了其他所有干扰因素,唯一由政策干预（原因）本身导致的结果.这正是公共政策的影响评估之所以采用实地实验方法为基准的理由.

(二)准实验、自然实验与实地实验的比较

虽然实验方法在因果推断方面具有无可比拟的优势（余莎、游宇,2017）.但是由于研究成本、研究观念,实施难度等问题,相比于问卷调查这类观察性研究,实验方法尤其是实地实验方法并没有在社会科学中得到广泛的应用,但已处于迅速发展的过程当中.社会科学的学术研究文献中,尤其是经济学研究中,我们最常看到的因果推断的统计与计量方法,仍然是“准实验” ( Quasi -Experiments)或者“自然实验”(Natural Experiments)①的方法(Kamkhaji,2015),一般来说,包括工具变量方法IV（Instrumental Variable）、双重差分方法(Differencein Differences,DID)、回归间断设计方法（Regression Discontinuity Design,RDD）以及倾向值匹配方法( Propensity Score Matching,P)四种.

这些准实验或者自然实验的方法,在一定程度上,可以理解为将观察性研究得到的数据,通过某种统计学的分析,模拟成为实验方法的数据（这种逻辑在倾向值匹配方法中尤其明显）,从而得到因果效应.但是,由于其数据生成过程( Date Generating Process)本身的局限性,观察性研究的本质并没有改变,很多具体的研究数据集,其内在的随机化过程,只能看成近似( As If)随机化,而非真正意义上的随机化,因此在因果推断很容易遇到各种各样的难题.②

例如,众所周知,工具变量方法中,如何选择合适的工具变量,以满足排除限制( Exclusion Restriction)和弱工具变量检验的难度非常大,公共管理与政策研究中由于学科特点,很多观察变量都是内生于制度本身的,要想找到一个合适的工具变量,难度会更大.双重差分虽然对于数据形式的要求较为宽松,但是其两个政策影响组具有共同趋势( Common Trends)的要求并不容易满足.回归间断设计中,间断点( Cut Offs)附近的带宽(Bandwidth)选择对分析结果有高度的敏感性,因此这种方法计算得到的因果效应,基本上是局部平均干预效应( Local Average Treatment Effect,LATE),很难评估大规模（时间和空间）政策的效果.倾向值匹配方法虽然解决了传统协变量匹配的困境,而且在经济学以外的领域中用得更加广泛,但匹配对于样本量大小要求较高,而且匹配程序仍然基于可观察的协变量进行,难以控制不可观察因素的影响,因此本质上仍然属于传统回归方法的变体,很难完全解决各种因果推断中出现的问题.

因此,虽然有越来越多的研究者希望将这些准实验和自然实验方法建立在基于设计的( Design Based)模式下来进行,避免纯粹的数据驱动的统计研究,以提高因果推断的效力,但是,在研究者的研究条件允许使用实验方法情况下,建议尽量采用实验设计,以避免上面讨论的各种困境.当然,准实验和自然实验研究在某些方面的优势,也是实地实验方法无法取代的,比如,实地实验由于必须采用随机化和干预程序,因此研究问题的层次不可能太高,因为过于大范围和高层次的主体很难被研究者控制与操纵.①一般来说,较长历史时期的、宏观的社会经济现象以及国家与国际层面的制度与文化问题,仍然只能采用传统的统计方法或者准实验、自然实验研究设计.②

（三）实验方法：实验室、调查还是实地？

实验方法本身也是在不断的发展过程当中,目前来看,可以将社会科学中的实验方法按照实验样本类型、实施环境、干预类型大致上分为三类,即实验室实验( Lab Experiments)、调查实验(Survey Experiments)和实地实验(FieldExperiments).必须指出的是,这种分类方法是一种相对意义上的③,现实研究中采用的实验可能是兼具三种实验的特征及其混合的方法( Belle&Cantarelli,2017; Harrison&List, 2004).

传统的实验室实验起源于心理学,并在实验经济学（尤其是行为实验经济学与博弈论）早期研究中具有重要的价值和作用,例如对于市场机制的各种研究.在实验室实验当中,由于处于相对封闭的环境中,研究者对于实验的环境以及干预有着高度的控制,大多采用专门的计算机系统和软件（如Z - Tree）,甚至专门的心理学和神经科学设备,能够获得较高的实验数据质量,避免突发和意外因素的干扰,因此在三类实验中,内部效度( Internal Validity)是最高的.

但是,实验室实验通常为了成本的考虑和研究便利性的考虑（很多研究者都是高校教师）,经常采用学生样本；并且由于研究主题的理论化,而惯于使用抽象框架( Abstract Framing)来进行干预设计；研究者在此过程中,为了保证所研究理论的简洁性,往往加入了一些规则（条件或假设）.在实验室实验中,由于样本的特殊性和研究的抽象性( Anderson&Stritch,2016),从而降低了研究的外部效度( External Validity),即结论的外推能力(Bozeman&Scott,1992；Edwards,2015).可见实验方法在外部效度与内部效度之间存在一种权衡( Trade off)关系.

调查实验,综合了问卷调查方法与实验方法的设计（孟天广等,2015）.一方面,调查实验从外在形式上,类似于传统的问卷调查方法,都是由问题及对应选项构成的,因此在纸质问卷和网络问卷环境下都可以进行实验,调查样本与问卷调查也基本一致,除了学生之外还包括普通公众.但另一方面,又具有一定的实验设计特征,即随机化与干预.随机化（随机分配）体现在问卷按照不同的干预内容被分为多个版本,按照某种随机分配方法（如问卷编号的单双号交替）分配给调查的受访者（被试）,多个版本的问卷对应了多个实验组（如n个干预组,1个控制组,n≥1）.通过问卷中嵌入的干预文字段落或者填答问卷时呈现给受访者的图片、声音或图像信息等,来实施干预( James&Ryzin,2017).

由于调查实验的干预实施和结果测量呈现都基于传统的问卷调查,因此成本与实施难度都比较低( Charbonneau&Ryzin,2015).此外,由于很多大规模问卷调查是从一个特定的研究总体中随机抽样,因此基于总体的( PopulationBased)调查实验,其结论的代表性和推广性较高,兼具了实验和问卷调查的优势.但是,由于问卷载体本身的限制,这种信息干预的强度往往较弱,并且研究主题大多限于问卷调查通常测量的态度、认知等方面( Hvidman&Andersen,2016),采用自我报告的形式,也容易受到诸如启动效应(Priming Effect)和情景效应( Context Effect)的影响(Hjortskov,2017),并且难以测量行为等客观维度的变量.

实地实验方法与实验室实验相比,研究采用的样本基本上都是现实样本（具体可以依据研究主题来确定,包括公众和机构）.如果经费和研究资源充足,可以先从某个研究总体中进行随机抽样,然后再对抽取的样本进行随机分配（类似调查实验）,这样内在效度和外在效度都可以得到保证.更重要的是,进行实地实验的环境是真实的社会环境( Field),大多数实地实验中,研究被试对于自己正在参与实验是无察觉的,即非介入性( Unobtrusive)的,避免了某些诸如霍桑效应( Hawthorn Effect)和约翰·亨利效应(John Henry Effect)①等问题.实地实验采用的干预除了实验室实验和调查实验通常的信息干预外,还可以采用多种多样的现实干预（物理的、生理的、心理的、经济的、政治的、社会的）,如果实地实验用于公共政策与项目的影响评估,这些政策与项目的内容就是干预本身.

当然,实地实验相比实验室实验和调查实验,也存在一些不足,例如,由于在真实的社会、经济和政治环境中进行实验,实验方法和结果的估计较为复杂,实验的设计、管理、实施和测量的经费成本较高,需要解决很多交通、通讯、协调和后勤问题.由于对公众的工作和生活有直接影响,也容易产生研究*问题,例如某种政策和项目会给实验对象带来实际的利益（或者实物补助、免费医疗、免费教育）,如果被分配到控制组,就意味着无法获得这些资源,从而可能陷入更加困难的境地.尤其是在实地环境下的实验,相对于实验室实验的控制程度较低,很容易遇到各种现实问题,如不遵从、样本缩减、相互干扰等.下面将在基于实地实验的程序和原理的基础上,举例来进行具体分析.

三、实地实验研究的基本步骤：一项实例

(一)开展实地实验的三个阶段

为了更清晰和具体地说明在公共管理与政策研究中进行实地实验的基本过程,①下面我们将使用一项公共管理实地实验的研究实例,来帮助读者理解.②

这个例子( Ben - Aaron et al．,2017)是发表在PAR（Public Administration,Review）上的论文《遵从导致的透明：一项评估地方政府信息公开的实地实验》.③这项研究旨在通过实地实验理解美国地方政府（县政府）信息公开程度的影响因素之一：群体遵从性( Conformity),即政府组织间的相互影响(PeerCompliance)是否会导致地方政府信息公开程度的变化.研究发现,遵从性不仅影响了地方政府履行( Fulfill)信息公开要求的初始响应时间,还影响了地方政府履行要求的比率.

研究者向北卡罗莱纳州的100个县政府提出公开政府内部电子邮件档案(E -Mail Archives)的要求(Ben - Aaron et al．,2017).研究者之所以选择电子邮件档案作为信息公开的内容,有两个原因.首先,电子邮件是大多数政府机构的标准传播媒介.第二,电子邮件是许多行政区域公共记录的一部分.研究者采用了一个顺序要求( Sequential Request)过程,来检验县政府履行信息公开要求的行为是否会受到其他县政府( Peers)已履行同样要求的影响.④

1．随机分配阶段

随机分配是实验研究的关键步骤,正是通过随机化,实验方法才能将干预组和控制组被试在各种可以观察以及不可观察特征上的差异平均分配.在实地实验中,由于随机分配的对象都是真实的社会单位（个人、机构、区域）,这些实验单位通常呈现分层和聚类的空间分布模式,因此除了实验室实验通常采用的简单和完全随机化以外,更多地采用两种随机分配方法,即区块( Block)随机化与整群( Cluster)随机化（类似随机抽样中的分层和整群抽样）.区块随机化中,被试被划分为多个亚组（或称为区块或层）,每一个区块内采用完全随机分配.例如,一项实验中我们有200个被试,其中100位男性和100位女性.实验设计要求将100个被试分配到干预条件,如果使用完全随机分配,偶然性会导致干预组中的男性与女性数量不同.区块随机化,则可以保证分配到每一实验条件的男性与女性数量相同.整群随机化中,同一个群的所有被试被随机分配到一个组,要么干预组要么控制组.整群分配可以消除多个被试在同一个群里但却被分配到不同实验条件的可能性.例如,某个村庄的所有农民被作为一个群被一起分配到干预或控制条件,这样,他们共同拥有的某种属性被置于同一种实验条件下.实施良好的区块与整群随机分配,可以在节约研究资源的同时,保证实验结果的可靠性与精度.

在这项信息公开实地实验中,随机分配的被试单位是政府机构,即北卡罗来纳的县政府( County Governments).这些县政府属于同一个州,因此具有共同的属性,即受同一部信息公开法( Sunshine Law)的约束,此外电子邮件是各地区政府共同使用的政府公务沟通手段,因此各个实验单位之间具有可比性.在实验研究的可行性方面,由于州法律规定政府公务电子邮件被视为一种公共记录(Public Records),并且编制非保密信息的成本不能由信息公开要求者承担（降低了实验经费成本）,给实地实验的进行提供了基本条件( Ben - Aaron etal．,2017).

在随机分配设计方面,由于一个州包括的县政府数量并不很大,研究者最终采用的是简单随机分配( Ben - Aaron et al．,2017).研究者将北卡罗来纳州的县随机分为两个样本：一个由40个县组成的试点样本( Pilot Sample)和一个由60个县组成的实验样本( Experimental Sample),见图1所示.然后将后一组样本分为干预组和控制组,随机分配30个县到每组.与很多实地实验研究直接进行一次随机分配不同,该研究之所以在正式随机分配前还进行了一次随机分配,是因为这些试点的县政府样本刚好构成了干预本身,即遵从信息公开的县政府（以便在后续的实验中,将其信息透露给实验县政府样本）.

2．干预实施阶段

在进行了随机分配之后,就可以开展实验干预了,实地实验干预的内容和形式非常多元化,若实地实验研究者具有足够的创造性和想象力,几乎所有行为和政策都可以被用于实地实验的干预,但其选择从根本上仍然要依据文献和理论假设,即必须充分反映研究概念和原因变量本身的内在特质.干预的数量越多,越能够反映一个变量的多个维度和多个研究变量（在政策和评估的背景下,意味着各种不同的政策方案比较）,通过因素设计( Factorial Design)等,还可以探索变量之间的交互作用.不过随着干预变量数量的增加,为了保证实验结果的统计效力,实验中干预组数量和被试数量也会急剧增加,所以必须基于经费、时间和资源等进行仔细的考虑与权衡.

在信息公开研究中,研究采用的干预是对县政府的信息公开要求,要求每个县公开所有非私人的电子邮件.这些电子邮件包括县政府管理者( CountyManagers)和各部门管理者(Department Managers)发件箱与收件箱中的电子邮件,随机选择三个月作为邮件覆盖的时间范围.①研究者通过检查每个县政府的网站,找出最有可能满足要求管理者的电子邮箱,并给其发送一份包含信息公开要求的邮件.研究者首先对试点样本中的40个县政府实施了这种干预,然后对实验样本中的60个县政府进行了同样干预.

需要指出的是,这项研究的干预并非一次性的,在等待60天后,研究者发出了第二份信息公开邮件（只对干预样本,即实验组中30个县）,邮件内容如下：“为了供你参考,我们想让你知道我们已经向北卡罗来纳州的其他县政府发出了这一请求.它们有些已经满足了我们的要求,包括xxx县等.”从研究中看到,邮件中满足了信息公开要求的县政府一共8个（这8个正是试点样本中满足了要求的县政府）.所以第二份邮件实际上才是真正的干预（体现研究理论假设中的群体遵从压力信息）.

3．结果测量阶段

实地实验研究中的测量,分为对结果变量的测量和协变量的测量.测量的工具和干预手段一样,是高度多样化的.例如在很多态度、认知相关的实地实验研究中,测量采用的是传统的问卷调查与访谈方法,可见,实地实验方法与传统社会科学研究方法之间的关系不是互斥的,而是相互配合使用的.测量有时候会在随机化之后、干预实施之前进行,即所谓的前测( Pre - Test),在政策评估背景下,有时也称为基线测试( Base Line Test).在干预之后的一段时期,可以进行后测( Post - Test)或者终线测量(End Line Test).测量也可以在实验前、实验中和实验后多次进行,以便测量变量的变化趋势乃至于长期实验结果.

这项信息公开研究中,由于实验单位是机构（县政府）而非个人,①并且没有面对面的交流,采用的结果测量实际上是一种行为测量.研究者测量了实验县的履行信息公开要求行为的两个方面：第一,干预组县政府在初步答复前已过去了多少天；第二,如果县政府做出答复,他们最终是否满足了要求.

结果发现,60个县中有44个在60天内做出了初步答复,其中干预组20个,控制组24个.平均来说,干预组县政府做出答复的天数更少,最后履行信息公开要求的比例也更高.为了在后面的数据分析（回归）中,提高平均干预效应的估计精度,减少偏误,研究者还对协变量( Covariates)进行了测量,包括每个县的人口数量、每个县的政府工作人员数量和透明度得分②.

(二)实地实验中的常见问题

如前所述,实地实验由于在真实的社会环境中,采用真实的干预,对实际的社会主体进行操作,会遇到一些在实验室实验中较为少见的问题( Gerber&Green,2012).这些问题中,比较突出的问题包括被试的不遵从(Noncompliance)、实验被试的缩减( Attrition)和实验单位的相互干扰(Interference)等.

不遵从,是由于某些被试没有接受分配的干预而产生的问题( Gerber&Green,2012).一种情况称为“单边不遵从”(One - Sided Noncompliance)或“干预失败”( Failure - to - Treat),即某些分配到干预组的被试并没有实际接受干预.另一种更复杂的情况是“双边不遵从”( Two - Sided Noncompliance),即某些分配到干预组的被试没有接受干预,同时某些分配到控制组的被试却接受了干预.

被试样本缩减,指的是实验中结果变量的数据缺失( Missing Data),可能是由于被试的迁徙流动,也可能是被试拒绝接受实验测量导致的( Gerber&Green,2012).某些类型的（往往是非随机的）缩减会对因果效应的无偏推断产生严重威胁.如果只是简单的从数据集中删除没有结果测量的观察值,意味着干预组或控制组中剩余被试不再是最初被试集的随机样本,对各组平均值的比较不再是平均干预效应的无偏估计量.

实验单位之间相互干扰,会对潜在结果框架的基本假定产生威胁,在因果推断的统计学术语中,这个假定被称为“稳定的单位干预值假定”( Stable UnitTreatment Value Assumption,SUTVA)即该被试的潜在结果只受到其自身是否接受干预的影响,与其他单位接受的干预无关.在具体的实证研究文献中,这种干扰问题有时候用溢出效应( Spillover Effect)来形象描述.

在这项信息公开研究中,由于研究样本的数量不多,实验单位都是政府机构,而且干预（电子邮件）本身是受到高度控制的,因此几乎没有出现不遵从以及样本缩减问题.①但样本间的相互干扰却可能成为一种较严重的问题,包括试点样本县政府与实验样本县政府之间的相互影响,以及实验样本内部干预组县政府与控制组县政府之间的相互影响.这些县均位于北卡罗来纳州内,区域邻近性( Proximity)以及政府管理者之间人际网络均可能导致干预的溢出效应.不过,在本研究中,由于自变量（干预）本身恰好就是这种网络扩散效应（遵从压力）,从而避免了对研究结果的干扰.

在实地实验方法中,为了处理各种各样的问题对实验数据因果推断的威胁,往往会采用各种复杂的统计和计量方法来对统计结果进行修正（例如,不采用最简洁清晰的均值差估计量,而采用包括众多协变量的回归模型来估计因果效应,以提高估计值的精度）,以获得无偏性和一致性的估计值( Gerber&Green,2012).本研究同样使用了包括协变量、交互项的多种回归模型以及置换检验( Permutation Testing)和调整模型参数（如时间）的模拟等统计方法,来增强研究结果的稳健性.

这些修正虽然一定程度上能够降低这些问题的危害性,但归根结底还是应当在实验设计一开始,就想方设法预计到可能出现的问题,并巧妙地用各种经验和诀窍来尽量避免,而不是实验结束之后对数据缺陷进行补救,否则实验数据相对于传统观察性数据的优势就会丧失殆尽.

四、实地实验的重要应用：政策影响评估

在公共管理与公共政策研究中,实地实验方法除了用于变量的因果推断之外,一项非常具有现实意义和长远前景的应用领域,就是公共政策与项目的影响评估.虽然在影响评估实践领域中,各种准实验的推断方法,如工具变量、双重差分、回归间断设计等也经常被采用,传统的问卷调查、观察、访谈等资料收集方法也是重要的组成部分,但是实地实验方法作为因果推断的黄金标准,具有不可替代的价值和作用( Gertler et al．,2016).其他方法都是在随机实地实验方法不可行的时候,才会采用,或者作为实地实验方法的补充.①

近年来,公共政策研究的一个重要发展趋势,是基于证据的政策制定或称为循证决策( Evidence - Based Policy Making)越来越被研究者和实践者（政府与非政府组织）作为政策制定的核心标准( Gertler et al．,2016),例如许多发展经济学家广泛参与到世界银行、世界卫生组织在全世界发展中国家进行的援助项目的影响评估中( Alatas et al．,2012).大规模的评估项目包括阿富汗国家重建项目（Afghanistan,s National Solidarity Program）评估,研究者采用随机对照试验( RCT)评估了项目对数百个（250个干预组村庄,250个控制组村庄）阿富汗村庄的公共服务、基础设施、社区治理、政治态度的影响( Beath et al．,2013).著名的影响评估研究机构包括隶属于麻省理工学院的“贫困行动实验室”( The Abdul Latif Jameel Poverty Action Lab,J- PAL)和“影响评估国际行动” ( International Initiative for Impact Evaluation, 31E) 等.

虽然政策和项目影响评估的全过程非常复杂,包括建立变迁理论( Theory ofChange)、确定结果链(Results Chain)、说明评估问题、选择结果指标、开展随机实验（或准实验方法）、政策结果测量、数据整理和分析、评估报告写作等( Gertler et al．,2016).但是其原则却非常简单,即致力于建立某项公共政策或项目（原因、干预）与某种影响（效果、结果）之间可信的因果关系.

传统的政策与项目评估方法,由于其在因果推断方面存在不足,往往难以建立政策（项目）和某个结果之间的确定关系( Khagram&Thomas,2010).这些不足主要体现在两个方面.其一,许多传统政策评估方法,关注于政策的实施过程评估而忽视了政策的最终效果,这些评估方法,不管采用专家评估还是第三方评估的模式,不管使用的方法是访谈、问卷调查还是数据分析,都非常强调政策过程中的投入和产出测量,例如本项目花费了多少经费、投入了多少人力物力、文件档案是否齐备、设施和场所修建情况、有没有浪费等,但往往却忽视了项目本身是否真正对干预对象的某种结果产生了实质影响,是否改善了学生的短期入学率、到校率,健康状况,乃至长期的收入、心理与婚姻,而这些才是政策的根本目标.

其二,即使某些政策与项目评估方法,关注到了结果的重要性,但是由于采用方法本身难以进行因果推断,得出了有偏的估计值.例如,很多政策与项目的效果评估采用将项目参与者的某种结果与非参与者的某种结果进行对比,即所谓的“内外比较”,有时候还采用将参与者参加项目之前与之后的某种结果对比,即所谓的“前后比较”,但这些比较方法都没有解决样本选择偏误的问题.因此,可能会将项目之外其他因素造成的结果,归结于项目本身,从而高估或者低估了政策和项目的因果效应.例如,某项政府提供的再就业培训项目,比较了参加再就业培训之前参与者的就业状态与培训后的就业状态,发现就业率有了显著的提高,于是政府大力宣传再就业项目的成功,但是这些参与培训者的就业提高,可能与宏观经济本身的改善导致失业率下降有关,而非政府培训的作用.

如果不进行培训前后比较,而进行参加培训的人员与没有参加培训人员的比较,同样也存在因果推断的困难.因为,参加培训者的某种隐藏特征（就业技能、再就业积极性、能够动用的社会关系）与非参加者有系统性的差异,正是这种差异而非政府培训项目导致了他们在再就业结果方面的不同.换句话说,参不参加培训,这些培训对象都很有可能再就业.

这种情况下,如果我们通过基于随机实地实验的方法,随机将需要再就业的人群分配到培训（干预组）与不培训（控制组）中,然后使用培训来进行干预,最后（长期或短期）进行再就业的结果测量（通过调查或者就业统计数据）,才能有效避免这些问题,建立培训项目与再就业结果之间的因果关系.

因此,在中国的现实背景下,影响评估具有特别的意义,通过将政府公共政策与项目的评估建立在影响评估的基础上,在某些情况下,就可以避免所谓的形象工程与政绩工程.通过建立在影响评估之上的问责机制,可以促使政府部门将精力花在确实有效的政策工具上,而非选择一些只有宣传效果的政策手段.

此外,通过政策影响评估,还可以对不同的政策方案效果进行比较,基于成本数据,能够得到哪种方案和哪些政策工具的组合具有最高的性价比.政策实验本身还有试点( Trial and Error)的价值：如果某种政策在某个地区或人群中被实验证明有效,那么就可以逐渐将政策用于更多地区,即扩大政策的实施范围；如果某种政策被发现缺乏实际效果或者性价比太低,也可以取消或用其他政策来替代.可以预期,通过公共政策与项目的影响评估,长期来看,可以有效提升政府的治理能力与治理水平.

五、结论

本文对实地实验方法在因果推断中的价值,实验方法的不同类型及各自的优缺点进行了深入分析,在此基础上,进一步举例说明了实地实验方法的原理、程序和常见问题,并分析了其在公共政策影响评估中的重要意义.

基于以上的分析,我们可以得到一些启示.首先,实地实验在中国的制度与文化背景下可能会面临一些挑战与机遇.例如,在公共管理与政策研究中采用实地实验方法,需要得到政府部门（或者非政府组织）的大力配合与协助,无论是抽样框架的获取,随机分配的实施,干预的进行,还是结果测量,都需要动员相当大的人力物力资源,政府部门可能出于敏感性以及对研究结果不利的担心,而拒绝配合甚至制造障碍.此外,由于实验方法在中国公众与政府工作人员中的认知与了解程度较低,使得他们更容易接受传统的问卷调查和访谈方法,不太愿意参与实验研究或者觉得多此一举或浪费资源.

当然,实地实验方法在中国公共管理与政策研究中也拥有一些独特机遇.中国快速的经济发展和社会变迁,为实验方法提供了大量的有理论意义和现实意义的研究问题,可能出现具有重大国际比较研究价值的选题.同时,如果能够取得政府部门（非政府组织）的信任,将实验研究作为其常规工作内容、政策试点和实施的一部分,通过巧妙的设计自然地融入其中,将干扰性和负面影响降低到最小程度,并且能够为公共管理与政策提供有价值的信息和建议,那么实地实验也是有很多研究机会的.

总之,实地实验在中国公共管理与公共政策的研究中发展空间是巨大的,可以预期,将会有越来越多的研究采用实地实验以及其他实验方法.但是,与最早采用随机对照试验的医学研究相比较,如果社会科学中的实验研究,缺乏医学研究那样对于研究结论的不断验证( Arceneaux&Nickerson,2009；Walkeret al．,2017)与复制(Replication),以及将同类研究聚合起来,进行各种元分析( Meta Analysis),那么,通过实验研究得到的可能是只是大量分散的、琐碎的、甚至相互矛盾的知识( Jilke et al．,2016,2017),而非对社会现象中的因果机制具有深刻洞察与理解的自洽理论.

本文总结,这篇文章为关于经典政策研究专业范文可作为公共管理和政策研究和因果方面的大学硕士与本科毕业论文政策研究论文开题报告范文和职称论文论文写作参考文献.

参考文献：

1、政策执行效果审计机制基于新公共管理的视角一、引言2014 年国务院关于加强审计工作的意见提出为了切实加强国家审计工作效率,促进政策措施有效落实,保障国家审计更好地服务于改革发展,维护经济秩序,国家审计机关需要强化对政策执行效果审计的监督力度.

2、协作性公共管理协作性公共管理（CollaborativePubli Managemant,CPM）的出现以及发展,使其很快就被西方公共管理界进行了研究然而在国家的宏观层面上来看1,一些协作以及网络路径均表现为参与.

3、新常态下公共管理的挑战与新常态最早是总书记提出的,适用于诸多领域新常态指的是具有时代特征的常态化公共管理是党治国理念中的一个重要方面在新常态下,公共管理面临着新的发展机遇和挑战,为了解决新常态下我国的公共管理面对的困境.

4、公共文化基金对非营利机构的资助：属性分类和管理我做喜玛拉雅美术馆馆长的最大收获是尝试建立起与政府资助之间的互动关系政府对美术馆的支持力度在加大,如果我不做这个馆长的话,还不会想着实际地去操作这个事 2017年美术馆申请到了浦东文化基金的两个项目.

5、公共管理环境下档案管理实践我国档案管理工作已经持续相当长的一段时间,在工作过程中,积累了丰富的实践经验,这为人们对档案管理工作进行完善提供了强有力的支持,同时也具有一定的局限性因此,档案管理过程中,应适当转变档案理念,实现对.

6、成都市涉外公共管理服务的尝试一座国际化的城市,必定是一座不同国籍人员大量聚集、高度流动且文化包容、生活便利、机会众多的城市纽约、、北京、上海……城市,都具备这些特征 2012 年,成都提出建设国际化城市的宏伟目标成都的国际化.

政策研究有关专科毕业论文范文和公共管理和政策中的实地实验：因果推断和影响评估的视角相关论文范文例文

关于政策研究毕业论文范文

相关职称论文题目

关于政策研究开题报告写作参考资料