摘要
近年来,中国医疗改革的深入推进对医院全要素生产率(TFP)的精确测量提出了更高的要求。现有的评估系统往往通过忽视社会福利来高估医院的绩效。本研究构建了一个新的评估框架,纳入了医疗质量和安全性因素,利用三阶段DEA-Malmquist模型分析了31个中国省份(2012-2022年)的投入-产出数据,分别在传统和改进的情景下进行了分析。研究发现了这两种视角之间的显著差异,并揭示了像COVID-19大流行这样的外部冲击的影响。主要发现是:传统方法严重高估了TFP;技术进步(TC)指数是导致这一下降的主要因素;大流行通过中断技术发展势头暴露了系统的脆弱性。未来的研究和政策实践应侧重于协调医疗技术的应用与其更广泛的社会影响,明确高质量发展的路径,并促进定期进行包括不良输出在内的TFP评估。
1. 引言
在过去十年中,中国在医疗改革方面取得了显著进展,实现了几乎覆盖所有人口的医疗保险,并大幅提高了医疗服务的可及性和可负担性。然而,医院之间发展不足和不平衡的问题仍然突出。这些挑战与世界卫生组织提出的以患者为中心的综合医疗服务全球战略相呼应,该战略强调根据个人和家庭的健康需求提供定制化的医疗服务,提高服务质量,并保持服务的可负担性(1)。学者们进一步强调了减少低价值医疗服务的必要性——那些几乎没有或根本没有健康效益的服务(2)、缺乏临床效果的服务(3),或成本效益低下的服务(4)。这些服务包括不适当或不安全的治疗(5)、不必要的程序(6)、药物滥用(7)、过度诊断以及错过的预防机会(8),所有这些都导致了系统的浪费。
在2012至2022年的医疗改革关键阶段,中国政府优先建立了价格合理、公平和高效的医疗服务体系。这一目标与世界卫生组织关于以患者为中心的综合医疗服务的全球战略高度契合。然而,在特定改革措施(如取消药品加价)的压力下,这些政策干预与不良结果(例如过度治疗或药品支出膨胀)之间的因果关系尚未得到充分理论化。因此,仍然存在一个显著差距:现有的效率测量工具往往无法考虑这些不良结果,使得医院无法明确评估其是否符合高质量发展目标。
传统的效率测量工具存在几个重要的局限性。首先,它们通常更重视数量而非质量,以医疗服务量作为主要的绩效指标。这鼓励了供应商诱导的需求,加剧了过度治疗等问题,并紧张了医患关系。其次,它们强调盈利能力而非公共福利。在市场导向的改革中,由于缺乏强有力的治理和激励机制,公立和私立医院的医疗费用都在上升,模糊了盈利性与非营利性之间的界限。第三,这些工具关注的是投入而非结果。在中国,三级医院的饱和和基层机构的能力不足导致了投资失控,造成了资源闲置和运营效率低下(9)。医院的根本使命是提供更好、更安全、更令人满意的医疗服务。当投入持续满足运营需求时,效率改进必须转向优化产出。
作为回应,本研究提出了一种更现实、更平衡的方法来评估医院的全要素生产率(TFP)。我们主张从传统的效率评估体系转向一个更全面、更符合政策目标的新体系。先前的研究已将随机前沿分析(SFA)和数据包络分析(DEA)确定为测量医院效率的两种主要技术(10, 11)。然而,这些方法仍有局限性:大多数方法都是静态的,无法捕捉年度间的效率变化,而且很少将质量、安全性和患者负担等维度纳入TFP评估。
为了解决这些不足,本文开发了一个改进的医院TFP分析框架,纳入了与质量、安全、负担和数量相关的产出指标。我们使用三阶段DEA模型并结合Malmquist指数对提出的框架进行了实证验证。我们的研究做出了三个关键贡献:首先,我们将传统的以数量为中心的TFP测量结果与整合了质量、安全性和负担的优化结果进行了比较,构建了一个多维度的投入-产出评估系统,证明了这种改进的必要性;其次,我们采用了动态分析方法来克服静态效率分析的局限性;第三,我们通过识别各地区TFP低下的原因,为地方政策优化提供了理论基础。
本文的其余部分安排如下:第1节介绍研究背景;第2节回顾相关文献;第3节概述研究框架,包括理论模型和数据来源;第4节展示实证分析并验证所提出框架的有效性。结果显示,在纳入与医疗质量、患者负担和安全相关的不良输出后,修订后的TFP估计值与传统结果有显著差异,更符合实际情况。最后一部分讨论了这些发现的含义并提出了结论性意见。
2. 文献综述
2.1 研究方法
关于研究方法,Charnes等人(12)提出了数据包络分析(DEA),这是一种用于测量决策单元(DMU)效率的模型,其中DMU一词旨在强调公共和非营利部门的管理实体。与此前使用的效率测量技术(如比率分析和计量经济学回归分析)相比,数据包络分析在识别医院效率方面更为有效(13),被认为是帮助识别和测量医院效率、从而指导下管理努力以提高效率和降低医疗成本的有效手段。这种方法在研究医院生产力方面有几个特别有用的特点(14)。由于其非参数特性,它可以轻松比较多种服务(产出)和人员及资本(投入)。本研究中的产出按治疗类型、手术数量以及门诊和急诊就诊次数进行分类,以便更好地考虑医院之间的病例组合差异。几十年来,DEA已成为医疗效率测量的基石。正如最近的综合性评论所强调的,它的非参数特性(不需要预先指定的函数形式)使其特别适合评估像医院这样的复杂多投入多产出实体(15, 16)。现代研究证实,与传统比率分析相比,DEA在识别效率低下方面仍然是一种更优的技术,为指导下管理努力以提高效率和降低医疗成本提供了更全面的视角(17, 18)。
然而,对这些方法在中国医院应用情况的仔细审查揭示了现有文献中的几个持续存在的缺陷。尽管自21世纪初以来DEA在中国医疗保健领域得到了广泛应用,但大多数研究得出的效率估计值难以比较和解释,原因是指标选择不一致、时间范围狭窄以及几乎普遍忽略了质量调整后的产出。例如,中国公立医院在不同地区的效率存在显著差异;然而,这些研究仅依赖于基于数量的输出(门诊就诊次数、住院天数),而没有考虑临床结果或患者安全(19)。同样,有研究使用三阶段DEA评估省级城镇职工医疗保险的效率,并报告了中等总体效率得分,但其分析将医疗服务视为一个同质过程,未能区分不同类型的护理或考虑服务量与护理质量之间的权衡(20)。
这些发现虽然有价值,但有一个共同的局限性:它们将效率视为“更多的产出总是更好的”,这一假设在中国医疗保健背景下尤其成问题,因为自2009年新医改以来,过度治疗、患者成本上升和护理质量波动等问题一直是国家医疗政策讨论的焦点。部分研究通过将财务效率指标纳入三阶段DEA模型来部分解决这一问题,但其研究仍主要关注成本方面的指标,没有明确模拟不良的临床结果(21)。另有研究在三阶段DEA框架内应用了基于方向松弛的测量方法(DSBM),但其不良输出仅限于环境污染,而非医疗特定的质量维度(22)。这种模式揭示了一个系统性缺陷:尽管越来越多的人认识到医院效率必须包括质量和安全维度,但至今尚未有研究将一套全面的医疗特定不良输出(包括医疗质量、患者经济负担和患者安全)整合到统一的三阶段DEA-Malmquist框架中。
为了分析动态效率变化,广泛使用与DEA结合的Malmquist指数(23, 24)。需要明确这两种方法之间的时间差异:标准DEA本质上是一种横截面技术,旨在测量单一时间点(即时间t)的相对效率,将每个DMU与根据观察数据构建的最佳实践前沿进行比较。相比之下,基于DEA的Malmquist生产力指数专门为面板数据设计,通过计算连续前沿之间的距离函数比率,追踪从一个时期到下一个时期的效率变化(即从时间t到时间t+1)。这种时间分解至关重要,因为它允许研究人员区分两种根本不同的生产力变化来源:效率变化(EC),即医院是接近还是远离现有前沿(“追赶”);以及技术变化(TC),即前沿本身是向外还是向内移动(“创新”)。没有这种分解,政策制定者无法确定观察到的生产力提升是由医院管理的真正改进还是仅仅是行业内的技术扩散驱动的。最近的应用继续证明了其在跟踪医院绩效和识别最佳实践方面的实用性,例如在研究政策改革或技术进步对医院生产力影响的研究中(25, 26)。
虽然DEA非常普遍,但随机前沿分析(SFA)是一个重要的参数化替代方法。一些研究人员认为SFA更为优越,因为它可以将效率低下与随机统计噪声区分开来,承认偏离效率前沿可能是由于医院无法控制的因素造成的。在DEA和SFA之间选择仍是一个关键的方法论考量,近期文献经常比较它们的结果或同时使用两者以提供更稳健的效率评估(27)。事实上,医疗效率和生产力的测量已成为一个丰富的研究领域,非参数(DEA)和参数化(SFA)技术都被广泛使用并不断改进(28)。
为了进一步说明为什么本研究选择DEA-Malmquist方法而不是SFA来进行全要素生产率(TFP)估计,图1展示了这两种方法的概念性比较。如图所示,虽然SFA通过其参数结构优势可以区分统计噪声和效率低下,但在本研究的背景下它面临三个根本性限制。首先,SFA通常需要预先指定的生产函数(例如Cobb-Douglas或Translog函数),这可能对输入和输出之间的函数关系施加了限制性的假设——当处理多个不符合标准生产理论的不良输出时,这一假设尤为成问题。其次,SFA本质上是为单输出或有限多输出环境设计的,难以同时模拟本研究提出的三种不良输出(医疗质量缺陷、患者负担和安全事件)。第三,尽管SFA可以扩展到面板数据设置以进行TFP估计,但它需要额外的建模假设(例如时变效率分布),并且不像Malmquist指数那样自然地分解TFP为效率变化和技术变化成分。
此外,方法论的进步促使人们将DEA与其他技术结合使用,以解决其局限性。例如,已经开发了结合DEA和多标准决策(MCDM)方法的混合模型,如层次分析法(AHP),以更全面地整合专家判断和排序DMU(29, 30)。还有一些研究利用模糊逻辑处理数据中的不确定性,并将DEA与机器学习算法结合以预测效率并识别关键驱动因素(31)。近年来,这些先进方法越来越多地被应用于中国医院的效率测量中,反映了全球向更复杂的分析框架发展的趋势(22, 32)。与2022年至2025年间发表的最新研究进行系统比较后发现,所提出的三阶段DEA-Malmquist框架具有几项显著优势。某研究使用DEA-Malmquist方法评估了葡萄牙的合并医院,但未纳入三阶段环境调整,从而导致效率估计可能受到外生因素的干扰(26)。另一研究采用了动态网络DEA方法来分析医疗保健行业,虽然能够捕捉时间间的关联性,但并未像Malmquist指数那样系统地将全要素生产率(TFP)分解为效率变化和技术变化(25)。还有研究使用SFA方法考察了西班牙公共医院的效率异质性,并纳入了质量变量,但其参数化方法限制了能够同时建模的输出数量(33)。关键的是,这些近期研究没有将三阶段环境调整、Malmquist TFP分解以及多维度不良输出整合到单一的统一框架中。本研究通过整合这些组成部分,实现了对中国医院生产力的更细致和具有政策意义的分析。
为了衡量生产力,本文将采用基于数据包络分析(DEA)的Malmquist指数方法。有效使用此方法的先决条件是建立一个能够全面反映投入和产出的指标体系。上述文献中指出的缺陷——特别是忽略了质量调整后的输出、缺乏时间分解以及没有环境调整——直接影响了表1中指标的选择。每个指标类别都是为了弥补现有文献中的特定不足而设定的,具体内容将在以下小节中详细说明。
### 表1:指标分类
#### 投入指标
1. 在职医生数量
2. 注册护士数量
3. 床位数量
4. 固定资产
5. 卫生支出
#### 输出指标
1. 门诊就诊人数
2. 住院出院人数
3. 住院手术次数
#### 环境变量
#### 传统指标
1. 在职医生数量
2. 注册护士数量
3. 床位数量
4. 固定资产
5. 卫生支出
#### 改进指标
1. 在职医生数量
2. 注册护士数量
3. 床位数量
4. 固定资产
5. 卫生支出
1. 门诊就诊人数
2. 住院出院人数
3. 住院手术次数
4. 门诊药品费用占比的倒数
5. 住院药品费用占比的倒数
6. 门诊检查费用占比的倒数
7. 住院检查费用占比的倒数
8. 急诊死亡率倒数
9. 自付医疗费用占比的倒数
10. 总死亡率倒数
1. 人均GDP
2. 城市化率
### 医院全要素生产率测量指数
### 2.2 投入-输出指标
投入和输出指标的选择对DEA研究的有效性至关重要。早期研究主要关注医院活动的定量指标。全面回顾文献后可以发现,传统的投入指标通常包括劳动力(如医生、护士数量)、资本(如床位数量、固定资产价值)和材料。相应的,输出指标则侧重于服务量,例如住院天数、门诊就诊次数和手术次数(34, 35)。这种做法虽然基础,但因其忽略了医疗质量而受到批评,因为它隐含地假设“数量越多越好”,而没有考虑所提供的护理效果。
为了解决这一局限性,近年来的一个重要趋势是将质量指标纳入效率模型。开创性研究认为应将质量作为医院输出的重要组成部分,而不仅仅是简单的数量统计(36, 37)。现代应用通常将质量指标视为理想输出(如成功的治疗结果)或医院力求最小化的不良输出(如死亡率、再入院率)。例如,近期研究将风险调整后的死亡率、再入院率和医院获得性感染率作为非理想输出,认为真正高效的医院必须提供高质量的护理而不仅仅是大量的服务(33)。这种同时对效率和质量的关注现在被认为是最佳实践,因为它防止了医院通过削减护理质量来提升效率的虚假现象(38)。具体而言,像院内死亡率这样的不良输出通常通过取其倒数来建模,使它们被视为医院应最大化的“良好”输出(39)。除了死亡率外,还包括其他质量指标,如医院感染和患者安全事件,以提供更全面的医院绩效评估(40)。
将不良输出纳入DEA框架不仅是方法上的改进,更是实质性的提升,增强了全要素生产率测量的真实性、全面性和科学严谨性。越来越多的文献支持这一观点。Tone(41)指出,在DEA模型中忽略不良输出会导致效率估计偏差,因为提供低质量护理的医院可能会被人为地评为高效。同样,Hailu和Veeman(55)表明,将不良输出视为可自由处置的(即忽略其负面影响)违反了生产理论的基本原则,导致生产率评估的误导。最近,Zhang等人(56)从中国制造业领域提供了实证证据,表明包含不良输出的模型得出的效率排名与传统模型显著不同且更具政策相关性。在医疗保健领域,Cheng等人(25)认为,将与质量相关的不良输出排除在医院效率模型之外会形成一种扭曲的激励结构,使得医院因追求产量最大化而牺牲患者福利。这些研究共同表明,纳入不良输出对于产生反映医院服务真实社会价值的效率估计至关重要。
尽管存在这种全球趋势,但在许多研究中,中国医院的效率测量仍然主要集中在定量指标上。关于中国公立医院的研究常常选择医生、护士数量和床位数量等投入指标,以及门诊/急诊就诊次数和住院天数等输出指标(19)。然而,越来越多的文献开始通过纳入质量和结果指标来填补这一空白。例如,一些研究开始包括健康结果或成本效益指标(如每次出院的成本),以更好地反映所提供的护理价值(37)。这一转变表明,中国逐渐意识到需要将效率评估与医疗系统的最终目标——改善民众健康——相一致。
尽管这种认识不断增长,但现有文献尚未为特定不良输出变量的选择提供足够严格的理论依据。本研究基于经济理论、卫生政策逻辑和实证先例,选择了三个不良输出——医疗质量、患者负担和安全。选择这三个具体变量而非其他潜在变量(如医疗废物、碳排放或医生负担过重),是基于以下考虑:
#### 2.2.1 医疗质量作为不良输出
从经济角度来看,医疗质量缺陷(如高再入院率、治疗失败率或误诊率)代表了一种“负面生产”,消耗资源但并未带来相应的健康效益。评估医疗质量的经典框架区分了结构、过程和结果三个维度,当临床标准未达到时,这三个维度都可能导致不良结果(42)。在中国背景下,国家卫健委的年度医院绩效评估系统明确将质量指标(如治愈率提升率、31天内的再入院率)作为核心指标,反映了政策共识,即质量缺陷是医院效率低下的直接体现。此外,供给诱导需求的经济理论表明,在按服务收费的环境中(43),医院可能有财务动机过度治疗患者,从而产生过多或不必要的服务,增加产量同时降低质量。通过将医疗质量作为不良输出,本研究直接捕捉了这种数量与质量之间的权衡,这正是中国医疗改革议程的核心。
#### 2.2.2 患者负担作为不良输出
患者经济负担通常通过每次就诊的自付费用或医疗支出占收入的比例来衡量,从福利经济学和卫生公平的角度来看都是一个关键的不良输出。世界卫生组织指出,由于医疗费用导致的财务灾难和贫困是实现全民健康覆盖的主要障碍,中国2009年的新医疗改革明确将减轻患者经济负担作为核心政策目标。从生产经济学的角度来看,高患者负担表明医院的生产过程产生了由患者而非医院本身承担的负面外部性。这一点在中国尤为重要,尽管保险覆盖取得了显著进展,但自付医疗费用仍占总医疗支出的约27%。将患者负担作为不良输出可以确保那些仅通过将成本转嫁给患者而看似高效的医院在效率排名中受到适当惩罚。这一变量体现了医院绩效的公平性维度,这是纯粹基于产量的效率模型所缺乏的。
#### 2.2.3 患者安全作为不良输出
患者安全事件(包括医院获得性感染、用药错误、手术并发症和不良事件)是最直接且可测量的医疗生产失败形式。医学研究所的里程碑报告《人都会犯错》指出,医疗错误是可预防伤害的主要原因(44),后续研究也表明,安全事件在临床上意义重大且经济代价高昂,会增加住院时间和治疗费用。在中国,患者安全已成为国家优先事项:中国医院协会每年更新的《国家患者安全目标》规定了具体的安全协议和报告要求。从DEA方法论的角度来看,安全事件作为不良输出特别合适,因为它们直接归因于医院生产过程(例如,环境污染可能与医院运营间接相关)。此外,安全事件会造成明显的资源消耗:额外的治疗、延长住院时间和法律责任都会消耗本可用于提供有效医疗服务的资源。选择安全事件而非其他潜在不良输出(如医疗废物或碳足迹)的理由在于,安全事件与医院管理决策更为直接相关,与临床结果联系更紧密,且更具政策操作性。
这三个不良输出共同提供了对医院生产“阴暗面”的全面评估:医疗质量反映了临床效果的失败,患者负担反映了公平性和负担能力的失败,安全则反映了过程和系统的失败。这一三重框架符合医疗改进的三大目标(更好的护理、更好的健康和更低的成本),同时具体适应了中国医疗体系的现实和政策优先事项。这三个变量的理论依据还得到了中国官方医院评估框架(包括国家医院绩效评估系统和按DRG支付的改革指标)的支持,确保所选变量在学术上严谨且具有政策相关性。
### 2.3 总结
尽管已有大量研究探讨了医疗保健领域的绩效评估,但仍存在显著的方法论和背景限制。这些不足尤其在三个关键领域尤为明显。首先,评估方法需要进一步改进。许多数据包络分析(DEA)研究仅纳入一种类型的不良输出(通常是医疗废物),忽视了医疗错误和过度治疗等隐含的负面外部性。虽然偶尔也有研究将死亡率作为不良输出纳入,但能够系统捕捉效率低下和伤害多方面影响的多元框架尚未完善。此外,多阶段建模与动态分析之间存在脱节。现有研究通常孤立地应用三阶段DEA模型和Malmquist指数:前者调整静态效率以考虑环境因素,后者跟踪生产力的时间变化。缺乏如本研究提出的综合“三阶段DEA-Malmquist框架”,阻碍了环境调整和动态生产力演变的同时分析。
其次,在研究视角和时间范围方面也存在局限性。许多研究集中在早期时期(如1984-2014年),未能涵盖2012年至2022年间中国医疗改革的关键阶段。这十年见证了分级诊疗和按诊断相关组(DRG)支付改革等政策的密集实施;然而,这些政策对医院全要素生产率(TFP)的长期影响尚未得到充分研究。此外,不同地区和医院类型之间的生产力驱动因素的异质性也尚未得到充分探索。尽管东西部地区之间的效率宏观差异已有明确记录,但很少有研究深入探讨其背后的机制。这种侧重于描述性比较而非因果机制的研究限制了政策建议的精确性,未能解决不同医院类型的特定发展需求。
最后,研究发现的实际应用和相关性也存在不足。现有文献通常报告总要素生产率(TFP)的趋势,但没有区分特定组成部分的贡献,例如技术进步和规模效率。这种缺乏细节的做法阻碍了医院识别改进的关键切入点,并削弱了政策干预的针对性。此外,中国的国内研究往往局限于本地样本,对国际方法论的借鉴有限。因此,一个系统化、基于本地实际情况的医院改进计划尚未建立。鉴于这些不足,本研究旨在开发一个更加连贯和全面的指标体系来评估医院的TFP。由于各个卫生系统的政治、经济和社会环境差异较大,目前尚无普遍接受的投入-产出指标集。为了解决这个问题,我们构建了一个与当前中国政策环境相一致的评估框架。具体来说,我们将医疗质量、医疗安全和患者负担作为不良输出指标纳入传统的TFP测量模型中。这三个变量的选择基于一个严格的理论框架,该框架整合了Donabedian的质量模型、关于负外部性的福利经济学原理以及医疗改进的三重目标——所有这些都在中国的具体卫生政策背景下进行考虑。这种扩展旨在更好地捕捉医院绩效的社会和临床维度,超越了仅由数量和成本主导的传统效率衡量标准。通过将这些不良输出纳入一个三阶段的DEA-Malmquist框架中,本研究提供了一种方法论上的进步,直接解决了文献回顾中指出的三个方面的问题:方法论改进、时间和环境的关联性以及推广适用性。
3 方法
基于现有的研究成果,本文使用典型相关分析法来测试医院总要素生产率测量中投入和产出指标之间的相关性,并使用三阶段数据包络分析法来分离现实经济环境中的区域发展、人口特征、文化水平和其他环境因素,最后计算医院的总要素生产率(见图2)。
3.1 三阶段DEA模型描述
虽然传统DEA模型的实际操作更为简单,但医院在实际经济环境中的效率也会受到区域发展、医疗和卫生规划、人口特征和文化水平等环境因素的影响。为了解决这个问题,可以使用三阶段DEA模型(46, 47)。第一阶段使用传统DEA模型进行初步计算。在第二阶段,使用随机前沿模型对上一步获得的投入变量松弛值和决策单元无法确定的環境变量进行回归分析,然后分离出管理低效率,并将决策单元置于一个完全一致的外部环境和随机干扰中。在原投入变量调整和随机干扰调整之后,第三阶段使用第一阶段的DEA模型基于调整后的投入变量来测量效率。基于上述分析,本文选择三阶段DEA模型来测量中国医院的总要素生产率。
3.1.1 第一阶段
使用传统DEA模型计算初步的总要素生产率。根据我们的研究目的和实际情况,本文选择BCC模型作为三阶段DEA模型的基本模型,并使用Deap2.1软件来测量第一阶段的初步总要素生产率。
3.1.2 第二阶段
SFA回归消除了环境因素和统计噪声。第二阶段的主要目标是将第一阶段的松弛变量分解为上述三种效应。为了实现这一目标,仅借助SFA回归,将第一阶段的松弛变量对环境变量进行回归,同时考虑混合误差项。在第二阶段,使用Frontier4.1软件来计算调整后的投入量。根据Fried等人的观点(48),构建以下类似的SFA回归函数(见方程1):
Sni = f(Zi; βn) + vni + μni; i=1,2,3,…,I; n=1,2,3,…,N
其中,Sni是第i个决策单元(地区)第n项的松弛变量,Zi是可观察的环境变量向量,βn是待估计的环境变量系数向量,vni+μni是混合误差项,vn代表随机误差,μni代表管理低效率。v ~ N(0,σ²)表示随机干扰因素对投入松弛变量的影响,μn代表管理因素对投入松弛变量的影响,假设它遵循正态截断分布,即μ ~ N+(0,σ²)。为了衡量随机干扰的影响,需要使用SFA模型的回归结果估计值和管理低效率的条件估计来分离随机干扰和管理低效率,并通过方程2-4计算随机误差项(49):
E(μ|ε) = σ* [φ(λ(ε/σ))Φ(λε/σ) + λεσ], σ* = σμσv, σ = √(σ²μ + σ²v), λ = σμσv
E[vni|vni+μni] = Sni − f(Zi; βn) − E[μni|vni+μni]; i=1,2,3,…,I; n=1,2,3,…,N
Xani = Xni + [max_j(f(Zi; ˆβn) − f(Zi; ˆβn)] + [max_j(vni) − vni]; i=1,2,…,I; n=1,2,…,N
其中,Xani是调整后的投入,Xni是调整前的投入,max_j(f(Zi; ˆβn) − f(Zi; ˆβn))是外部环境因素的调整,max(vni) − vni是为了使所有决策单元处于相同的运气水平。
3.1.3 第三阶段
传统DEA模型只能进行单一年度的每个决策单元的横向比较,无法分析连续年份的总要素生产率,也无法了解不同时期每个决策单元的总要素生产率。受限因变量模型(以下简称“Malmquist模型”)可以用来衡量各决策单元多年来的生产率变化,并进一步细分生产率变化的原因。它主要用于比较不同时期的决策单元(50)。通过调整后的投入-产出变量,使用Deap2.1软件最终计算Malmquist生产率变化指数,即总要素生产率。此时,效率已经排除了环境因素和随机因素的影响,从而更为真实和准确。
3.2 数据和变量
使用三阶段DEA模型估计医院总要素生产率需要指定投入、产出和环境变量。传统的医院TFP测量主要依赖于反映经济效率的产出指标,如门诊就诊次数、出院人数和住院手术次数。然而,为了应对患者需求的变化,代表社会效益的产出指标——包括医疗质量、患者负担和医疗安全——已成为评估医院生产率的重要组成部分。为了便于比较分析,本研究将医院投入-产出指标体系分为两个维度:传统和改进的。具体指标详见表1。
3.2.1 传统指标
本研究选择的医院效率指标遵循科学相关性、数据可用性和概念一致性的原则。投入指标包括执业医师数量(X1)、注册护士数量(X2)、医院床位数量(X3)和总卫生支出(X5)。由于数据可用性的限制,使用了更广泛卫生机构的固定资产作为各个地区医院固定资产投入的代理变量。这种代理方法在其准确性和潜在偏差方面需要仔细考虑。采取了若干措施以确保该代理变量能够准确反映医院的资本投入。首先,中国卫生系统的结构组成是医院——特别是二级和三级医院——占卫生行业固定资产的绝大多数。根据《中国卫生统计年鉴》,医院拥有卫生系统大约78.3%的固定资产,而初级卫生机构(包括社区卫生中心、乡镇卫生中心和村卫生室)总共只占约15.2%,其余6.5%分配给专业公共卫生机构。这种集中意味着总固定资产数字主要由医院资产驱动,减少了非医院实体的扭曲。其次,构成固定资产价值的资本密集型设备和基础设施(如先进的诊断成像设备、外科设备和专业医疗设施)几乎全部集中在医院,而不是初级卫生机构。初级卫生机构通常配备最少的资本设备,主要提供基础的诊断和预防服务。因此,卫生机构的固定资产统计有效地反映了医院运营的资本强度。第三,为了进一步验证这一代理变量,我们进行了敏感性分析,比较了不同地区医院床位比例与总卫生机构床位比例的关系。代理变量与医院特定资本指标之间的关系相关性超过0.92,表明该代理变量能够可靠地近似医院的资本投入。尽管如此,我们认识到这是一个局限性,并建议未来的研究如果能够获得医院特定的财务数据,应采用更细致的资本衡量方法。
对于产出指标,选择以下指标:门诊就诊次数(Y1)、医院出院人数(Y2)和住院手术次数(Y3)。
3.2.2 改进指标
医院的总要素生产率(TFP)不仅应反映基于服务量的经济收益,还应反映与质量、安全和可负担性相关的社会效益。医疗服务的提供不可避免地涉及权衡,如医疗质量不足、不良事件和患者经济负担。虽然增加服务量可能提高经济效率,但医疗错误、安全事件和自付费用上升等问题可能会损害社会福利。因此,在效率建模中,数量化的服务量被视为期望的产出,而与医疗质量、安全和患者负担相关的指标则被归类为不良产出(24, 51)。将不良产出纳入DEA框架提高了TFP测量的现实性、全面性和科学严谨性。遵循文献中的常见做法,本研究在DEA模型中使用患者负担、医疗质量和安全指标的倒数作为期望输出的代理。然而,对于不良输出的转换方法的选择是一个重要的方法论决策,特别是考虑到最近在效率测量技术方面的进展。
3.2.2.1 不良输出处理的方法论考虑
倒数转换方法:倒数转换(1/y)是将不良产出y转换为“良好”产出(1/y)的一种最早且最广泛采用的方法,可以在标准DEA框架内进行最大化。这种方法的理论基础是减少不良产出(例如死亡率)相当于增加其倒数,从而与传统DEA模型的产出最大化方向保持一致。倒数转换的主要优点包括:(1)计算简便,因为它不需要修改标准DEA软件或算法;(2)可解释性,因为转换后的变量与原始不良输出保持直接关系;(3)在卫生效率文献中有既定先例,便于与早期研究进行比较。这种方法已在许多医院效率研究中得到应用,包括开创性的工作(39, 40),为纵向和跨研究比较奠定了基础。
限制和凸性问题:尽管倒数转换被广泛使用,但在最近的方法论文献中受到了越来越多的质疑。一个根本问题是DEA生产可能性集背后的凸性假设。倒数转换是一种非线性转换,在某些条件下可能会违反生产前沿的凸性。具体来说,当原始不良产出在决策单元(DMUs)之间存在显著差异时,倒数转换可能在转换后的输出空间中创建一个非凸区域,从而导致效率估计的偏差。作者证明了只有在关于不良产出分布的限制条件下,倒数转换才能保持凸性(52)。当这些条件不满足时——例如死亡率或成本份额的分布高度偏斜时——效率前沿可能会呈现不符合经济意义的生产关系。这对于本研究尤其相关,因为不良产出(死亡率、成本份额)在中国不同地区和医院类型之间可能存在显著差异。
现代替代方法:方向距离函数(DDF)和基于松弛的测量(SBM):当代效率研究越来越倾向于使用在原始尺度内处理不良输出的方法,避免非线性转换引入的潜在扭曲。出现了两种突出的方法:方向距离函数(DDF)和基于松弛的测量(SBM)。方向距离函数使用一个方向向量来同时扩展期望产出和收缩不良产出(53, 54)。这种方法保持了所有变量的原始规模,并明确模拟了可取和不可取生产之间的权衡。方向性距离函数(Directional Distance Function, DDF)已广泛应用于环境效率研究,并在医疗效率研究中获得了关注。这一点在他们使用基于方向性松弛度(directional slacks-based measure)的评估中国医疗效率的研究中得到了体现(22)。这种由Tone(41)开发的松弛度基测量方法提供了一种非辐射性(non-radial)的方法,可以直接纳入不可取的产出而不需要进行转换。SBM模型将不可取的产出视为效率计算中的输入,认识到减少不可取的产出需要与使用输入类似的资源消耗。这种方法已被扩展到非辐射性的超效率(non-radial super-efficiency)背景下,用于急诊科室绩效评估(51)。SBM框架有几个优势:它不需要强可处置性假设(strong disposability assumption),允许不同产出之间的改进不成比例,并且自然能够适应不可取产出的零值(在逆向转换下这些值将是未定义的)。
3.2.2.2 本研究方法选择的理由
鉴于上述方法学考虑,本研究出于几个原因保持了逆向转换方法,同时承认其局限性以及未来改进的潜力。首先,本研究的主要目标是评估纳入不可取产出对医院全要素生产率(TFP)测量的影响,而不是开发或验证新的方法论方法。逆向转换提供了一个透明且可复制的基准,可以与现有文献进行比较。本研究的方法论贡献在于将多个不可取产出维度(质量、安全、负担)整合到三阶段DEA-Malmquist框架中,而不仅仅在于所采用的特定转换技术。其次,本研究的数据特征缓解了与逆向转换相关的一些凸性(convexity)问题。我们数据集中的不可取产出——死亡率和成本份额——显示出相对有界的分布,没有极端异常值,这些异常值可能会导致严重的非凸性。这些变量的变异系数在0.15到0.35之间,表明分散程度适中,不太可能产生显著的前沿扭曲。第三,本研究采用的三阶段DEA框架包括一个初始阶段,该阶段使用随机前沿分析(stochastic frontier analysis)调整环境因素和统计噪声。这个调整过程有助于在效率计算之前标准化输出分布,从而可能减少逆向转换引入的任何非凸性影响。
3.2.2.3 敏感性分析和稳健性检验:为了评估转换方法选择对我们结果的潜在影响,我们对数据子集进行了初步的敏感性分析,比较了逆向转换和SBM方法得出的效率得分。两组效率得分之间的斯皮尔曼等级相关系数(Spearman rank correlation)为0.87,表明效率排名具有中等到高的一致性。然而,我们观察到逆向转换倾向于为不可取产出值非常低的决策单元(DMUs)产生略高的效率得分,这与极端情况下凸性违规的理论预测一致。基于这项敏感性分析,我们建议未来关于中国医院效率的研究采用DDF或SBM方法作为主要方法,并报告逆向转换的结果以与早期研究进行比较。方向性距离函数(Directional Distance Function)特别适合中国的医疗环境,因为它可以明确模拟同时扩大服务提供和减轻患者负担以及提高质量的双重目标,这与中国医疗改革的目标一致。
对于当前的研究,我们继续使用逆向转换方法,同时明确承认这是一个方法学上的局限性。所呈现的效率和TFP估计应该理解为,尽管使用其他转换方法可能会得出不同的数值结果,但根据我们的敏感性分析观察到的稳健性,总体模式和政策含义预计在质量上是一致的。
3.2.2.3 患者负担指标
中国医疗改革的一个关键目标是保持医疗费用的合理性。为了捕捉患者的经济负担,我们使用了门诊和住院环境中药物和检查成本份额的倒数:
Y4:门诊药物成本份额的倒数。
Y5:住院药物成本份额的倒数。
Y6:门诊检查成本份额的倒数。
Y7:住院检查成本份额的倒数。
Y9:自付医疗费用份额的倒数。
药物或检查成本份额越低,指数值越高,表明经济负担越轻,TFP越高。
3.2.2.4 医疗质量指标
医疗质量是医院的核心竞争力。在中国这种情况下——三级医院过度拥挤,而初级/二级医院利用不足——提高质量调整后的TFP至关重要。急诊护理结果反映了技术和经验能力,因此我们使用:
Y8:急诊死亡率の倒数
较低的死亡率产生较高的指数值。虽然存在其他质量指标,但由于数据可用性,这里使用了急诊死亡率。
3.2.2.5 医疗安全指标
医疗安全意味着患者在治疗过程中不会遭受可预防的伤害、损伤、缺陷或死亡。不安全的护理会延长疾病 duration,使治疗复杂化,增加成本,并可能导致纠纷。例如,医院获得性感染(hospital-acquired infections)表明了安全方面的失败。我们采用:
Y10:总体死亡率的倒数
较低的死亡率对应较高的安全得分。与质量指标类似,数据限制了我们只能使用这个指标,尽管在有数据的情况下可以纳入其他指标(见表2)。
表2 分类
变量名称 描述
输入指标
X1 各地区医院的执业医师数量
X2 各地区医院的注册护士数量
X3 各地区医院的床位数
X4 各地区医疗卫生机构的非流动资产(固定资产)
X5 各地区公共预算中的医疗卫生支出
输出指标
Y1 各地区医院的门诊咨询次数
Y2 各地区医院的住院患者数量
输出指标
Y3 各地区医院的住院手术次数
Y4 各地区门诊患者平均医疗费用的倒数
Y5 各地区医院平均医疗费用比例的倒数
Y6 各地区门诊检查费用与平均医疗费用的倒数
Y7 各地区住院患者检查费用与医疗费用的比例的倒数
Y8 各地区医疗卫生机构急诊死亡率的倒数
Y9 各地区城市居民医疗保健支出与消费者支出的比例的倒数
定义和描述医院投入-产出指标。
3.2.3 环境变量
环境变量被定义为影响医疗服务行业全要素生产率的因素,但这些因素超出了医院管理的直接控制范围。为了考虑地区社会经济环境的变化,本研究引入了两个环境变量:
(1)经济环境变量:用人均GDP表示,反映经济发展水平。每个地区和时期的数据都使用价格指数调整到2000年基年,以确保随时间的可比性。
(2)社会环境变量:用人口城市化率表示,衡量每个地区相应时期城市人口的比例。
4 实证分析
4.1 典型相关性分析(CCA)结果
本研究使用SPSS 26对中国的31个省级地区的投入和产出指标进行了典型相关性分析(Canonical Correlation Analysis)。实证结果表明,典型变量具有统计学意义(假设检验阈值p < 0.05),并且2012-2022年期间投入和产出变量之间的第一对典型相关系数始终超过0.5。如表3所示,这些发现表明每一年观察到的第一对典型变量之间存在强烈且稳定的关联。
表3 年份 相关性 特征值 Wilk统计量 分子自由度 分母自由度 显著性
2022 0.996 10 5.07 0.000 9.106
2021 0.995 10 8.53 10.000 8.160
2020 0.993 7 5.506 0.000 7.114
2019 0.995 10 1.476 0.000 8.324
2018 0.995 16 8.204 0.000 6.859
2017 0.998 20 1.506 0.000 8.293
2016 0.997 17 9.514 0.000 7.556
2015 0.997 19 8.251 0.000 8.025
2014 0.997 15 0.570 0.000 7.999
2013 0.997 11 5.625 0.000 7.489
2012 0.994 8 7.826 0.000 7.260
4.2 三阶段DEA结果
基于典型相关性分析(CCA)结果,确认了选定的医院投入和产出指标之间存在统计学上的正相关关系,验证了增加资源投入与更高的服务产出相关。这支持了后续生产率分析中指标系统的一致性和适当性。该研究使用了来自《中国健康统计年鉴》和《中国统计年鉴》(2012-2022年)的平衡面板数据集,涵盖了中国的31个省级行政区。数据覆盖了11年期间的341个决策单元(DMUs),样本量满足数据包络分析(DEA)的基本要求,因为DMUs的数量(341)远远超过了通常推荐的最低阈值——通常是输入变量数量和输出变量数量乘积的至少两倍(5个输入 × 10个输出 = 50)。因此,在下一节中应用了结合Malmquist生产率指数(Sequential)的三阶段DEA模型来衡量和分解中国医院的全要素生产率。
4.2.1 实证结果描述
Malmquist指数将全要素生产率(TFP)变化分解为几个组成部分:技术进步指数(TECHCH)、综合技术效率指数(EFFCH)、纯技术效率指数(PECH)和规模效率指数(SECH)。它们的关系定义为:
TFPCH = TECHCH × EFFCH × PECH × SECH
从经济角度来看,这些指数反映了从一个时期到下一个时期医院生产力和绩效的变化,涵盖了超出五个明确输入指标的因素——如技术、机构关系和组织声誉。具体来说:
TFPCH衡量的是相对于前一时期技术的总要素生产率变化。值大于一表示,在相同的输入水平下,医院实现了更高的产出,意味着相对技术效率的提高。
TECHCH反映了生产前沿的向上移动,代表了技术进步或创新。值大于一表明医院的技术能力有所提升。
EFFCH反映了决策单元(DMU)向最佳实践生产前沿靠拢的程度——通常称为“追赶效应”。值大于一表明管理实践、生产经验或资源利用有所改进。
PECH表示纯技术效率的变化,与管理和组织效率有关。值大于一意味着医院的管理决策和运营流程比平均水平更有效。
SECH衡量的是规模效率的变化。值小于一表明医院正在以次优的规模运营,可能需要调整其运营规模。
在这项研究中,应用了三阶段DEA模型从传统和改进的角度计算Malmquist指数。由于结果数量庞大,因此仅报告了每个地区和时期的第三阶段Malmquist指数,同时提供了第一和第二阶段的平均值。分析产生了10个效率指数:
阶段1:effch-1, techch-1, pech-1, sech-1, tfpch-1
阶段3:effch-3, techch-3, pech-3, sech-3, tfpch-3
这些指数是使用专门的效率测量软件得出的。
4.2.2 中国医院Malmquist指数平均值
表4和表5分别展示了从传统和改进的角度来看中国医院的平均Malmquist指数值。以表4为例,2012-2013年的第一阶段全要素生产率(TFP)为0.981,而第三阶段TFP为1.014。同样,表5显示2021-2022年的第一阶段TFP为0.895,第三阶段TFP为0.911。这些差异表明,中国的医院TFP受到环境因素和随机噪声的显著影响,强调了采用三阶段DEA模型的必要性。
例如,在2021-2022年,传统视角下的TFP指数为0.927,而改进视角下的TFP指数降至0.911。这表明纳入不可取产出显著改变了TFP的估计。进一步计算显示,从2012年到2022年,传统视角和改进视角下的平均TFP值分别为0.975和0.961。这意味着,当仅考虑医疗产出数量时,TFP略有增加,但当考虑不可取产出(如医疗质量、患者负担和安全性)时,TFP下降。这种下降的主要原因是技术进步指数(Table 4中的techch-3和Table 5中的techch-3)的下降,其平均增长率为-1.729%。技术进步的放缓在很大程度上抵消了纯技术效率(pech-3)和规模效率(sech-3)的改进。尽管中国在此期间增加了对医疗技术和设备的投资——这通常会促进技术进步从而提高TFP——但techch-3的下降与一些先前研究的发现一致,尽管看似反直觉。一个合理的解释可能源于罗默定律在医疗保健领域的应用:先进医疗设备的引入往往会增加对其使用的需求,从而导致更复杂的诊断和治疗程序。这反过来可能会降低医院的整体生产力。关于规模效率(sech-3),该指数在2012年至2022年间基本保持不变,为0.999,表明医院在这一时期几乎没有必要调整其运营规模。随着中国医疗改革的深入,将不良输出纳入医院全要素生产率(TFP)的测量中,可以更全面地反映经济和社会效益。2012年和2017年是医疗和卫生系统改革的关键节点。考虑到“十二五”和“十三五”规划期间政策效果实现通常有两年滞后,从2012年到2016年的平均TFP为0.958,到2017年增加到0.981。尽管2019-2020年受到COVID-19大流行的影响,TFP仍比2012-2016年增长了0.023,表明中国医院在提高医疗质量、减轻患者负担和改善安全性方面取得了进展。从2012年到2022年,平均技术进步指数(techch)为0.966,而综合技术效率(effch)、纯技术效率(pech)和规模效率(sech)指数分别为0.996、0.996和0.999。这表明技术进步仍然是TFP增长的主要障碍。同时,中国医院需要加强内部管理并积累运营经验,以扭转纯技术效率下降的趋势。2019-2020年,医院TFP明显下降。COVID-19大流行不仅仅是医疗系统需求的暂时激增——它代表了一种“战争式”或“重大灾难”情景,迫使医院从“精益运营模式”转变为“生存和应急响应模式”。这种根本性的运营转变不可避免地以常规效率和技术进步为代价。值得强调的是,技术进步指数捕捉到了发展势头的中断,而纯技术效率指数反映了系统性过载和运营扭曲——这两个方面都在统计上验证了医疗系统在大流行期间所面临的巨大压力和非凡牺牲。然而,到2020-2021年,医院TFP回升至1.076,技术进步指数为1.075,综合技术效率指数为1.001。这一恢复体现了中国医疗系统在疫情后的恢复力和适应能力。
4.2.2.2 区域医院Malmquist指数平均值
以下部分基于中国的地理划分,对各个省份的医院第三阶段Malmquist指数平均值进行了区域比较:华东、华北、华中、华南、西南、西北和东北。需要注意的是,effch-1表示第一阶段综合技术效率指数;techch-1表示第一阶段技术进步指数;pech-1表示第一阶段纯技术效率指数;sech-1表示第一阶段规模效率指数;tfpch-1表示第一阶段全要素生产率指数。如表6所示,从2012年到2022年,七个地区的医院平均全要素生产率(TFP)指数分别为0.964、0.964、0.979、0.969、0.952、0.959和0.952。其中,华北地区的TFP呈现上升趋势,这得益于综合技术效率的提高。相比之下,其他六个地区的TFP下降,主要是由于技术进步的倒退。因此,这些地区需要提高其技术进步效率。
表6
地区
优化视角Malmquist指数平均值
传统视角Malmquist指数平均值
effch-3
techch-3
pech-3
sech-3
tfpch-3
effch-3
techch-3
pech-3
sech-3
tfpch-3
上海
10.972
11
10.972
10.971
10.97
江苏
0.999
0.969
10.999
0.968
0.997
0.995
1.002
0.97
浙江
10.951
11
10.951
11
0.952
安徽
0.984
0.992
0.990
0.994
0.976
0.981
1.001
0.981
0.999
0.982
江西
10.978
11
0.978
0.995
0.996
0.999
0.996
0.991
山东
0.993
0.973
10.993
0.967
0.993
0.975
0.996
0.997
0.969
福建
0.995
0.939
10.995
0.934
0.978
0.975
0.982
0.995
0.953
华东
0.996
0.968
0.999
0.997
0.964
0.992
0.977
0.993
0.998
北京
1.004
0.976
11
0.976
1.004
0.992
0.949
0.993
0.998
天津
10.951
11
0.951
11.011
0.954
11.011
0.964
山西
0.977
0.972
0.983
0.994
0.949
0.978
0.985
0.978
10.964
河北
0.989
0.977
0.987
1.001
0.965
0.987
0.980
0.987
10.968
内蒙古
0.992
0.985
0.966
1.027
0.977
0.984
0.995
0.988
0.995
0.979
华北
0.992
0.972
0.987
1.005
0.964
0.990
0.973
0.989
1.001
0.963
河南
0.997
0.979
10.997
0.997
0.983
0.999
0.998
湖北
10.993
11
0.993
0.996
0.997
0.998
0.993
湖南
0.971
11
0.971
11
0.991
11
0.991
华中
0.999
0.981
1.000
0.999
0.979
0.990
0.999
0.999
0.988
广东
10.965
11
0.965
10.969
11
0.969
广西
0.992
11
0.992
1.001
1.006
11
1.007
海南
10.949
11
0.949
0.975
0.999
0.980
0.995
0.974
华南
1.000
0.969
1.000
1.000
0.969
0.992
0.991
0.993
0.998
重庆
1.005
1.003
1.005
1.005
1.008
1.012
1.005
1.004
1.008
1.017
四川
10.984
11
0.984
10.988
贵州
10.977
11
0.977
10.993
11
0.993
云南
0.989
11
0.989
10.995
11
0.995
西藏
10.801
11
0.801
0.983
0.975
10.983
西南
1.001
0.951
1.001
1.000
0.952
0.999
0.991
1.001
0.998
陕西
0.989
0.992
0.989
10.980.986
1.007
0.989
0.997
甘肃
0.990
0.968
0.993
0.997
0.959
0.985
0.992
0.988
0.997
青海
0.992
11
0.952
11
0.952
0.990
0.988
宁夏
0.935
11
0.935
0.993
0.983
10.993
0.975
新疆
0.990.981
0.990.970.978
西北
0.994
0.965
0.996
0.997
0.959
0.986
0.992
0.992
0.994
0.978
辽宁
0.998
0.961
0.998
0.958
0.995
0.997
0.998
0.995
吉林
0.980.962
0.976
1.003
0.942
0.972
0.975
0.977
0.995
0.997
0.998
黑龙江
0.985
0.971
11
0.985
0.956
0.975
0.978
0.997
0.961
东北
0.988
0.964
0.992
0.995
0.981
0.973
0.984
0.997
0.998
0.997
0.993
0.998
表8总结了2012-2022年每个地区的第三阶段Malmquist指数平均值。该表大致按照国家地理区域划分,其中香港、澳门和台湾的数据未计入每个地区,而内蒙古被计入华北地区。在七个地区中,只有少数省份/直辖市——华东的上海、华北的北京、华南的海南、西北的新疆和东北的辽宁——显示出医院TFP的增长。TFP下降的原因在各省份之间有所不同,表明全国大多数地区仍有很大的改进空间。与传统视角下的平均TFP相比,只有西南地区的重庆实现了TFP值大于1。这表明中国七个主要地区的医疗部门需要进一步明确其运营目标。迫切需要从倾向于“强调数量而非质量、利润而非公共福利、投入而非产出”的传统生产力评估体系,转向更加平衡和全面的评估框架。
4.2.3 各地区医院各时期的全要素生产率指数
如表7所示,从优化视角展示了中国不同地区和时期的医院全要素生产率(TFP)指数。从2012年到2022年,23个省/直辖市的医院TFP实现了增长,包括北京、天津、河北、山西、内蒙古、吉林、黑龙江、上海、江苏、浙江、安徽、福建、江西、山东、河南、湖北、湖南、广东、广西、重庆、四川、贵州和西藏。这表明新一轮医疗改革在这些地区有效推进。
表7
地区
2012-2013
2013-2014
2014-2015
2015-2016
2016-2017
2017-2018
2018-2019
2019-2020
2020-2021
2021-2022
北京
1.055
1.003
0.99
1.002
0.988
0.962
0.742
1.318
0.902
天津
0.974
0.937
0.90
0.987
0.995
0.995
0.844
0.880.964
1.049
河北
0.968
0.988
0.921.048
0.960.965
1.111
0.803
0.911
1.013
山西
0.947
0.910.884
0.990.972
0.991
1.089
0.791
1.138
0.835
内蒙古
1.006
0.978
0.933
1.034
1.014
1.022
1.032
0.796
1.050.933
辽宁
0.942
0.930.978
0.996
0.977
1.028
1.011
0.751.094
0.914
吉林
0.975
0.989
0.917
0.982
0.983
0.959
1.060.756
1.233
0.681
黑龙江
0.957
0.904
0.922
1.025
0.992
1.041.075
0.592
1.238
0.963
上海
1.044
0.963
0.946
0.972
0.990.995
1.029
0.871.202
0.769
江苏
0.986
0.959
0.936
0.991
0.977
1.127
0.971
0.961
浙江
0.960.933
0.926
0.947
1.067
0.978
0.988
0.803
0.986
0.941
安徽
0.977
1.024
0.971
1.012
0.991
0.972
1.101
0.782
1.016
0.945
福建
0.917
0.916
0.916
1.012
0.913
0.952
1.082
0.792
0.979
江西
0.947
0.985
0.940.997
0.946
1.011
1.227
0.829
0.995
0.949
山东
0.923
0.931
0.923
1.023
1.016
0.971.188
0.774
1.103
0.88
河南
0.936
0.981
0.932
0.991
0.991
1.227
0.822
1.067
0.872
湖北
0.937
0.951
0.921
1.011
1.011
1.065
1.224
0.71.272
0.955
湖南
0.966
0.933
0.921
0.964
0.997
0.省级当局应该:(a) 建立全要素生产率(TFP)仪表板,分别跟踪传统指标和改进后的指标,以便实时监测质量与效率之间的权衡;(b) 实施绩效薪酬机制,对在服务量和减少不良输出方面同时取得改进的医院给予奖励;(c) 建立患者权益保护机制,确保效率的提升不会导致财务负担增加或安全风险降低。
5.2.3 对表现优异省份的建议
七个表现优异的省份(北京、天津、上海、山西、新疆、湖北、辽宁)应作为技术推广和最佳实践传播的区域领导者:
- 东部沿海省份:建立长江三角洲医疗效率联盟,以:
- 在省际之间标准化按诊断相关组(DRG)付费的方法;
- 制定已被证明有效减少不良输出的共同质量改进方案;
- 建立技术转移机制,使西部省份能够利用东部的创新成果而无需重复投资。
- 珍珠江三角洲:利用与香港和澳门的邻近优势,以:
- 在医院治理和效率管理方面试点国际最佳实践;
- 发展跨境质量认证体系;
- 建立鼓励持续改进的医疗旅游质量标准。
- 北京-天津-河北地区:协调区域医疗规划,以:
- 优化大都市区的资源分配;
- 实施统一的质量和安全标准;
- 建立在新冠疫情期间证明至关重要的资源共享应急响应能力。
5.2.4 全系统政策建议
5.2.4.1 完善医院全要素生产率的评价和管理机制
建立一个全面的全要素生产率评估机制,涵盖医疗质量、患者负担和安全因素,而不仅仅关注传统上的数量、利润和投入。具体而言,国家卫生健康委员会应该:
- 要求所有三级医院每年使用改进后的指标体系进行全要素生产率报告;
- 将全要素生产率绩效纳入医院领导层评估标准;
- 为医院重新认证设定最低全要素生产率阈值,并根据DEA模型第二阶段确定的区域环境差异制定差异化标准。
通过赋予医院更大的自主权和决策权,以及建立有效的问责和激励机制,使运营目标与社会目标保持一致。这应包括:
- 根据医院在传统和改进型全要素生产率指标上同时取得的改进情况,进行基于绩效的预算分配;
- 对那些在采用技术方面表现负责任的医院,下放采购权力;
- 强制公开全要素生产率指标,以促进患者选择和基于市场的问责机制。
5.2.4.2 加强政府监管
实施经济监管措施(如价格控制、市场准入规则和质量标准)和社会监管措施(包括可及性、安全性和公共服务要求),引导医院朝着公共卫生目标方向发展。根据实证研究结果,监管重点应包括:
- 对那些存在供应商诱导需求模式的省份,对高技术诊断程序设定价格上限;
- 对DRG豁免类别中的选择性手术,强制要求提供第二意见;
- 制定经质量调整的服务量目标,防止医院通过增加不良输出来提高效率。
引入基于激励的监管措施,鼓励医疗服务提供者优先考虑患者健康和社会价值,支持“健康中国”战略目标的实现。三阶段DEA研究结果表明,环境因素对全要素生产率有显著影响;因此,激励机制应:
- 考虑到各地区的人均GDP和城市化程度的差异,以确保公平比较;
- 为面临结构性劣势的省份提供过渡支持;
- 奖励医院向国家最佳实践靠拢,而不仅仅是关注绝对绩效水平。
5.2.4.3 通过协调技术管理提高医院全要素生产率
协调医疗设备的引进和使用。实证分析表明,技术进步与全要素生产率之间的关系复杂且具有地区差异性。政策不应统一限制或鼓励技术采用,而应:
- 要求在技术进步率为负的省份对设备采购进行评估,评估标准应包括对不良输出的可能影响;
- 在技术进步率为正但设备获取受限的省份建立区域设备共享网络;
- 制定区分能提升效率和技术会引发需求的技术的采用指南。
定期评估区域医院的全要素生产率。定期评估有助于监管机构和医院管理者识别不足之处,解决系统性问题,并动态调整政策,促进医疗服务在地区间的均衡发展。基于本研究的方法论,评估框架应:
- 采用三阶段DEA-Malmquist方法,确保不同地区和时间段之间的可比性;
- 报告分解后的指数(技术进步率、资源配置效率、规模经济),以便有针对性地进行干预;
- 同时跟踪传统和改进型全要素生产率指标,监测质量与效率的平衡。