综述：机器学习与深度学习在总有机碳（Total Organic Carbon, TOC）预测中的最新进展：一项综合性综述

时间：2026年5月21日

来源：Journal of Natural Gas Geoscience

编辑推荐：

准确估算总有机碳（Total Organic Carbon, TOC）是源岩评价、储层表征及非常规资源评估的核心环节。尽管实验室测量可提供可靠的TOC数值，但其高昂成本与稀疏分布促使研究人员利用测井数据与数据驱动的预测模型实现连续地下表征。本综述系统整合了传统

准确估算总有机碳（Total Organic Carbon, TOC）是源岩评价、储层表征及非常规资源评估的核心环节。尽管实验室测量可提供可靠的TOC数值，但其高昂成本与稀疏分布促使研究人员利用测井数据与数据驱动的预测模型实现连续地下表征。本综述系统整合了传统TOC估算方法及人工智能（Artificial Intelligence, AI）领域的最新进展，涵盖机器学习（Machine Learning, ML）、深度学习（Deep Learning, DL）及混合优化框架。研究人员系统比较了集成学习器、核方法、神经网络、图模型及进化优化技术等多种算法，从预测性能、数据需求、计算特性、可解释性及地质适用性五个维度展开分析。研究进一步探讨了输入测井组合、特征工程策略、岩相、矿物学、干酪根类型及热成熟度对模型行为与迁移性的影响。结果表明，随机森林（Random Forest）与极端梯度提升（eXtreme Gradient Boosting, XGBoost）等集成模型在多案例研究中表现优异；经优化的支持向量回归（Support Vector Regression, SVR）与高斯过程回归（Gaussian Process Regression, GPR）分别在误差最小化与不确定性量化方面具有独特优势。卷积神经网络（Convolutional Neural Network, CNN）、长短期记忆网络（Long Short-Term Memory, LSTM）及图神经网络（Graph Neural Network, GNN）等深度学习架构虽能实现高级特征提取与空间依赖建模，但仍受限于数据稀缺与可解释性挑战。除性能比较外，研究人员批判性地评估了数据质量、验证实践及泛化风险，指出小样本量、不一致的训练-测试划分、潜在数据泄漏、实验室测量不确定性、测井与岩心深度不匹配及跨层位基准测试缺失等问题的影响。分析证实不存在普适最优模型，可靠部署需结合地质感知验证、不确定性感知评估及标准化基准测试。未来研究方向聚焦于混合与物理信息驱动学习、开放数据集扩展、可解释人工智能（Explainable AI, XAI）、可迁移模型架构以及与储层建模和自动化解释流程的深度整合。

论文主体部分系统阐述了总有机碳（Total Organic Carbon, TOC）预测领域的技术演进与研究现状。引言部分强调TOC作为烃源岩生烃潜力的关键指标，其实验室分析虽可靠但成本高昂且数据稀缺，因此基于常规测井数据的预测方法成为油气勘探的重要支撑。研究人员回顾了Schmoker密度法、Passey ΔlogR法等传统经验方法的原理与局限性，指出现有方法对基线选择与成熟度参数的强依赖性限制了其广泛应用。随着非常规油气勘探的发展，人工智能（Artificial Intelligence, AI）技术因其处理非线性关系的优势，逐渐成为TOC预测的主流方向。

方法论章节详细说明了文献筛选过程。研究人员采用系统综述与荟萃分析优先报告条目（Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA）框架，截至2024年在Web of Science、ScienceDirect和Google Scholar三大数据库检索含“人工智能”“机器学习”“深度学习”“总有机碳”及“测井”关键词的文献，初筛获得984篇记录，经去重、标题摘要筛选及全文评估后，最终纳入63篇文献进行深入分析。

TOC实验室测定方法部分对比了两种主流技术。LECO法通过盐酸去除碳酸盐矿物后，在约1100°C高温下燃烧样品，利用红外检测器测量释放的CO₂含量，其局限性在于酸处理过程可能导致挥发性烃类损失。Rock-Eval热解法则通过分段加热样品，分别测量S₁（游离烃）、S₂（裂解烃）、S₃（CO₂）及S₄（残余碳）参数，并据此计算氢指数（Hydrogen Index, HI）、氧指数（Oxygen Index, OI）及生产指数（Production Index, PI）等地球化学指标，其TOC计算公式为TOC = [0.082(S₁+S₂) + S₄] × 10。该方法假设烃类碳含量恒定为0.83%，且难以区分有机质与无机碳酸盐产生的CO₂信号。

基于测井数据的传统TOC估算方法部分梳理了三类代表性技术。Schmoker方法针对不同地层建立了密度与TOC的线性关系式，其中Devonian页岩模型为TOC(vol.%) = (ρB - ρ)/1.378，Bakken页岩模型则引入有机质密度ρ_o、有机质与有机碳重量比R及颗粒与孔隙流体平均密度ρ_mi等参数。Passey ΔlogR法通过计算电阻率与声波时差曲线的分离量ΔlogR = log₁₀(FR/FR_baseline) + 0.02(Δt - Δt_baseline)，并结合有机质变质程度（Level of Organic Metamorphism, LOM）估算TOC，其精度受基线选择主观性影响显著。Wang等人改进了ΔlogR法，加入伽马射线（Gamma Ray, GR）偏移项替代固定斜率，并采用镜质体反射率（Vitrinite Reflectance, R_O）或T_max作为成熟度指标，提出TOC = [αΔlogR + β(GR - GR_baseline)] × 10^(δ+ηT_max)的经验公式，提升了模型的区域适用性。

机器学习（Machine Learning, ML）方法章节系统分类了监督与无监督算法。监督学习中，支持向量机（Support Vector Machine, SVM）通过核函数将非线性数据映射到高维空间构建超平面，其回归版本SVR在小样本高维问题中表现突出，关键超参数包括正则化系数C、核函数类型及γ系数。高斯过程回归（Gaussian Process Regression, GPR）作为非参数贝叶斯方法，不仅能提供预测值还能量化不确定性，其性能高度依赖核函数选择，常与高斯混合模型（Gaussian Mixture Model, GMM）结合以适配复杂地质条件。集成学习通过融合多个基模型提升性能，分为并行式的装袋（Bagging，如随机森林Random Forest, RF）与序列式的提升（Boosting，如极端梯度提升eXtreme Gradient Boosting, XGBoost）两类。研究表明，RF与XGBoost在处理非线性关系与抗过拟合方面优于传统方法，其中XGBoost在多组对比中取得了R²=0.9135、RMSE=0.77的优异结果。无监督学习方面，主成分分析（Principal Component Analysis, PCA）用于降维与特征选择，自组织映射（Self-Organizing Map, SOM）与K-means聚类则通过识别电相模式辅助TOC预测，有效降低了数据复杂度。

深度学习（Deep Learning, DL）方法部分重点讨论了四类架构。前馈神经网络（Feedforward Neural Network）包含多层感知机（Multilayer Perceptron, MLP）与反向传播神经网络（Back Propagation Neural Network, BPNN），通过激活函数与反向传播算法学习非线性映射，在多个案例中实现了R²超过0.85的预测精度。卷积神经网络（Convolutional Neural Network, CNN）利用卷积核提取局部空间特征，在结合对比学习（Contrastive Learning）的无监督框架中表现优于传统ML模型。循环神经网络（Recurrent Neural Network, RNN）及其变体长短期记忆网络（Long Short-Term Memory, LSTM）擅长捕捉测井数据的深度序列依赖，加入注意力机制后可进一步提升预测稳定性。图神经网络（Graph Neural Network, GNN）将测井曲线构建为图结构，通过消息传递机制同时学习跨曲线拓扑关联与序列特征，在空间-序列联合建模中取得了R²≈0.87的效果。

元启发式优化技术章节总结了五种常用算法。遗传算法（Genetic Algorithm, GA）模拟自然选择过程，通过交叉变异优化模型参数；粒子群优化（Particle Swarm Optimization, PSO）受鸟群觅食行为启发，利用群体协作搜索最优解；差分进化（Differential Evolution, DE）通过个体间差异向量进行迭代寻优；人工蜂群（Artificial Bee Colony, ABC）模拟蜜蜂采蜜分工机制；灰狼优化（Grey Wolf Optimization, GWO）则模仿狼群社会等级与狩猎策略。这些算法常与ML/DL模型结合形成混合框架，例如PSO优化最小二乘支持向量机（Least Squares Support Vector Machine, LS-SVM）在鄂尔多斯盆地数据中取得了R²=0.9451的高精度。

比较分析与未来方向部分指出，现有模型性能受岩性、矿物组成、干酪根类型及热成熟度的强烈控制，单一通用模型不可行。研究人员建议优先发展结合物理约束的混合模型，推广可解释人工智能（Explainable AI, XAI）技术如SHAP与Grad-CAM，并建立标准化的跨层位验证协议与开放数据集，最终实现TOC预测与储层建模、随钻解释流程的深度整合。

结论与建议重申，集成学习与优化后的核方法在现阶段最具实用价值，深度学习虽潜力巨大但需解决数据依赖与可解释性问题。未来工作应聚焦于地质感知的模型设计、不确定性量化及端到端的自动化部署，以提升技术在油气勘探中的实际应用价值。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部