讲座回顾|王磊教授谈基于机器学习的高维部分线性模型最优子抽样

发布者:徐思捷发布时间:2026-05-09浏览次数:11

4月22日下午,南开大学王磊教授受邀做客暨大经院学术系列活动之统计学系列Seminar第194期名师讲座,带来了题为“基于机器学习方法的高维部分线性模型最优子抽样”的学术报告。讲座由经济学院统计与数据科学系主任王国长教授主持。

南开大学王磊教授讲座


在报告中,王磊围绕海量数据背景下的子抽样策略展开了深入浅出的讲解。他指出随着信息技术的发展,动辄百万级甚至千万级的大规模数据集在各行各业变得极为普遍。这些拥有巨大样本量和高维特征的数据,给传统的统计分析带来了极大的存储与计算瓶颈。为了在统计推断效率与计算成本之间取得完美平衡,从全量数据中抽取小批量随机子样本进行替代分析,成为了破解这一难题的有效途径。

讲座中,王磊详细介绍了针对部分线性模型和部分线性工具变量模型的最优子抽样估计前沿方法。面对高维数据和高度复杂的非参数部分,直接套用机器学习算法往往会引入正则化偏差和过拟合问题。为此,王磊团队创新性地引入了去偏机器学习框架,通过构建子抽样的黎曼正交得分函数和样本分割机制,从根本上消除了上述偏差,保障了推断的有效性。同时,该研究建立了一种统一的最优子抽样概率计算准则,并设计了兼具高度操作性与极低计算成本的两步算法予以实现。

在理论建模与实际应用展示部分,王磊展示了详实的模拟研究结果。研究结合了Lasso、梯度提升机和随机森林等多种前沿机器学习算法,全方位验证了所提方法在均方误差表现上的优越性。此外,他还利用包含超过4.5万个观测值的蛋白质三级结构真实数据集,生动展示了该最优子抽样方法在处理复杂非线性响应关系时的巨大潜力。结果表明,新方法不仅大幅降低了海量数据分析的运算耗时,还保持了高度精准的参数估计能力。

讲座现场


在交流环节中,王磊就去偏机器学习的理论细节、计算框架的搭建、以及该抽样策略在更高维与更复杂场景中的延展性等问题,与在场师生进行了充分的互动与探讨。师生们普遍表示,本次报告思路清晰、内容扎实,不仅加深了对海量数据降维与半参数模型前沿问题的理解,也为后续开展相关高维数据分析与交叉学科研究提供了全新的视角和极大的启发。


教授简介

王磊,南开大学统计与数据科学学院教授、博导、百名青年学科带头人。研究方向是统计学习和复杂数据分析,已在统计学期刊Biometrika,JMLR,IEEE TIT,AOAS,Bernoulli,JCGS,Statistica Sinica等发表学术论文多篇,主持3项国家自然科学基金和1项天津市自然科学基金项目。


责编 | 吕一丹

校对 | 马艺丹

初审 | 欧阳萍

复审 | 王国长

终审发布 | 何凌云

(来源:暨南大学经济学院微信公众号)