【SDS Colloquium Series】预测赋能的最优样本选择
November 27, 2025 SDS Colloquium Series
SDS Colloquium Series | |
| Topic | 预测赋能的最优样本选择 |
| Speaker | 邹长亮,南开大学统计与数据科学学院教授 |
| Host | 吴建福,香港中文大学(深圳)数据科学学院校长学勤讲座教授 |
| Date | 2025年11月27日(周四) |
| Time | 下午4:00 – 5:00 ,北京时间 |
| Format | 现场 |
| Venue | 道远楼103会议室 |
| Language | 中文 |
Abstract | |
| 在大数据时代,我们常需要从海量数据中挑选出最具信息量的个体。传统样本选择方法多关注使得既定模型尽可能估计好的的代表性样本子集。但在半监督环境下,我们往往只有少量的已标注数据,而目标是如何从大量未标注数据中挑选出由其“未观测响应”所决定的最有价值的样本。本报告首先将样本选择问题重构为一个共形化多重检验问题。我们提出一个以数据最大化利用为核心的统一框架:充分利用标注和未标注数据,通过全排列构建得分并校准共形p值,从而在有限样本下控制错误选择率的同时显著提升监测效率。 随后,我们讨论在资源受限或需保持多样性时的最优样本选择。基于预测推断的不确定度量,我们建立错误选择率可控的优化策略,在有限预算下找到最具潜在价值的多样化样本。我们从理论上证明了其样本选择的渐近最优性,并通过模拟与真实数据验证其在实际应用中的高效性与可靠性。 | |
Biography | |
| 邹长亮,南开大学统计与数据科学学院教授。主要从事统计学及其与数据科学领域的交叉研究和实际应用。研究兴趣包括:预测性推断、高维数据统计学习、变点和异常点检测等。近年来在统计学和机器学习领域的权威期刊和会议上发表论文五十余篇,入选爱思唯尔“中国高被引学者”。主持基金委优青、杰青、重点项目、重大项目课题和科技部重点研发计划课题等。任教育部科技委委员、全国应用统计专业硕士教学指导委员会委员、中国现场统计研究会副理事长等。 | |


