暨南经院统计学系列Seminar第180期:金明哲(日本京都先端科学大学)

发布者:徐思捷发布时间:2025-11-13浏览次数:11

主题:Issues in Text Mining and Analysis in the Era of Artificial Intelligence: An Integrated Ensemble Learning Approach 

主讲人:金明哲 日本京都先端科学大学

主持人:侯雅文 暨南大学

时间:20251118日(周二)下午16:00

地点:暨南大学石牌校区经济学院大楼(中惠楼)701

摘要

文本作为自然语言的记录媒介,拥有悠久的历史,并被广泛应用至今。在当今社会,文本在各个领域中作为信息传递与存储的手段,其分析的重要性日益凸显。典型的文本挖掘与分析方法通常将文本划分为字符、词语、短语等单位,并提取其出现频率、共现模式等定量信息作为特征量进行分析。由于特征量种类繁多且多为高维,分析结果并不总是唯一。此外,即便针对相同的特征量,也存在多种分析方法,不同方法所得到的结果亦可能存在差异。近年来,随着人工智能技术的发展,基于深度神经网络的Transformer算法被广泛应用于文本处理与生成。这类模型大致可分为判别型与生成型两类。判别型的代表是BERT,在文本分类与语义识别方面表现出色;生成型则以ChatGPT为代表,是在BERT结构基础上发展而来的,擅长自然语言生成。值得注意的是,BERT根据预训练文本的种类与规模,已有多个版本被提出。此外,BERT在处理文本长度方面存在限制,更适用于短文本的分析。基于上述问题,本报告将介绍一种面向文本挖掘与分析的集成学习方法,旨在通过整合多种特征量与分析手法,实现更稳定且高精度的分析结果。 

主讲人简介

金明哲,现任日本京都先端科学大学特任教授。长期致力于统计科学、数据科学及人工智能方法在语言科学和数字人文学中的应用研究,其研究重点包括文本数据挖掘、语料库分析、文体风格计量、文本分类与预测、以及GPT等大语言模型生成文本的识别鉴定。主要教职经历包括:2005-2023年任职日本同志社大学教授,博士生导师;2011-2012年担任清华大学特聘访问教授;2018–2021年兼任鲁东大学教授。著有多部专著与系列教材,包括:《文本解析的基础与实践》(岩波书店,2021)《统计学One Point文本解析》(共立出版,2018)、数据科学与R系列丛书等。代表论文发表于PLOS ONEFrontiers in Artificial IntelligenceSSCISCI期刊。


欢迎感兴趣的师生参加!


校对|侯雅文

责编| 彭毅

初审| 姜云卢

终审发布| 何凌云

 (来源:暨南大学经济学院微信公众号)