“文本数据分析方法导论”专题讲座举办

发布者:赖鸿杰时间:2025-10-27浏览数:

        2025年10月18日下午,“Introduction to ‘Text as Data’(文本数据分析方法导论)”专题讲座在南开大学社会学院339会议室顺利举行。讲座由社会学院副教授王淼主持,密歇根大学安娜堡分校社会工作学院教授Brian Perron与该校儿童与青少年数据实验室研究专员齐梓萱应邀主讲。社会学院本硕博学生齐聚一堂,围绕文本数据在社会工作与社会政策研究中的方法路径与应用前景展开交流。

1B59F


        讲座伊始,王淼副教授指出,文本数据方法为社会工作这一实践导向学科提供了可检验、可复核的证据生成路径;在面向本土情境与敏感议题的研究中,应在方法严谨与伦理合规之间取得平衡,以问题为牵引推动技术与实践深度融合,助力教学与科研形成可复制、可推广的工作范式。她同时强调,人工智能在该领域的应用日益重要,正在重塑数据处理与知识生产的方式;而Brian Perron教授在相关方向具有长期而系统的实践与研究经验,为本次讲座带来了难得的一线视角与方法启发。

        在主题报告中,Perron教授围绕“text as data”的核心理念,系统梳理了不同规模与部署方式的语言模型在研究场景中的适配性与边界,强调在涉及隐私与敏感信息的社会工作研究中,支持本地化运行、便于审计与结果复核的小型模型更具优势,能够在合规与保密前提下提升分析效率与质量。围绕研究流程,他以实际案例展示如何从叙述性材料中抽取结构化要素,说明以任务为导向设定评估基准与一致性检验的重要性,并就模型选择、提示设计与结果校验提出了操作性建议。


E43C


        在应用层面,Perron教授介绍了多种开源与中等参数规模的候选模型,并以儿童虐待案例文本为例,演示如何利用小语言模型在大规模叙述性文本中快速识别“是否涉及毒品、酗酒”等关键因素。在先行人工标注部分样本、确立评估基准的基础上,引入Kappa一致性系数作为性能度量;当Kappa达到0.8—0.9时,模型输出与人工标注高度一致,可在保证质量的同时显著降低时间与经济成本,进一步印证小语言模型在社会科学研究中的实用价值。

        随后,Perron教授与齐梓萱研究专员基于实验室实践,展示了小型语言模型在代码生成、调试与流程自动化中的辅助功能与任务拆解策略,提出“没有最好的模型,只有最匹配的模型”的选型原则,建议使用者明确任务背景、目标、工作流程、分析规则,并分阶段地测试与调试,从而更合理有效地借助模型完成研究,充分挖掘其推动工作流程自动化的潜力。


1F992


        在互动环节,师生就模型适配、代码实现、数据安全与结果复核等问题展开讨论。与会者普遍认为,本次讲座在技术框架与教学转化之间搭建了有效桥梁,为学院后续课程建设与科研实践提供了清晰参照和实践路径。同时,大家也认识到,在技术快速演进的AI时代,研究者更需夯实方法论与伦理素养,避免对工具的盲目依赖,通过“学中做、做中学”不断积累可迁移的操作经验。

        讲座最后,王淼副教授对两位嘉宾的精彩分享表示感谢。此次讲座以清晰的技术脉络与可复制的案例示范,为学院结合人工智能推进社会工作与社会政策研究提供了实践范例。社会学院将以此为契机,持续推动文本数据方法在教学与科研中的规范应用,面向中国社会的现实议题,促进方法创新与本土实践的深度对接。

天津市海河教育园区同砚路38号  南开大学津南校区    社会学院 ©2023