基于百度贴吧的HIV高危人群特征分析
肖时耀, 吕慰, 陈洒然, 秦烁, 黄格, 蔡梦思, 谭跃进, 谭旭, 吕欣
国防科技大学系统工程学院,湖南 长沙 410073
湖南益阳康雅医院肿瘤科,湖南 益阳 413002
深圳信息职业技术学院软件工程学院,广东 深圳 518172
摘要:对百度贴吧“恐艾吧”中在线高危人群的帖子内容、线上活动时间规律进行了分析,利用LDA话题模型,对比分析了有无HIV感染者参与的主贴讨论的话题之间的差异,使用基于关键词的机器学习方法区分了在“恐艾吧”中发布话题的用户的性取向,计算不同性取向人群中HIV的流行率。研究结果说明,使用在线数据挖掘的技术和方法比传统方法更加高效,可以作为高危人群研究的重要补充。此外,基于机器学习对人群性取向进行智能判别,对于公共卫生管理部门监测疫情在不同人群中的发展状况有重要意义。
关键词: 在线高危人群 ; 男同性恋 ; HIV ; LDA话题模型 ; 百度贴吧 ; 机器学习
论文引用格式:
肖时耀, 吕慰, 陈洒然, 秦烁, 黄格, 蔡梦思, 谭跃进, 谭旭, 吕欣. 基于百度贴吧的HIV高危人群特征分析. 大数据[J], 2019, 5(1):98-108
XIAO S Y, LV W, CHEN S R, QIN S, HUANG G, CAI M S, TAN Y J, TAN X, LV X. Analysis of HIV high-risk population characteristics with Baidu Tieba data. Big data research[J], 2019, 5(1): 98-108
1 引言
高危人群通常指人类免疫缺陷病毒(human immunodeficiency virus,HIV)传播风险较高的人群。据世界卫生组织统计报告分析,全球有3 690万HIV感染者,平均每天就有4 900人感染HIV,如何有效地控制HIV的传播已成为全球公共卫生领域一大挑战。在中国,性传播已经成为HIV传播的最主要途径。其中男男同性传播约占新增HIV感染案例的1/4,异性性行为传播约占新增HIV感染案例的2/3。尽管男男同性传播新增感染数不如异性性行为新增感染数多,但在男同性恋(MSM)群体中HIV流行率近年来呈现快速上升的趋势。根据中国疾病预防控制中心的艾滋病疫情哨点监控数据可知,2014年MSM人群的HIV流行率接近8%,远高于其他监测人群(如性工作者、吸毒者等)的HIV流行率。
当前研究主要聚焦在HIV的传播途径以及MSM中HIV的流行率,大多数对高危人群的研究是通过现实接触下的访谈、问卷调查或者研究以往的文献等方式获得数据的。随着社交网络深入人们的生活,高危人群在网络社区更加活跃,他们在网络社区留下的言 论等信息为研究高危人群提供了大量数据。例如,在百度贴吧的“gay吧”中,有432万用户发布了2.9亿个帖子。移动应用Blued作为中国男同性恋群体中最受欢迎的社交软件,拥有约2 800万个国内用户。互联网中的高危人群数量远远多于任何一项调查所能接触到的高危人群数量。这也使得在线高危人群成为对公共卫生安全有重要影响的群体。同时,据Liau等人的研究,约有40%的男同性恋会在网上寻找性伴侣,除此之外,互联网也是性交易的一个重要渠道。在线社区除了拥有广泛的高危人群用户以外,由于互联网的匿名性,在线高危人群可以以较小的心理压力在互联网上聊天交友,甚至毫无遮掩地谈论自己发生过的可能导致感染HIV的高危行为,真实地展示出自己的行为特征,而不太需要担心可能被歧视。因此,相比传统的问卷调查手段,通过互联网采集高危人群的信息,不仅可以节省大量的人力物力,获得远多于传统问卷调查能采集到的样本,更重要的是获取的样本信息更具有真实性。这对于了解在线高危人群的行为特征、控制HIV疫情以及帮助HIV患者更好地治疗都有积极意义。
2 相关工作
对高危人群的研究一般聚焦于对MSM以及性工作者的研究。中国MSM群体占总人口的比例一直没有全面的、令人信服的数据,2004年一项严格设计的大样本调查发现,在中国,20~64岁的男性中有2%自称同性恋。2012年,Zhang等人对来自中国5所大学的1762名大学生进行了问卷调查,结果显示在大学生群体中MSM的比例大约为8.5%。HIV在MSM群体中的流行率远高于异性恋群体,在中低收入国家,MSM群体感染HIV的可能性是异性恋人群的19.3倍。MSM群体是感染HIV的高风险人群,然而受中国传统文化的影响,男同性恋者会感到自己容易被歧视,因而针对MSM群体的调查研究往往耗时耗力。Wu等人经过18个月的时间对中国61个城市的MSM群体进行调查,发现MSM群体中HIV流行率为4.9%,具有较高的HIV流行率。而在世界范围内, MSM人群中HIV流行率为3.0%~25.4%,其中北美洲、南美洲、中美洲、南亚、东南亚以及撒哈拉以南非洲的HIV流行率相当一致,均为14%~18%。
性工作者也是感染HIV的高风险人群。Baral等人通过文献搜索,将102份包含了50个国家共99 878名女性性工作者的文章和监测报告纳入分析,得出性工作者的总体HIV流行率为11.8%的统计结果。
近年来,随着网络技术的发展,一些创新性研究利用互联网进行展开。Rocha等人对巴西的一个线上评价性工作者的论坛进行了分析,发现性工作者之前的高分评价会影响其未来的商业成功。Lim等人通过在亚洲最大的男同性恋在线社区Fridae.com发布问卷调查的方式,对MSM的高危行为进行归因分析。Liu等人对百度贴吧中与HIV有关的贴吧进行话题分析、情感分析以及社交网络分析。随着机器学习技术的普及,机器学习方法也被运用到人群的区分上。Eichstaedt等人通过分析抑郁症人群发表的推特信息,预测推特用户患上抑郁症的可能,预测能力可以达到与抑郁症问卷调查同样的区分能力。目前,国内仍缺乏通过机器学习对在线人群进行区分的研究。
3 数据获取及分析技术
3.1 数据爬取
本文基于Python的Scrapy框架设计网络爬虫,爬取2007年8月7日至2018年7月8日“恐艾吧”论坛上的全部帖子数据。主要爬取的字段包括用户ID、用户昵称、主贴ID、帖子ID、发帖时间、帖子内容等。在爬取的数据中,一共有104 796个用户参与讨论,其中36 907个用户发起了113 243个主帖。
3.2 HIV感染者筛选
尽管“恐艾吧”中自述有过高危行为的人很多,但是感染HIV的人却并不常见,在初筛检测中为阳性反应的也不多见。因此,若单纯通过人工筛选,判断主帖发起者中谁感染了HIV,工作量巨大。通过观察,“恐艾吧”中认为自己极有可能感染HIV的用户,很有可能会发帖表示自己感染了HIV。此外,“恐艾吧”有一种极具特色的互帮互助的氛围,对于发起话题讨论自己出现了初筛阳性的用户,其他用户会鼓励他们继续去中国疾病预防控制中心复查确诊,并祝福他们拿到“阴性”结果,推翻初筛结论。因而,在可能感染HIV的用户发布的主帖中,往往会出现“翻盘”“祝阴”等具有祝福色彩的词语以及“中奖”等表示自己可能感染HIV的词语。使用这些特定词对论坛的帖子进行初步筛选,可以大大缩小筛查范围,将筛查范围缩小到7 243个主帖。然后再人工筛选真正感染了HIV的用户,即可得到“恐艾吧”中感染HIV的用户,筛选流程如图1所示。
图1 “恐艾吧”HIV感染者筛选流程
经过最后的人工筛选,可以确认的HIV感染者有84名,约占发起主帖用户的0.228%。在84名感染者中,70例是通过男男性接触感染的,9例是通过异性性接触感染的,5例不能确定感染途径。
3.3 LDA话题模型
L DA话题模型是一个三层贝叶斯概率模型,包含文档、话题和词3层结构,属于无监督的生成式概率模型,可以有效提取文本主题。运用L DA话题模型,可以将一篇文档用一系列话题以及各个话题的概率表示出来,而话题由一系列词语以及词语在该话题下出现的概率来表示。
将L DA话题模型应用到贴吧文本集时,把“恐艾吧”中一个主帖下的所有帖子看作一篇文档,所有主帖构成文本集。如果一个主帖下面有HIV感染者发表帖子,该主帖则被看作有HIV感染者参与讨论的主帖。相反,如果一个主帖下面参与讨论的成员全都不是HIV感染者,则该主帖被看作无HIV感染者参与讨论的主帖。在计算不同人群的话题分布时,采用加权平均的方法。通过L DA话题模型可以得到一篇主帖中各个话题的概率,假设一个文本集有n个主帖m个话题,主帖i (i=1, 2, … , n)中话题j(j = 0, 1, … , m-1)的概率为P(posti, topicj),那么,在整个文本集上,话题j的加权平均概率为每一篇主帖中话题j的概率的加权平均,即:
根据式(1)即可分别计算得到由有HIV感染者参与讨论的主帖组成的文本集和由非HIV感染者参与讨论的主帖组成的文本集中各个话题的加权平均概率。
3.4 基于机器学习的在线人群性取向分类
为了构建机器学习的训练样本,本文从已有数据中随机选取800个主帖,根据主帖讨论的内容涉及的高危行为及行为对象,人工判断发起主帖的用户属于异性恋、同性恋(这里仅指男同性恋,因为女同性恋在“恐艾吧”极少见,未在样本中发现)还是未知(即无法根据已有信息判断其性取向)。例如,用户A发帖自述自己与男性同性发生过高危行为,则人工判定用户A为同性恋。图2为800个样本中性取向的分布情况,同性恋只占很少的比例,约为样本总数的5.6%,异性恋和未知样本约占样本总数的52.8%和41.6%,占样本总数的绝大部分。
图2 “恐艾吧”人工构建性取向样本的性取向分布
“恐艾吧”成员很有可能会在帖子中对其高危行为进行描述,根据描述的行为对象和具体行为比较容易判断成员的性取向。因此,将与高危行为和行为对象有关的关键词作为特征,构建机器学习多分类模型。本文设置了异性性服务、异性性行为、对方女性、第三人称女性、第三人称男性、女性特有词、家庭、男男性行为、对方男性、直言同性恋、男男专有词11类关键词,如果一个主帖下的讨论帖子至少出现某类关键词中的一个,则将该特征值设为1,否则设为0。使用逻辑回归进行多分类训练,训练标签分为男同性恋、异性恋和未知3类。本文使用65%的数据进行训练,剩余35%的数据用作测试。
4 研究结果
4.1 “恐艾吧”帖子内容
使用第三方库jieba分词对“恐艾吧”论坛帖子进行中文分词,以哈尔滨工业大学中文停用词表为基础,结合所处理的帖子文本中无明显意义的词( 如“哈哈”“是不是”“还是”等),按词频制作帖子内容的词云图(如图3所示)。论坛上的聊天内容大部分为讨论自身出现的症状(如“症状”“淋巴结”“低烧”等词)、就诊检测的经历(如“医院”“医生”“检测”等词)以及一些高危行为(如“高危”“行为”等词)。
图3 “恐艾吧”论坛帖子词云图
4.2 论坛成员活跃时间
对“恐艾吧”每天的发帖时间进行统计,得出在每个时间段的发帖频率(如图4所示)。在线高危人群在“恐艾吧”论坛比较活跃的时间段是9:00—23:00,这段时间内发帖频率一直维持在较高状态, 22:00以后发帖频率逐渐降低,到凌晨4:00发帖频率降至最低。
图4 “恐艾吧”论坛成员发帖时间分布
周一至周日的日内发帖时间分布规律大致相同,但也存在细微区别,如周六和周日论坛成员更倾向于在晚间发帖, 17:00—23:00的发帖频率略高于周一至周五对应的该时间段,而9:00—17:00的发帖频率略低于周一至周五对应的该时间段。
4.3 感染者与非感染者帖子话题差异分析
本文利用L DA话题模型分析“恐艾吧”论坛所有帖子涉及的话题。将“恐艾吧”论坛上的帖子划分为10个话题,分别为检测时间(话题0)、高危行为(话题1)、讨论他人的帖子(话题2)、求医问药(话题3)、祝福检测结果(话题4)、内心恐慌(话题5)、检测方式(话题6)、恐惧抽血(话题7)、自身症状(话题8)、伤口接触(话题9),选取每个话题中概率最大的12个词表示该话题。
将“恐艾吧”论坛的主帖划分为有HIV感染者参与讨论的主帖和无HIV感染者参与讨论的主帖,分别对两种类型的主帖计算话题分布,然后取平均值,得出了两种类型主帖的话题分布,如图5所示。两种类型主帖的大部分话题是相近的,差异较大的在话题3和话题4上,话题3的内容主要是求医问药,包括去医院或中国疾病预防控制中心检测以及获取阻断药,话题4主要是对即将检查或者即将出检查结果的论坛成员的祝福,希望他们能拿到“阴性”的结果。在有HIV感染者参与讨论的帖子里面,话题3和话题4的概率高出无HIV感染者参与讨论的帖子一倍左右,他们的帖子更关注求医问药和检测结果。
图5 有HIV感染者参与和无HIV感染者参与的帖子话题概率分布
4.4 在线高危人群的性取向区分
测试集分类结果混淆矩阵见表1。为了量化分类器性能,本文使用精确率、召回率以及f1-score 3种指标评估第3.4节中训练的逻辑回归模型,该模型的3种评价指标的平均值均高于0.85,分类效果较好,见表2。在将该模型应用到整个数据集之前,使用该模型重新对800条标注数据进行训练,使模型可以获得更多的训练数据,泛化能力更强。
使用逻辑回归分类器对“恐艾吧”所有话题发起者的性取向进行划分,约有55%的用户无法判断其性取向,同性恋用户约为总用户的6%。将无法判断其性取向的用户剔除,对其余用户进行分析,分析结果如图6所示。可以看出,在可以判断性取向的用户中,异性恋用户约占86%,同性恋用户较少,只占14%左右。根据已感染HIV的在线成员的信息,得到在每种性取向人群中感染HIV的概率(即流行率)。从图6可以看出,MSM群体中HIV的流行率为3.08%,这与Wu等人在大规模调查后得到的结果(4.9%)比较接近。尽管同性恋成员较少,但同性恋群体中HIV流行率(3.08%)远高于异性恋群体中的HIV流行率(0.06%),前者约是后者的50倍。在在线高危人群中,MSM是最主要的风险人群,他们感染HIV的概率远远高于其他人群。
图6 “恐艾吧”话题发起者性取向预测及对应性取向人群中HIV的流行率
5 结束语
由于高危人群的隐蔽性,传统的调查方法难以获取大量统计样本,且高危人群往往背负巨大的心理压力,在面对传统的调查时可能刻意隐瞒,导致传统方法无法获得准确的数据。本文通过获取并分析在线高危人群的第一手数据,深入了解在线高危人群讨论的话题,挖掘在线高危人群的在线活动时间规律,并通过LDA话题模型分析有HIV感染者参与讨论的主帖和无HIV感染者参与讨论的主帖之间的话题差异。为了进一步评估不同性取向对在线高危人群感染HIV的风险,本文使用一种基于关键词的机器学习方法对“恐艾吧”中发布主帖的成员进行性取向预测,并根据预测结果计算不同性取向人群中HIV的流行率。
根据“恐艾吧”中在线高危人群表现出来的特点,笔者对公共卫生部门提出以下建议,以期促进我国对HIV传播的管控:应加强对MSM人群的教育和宣传,提升他们的艾滋病防护意识和自我保护意识,尽可能减少高危行为的发生;由于大部分高危人群发生高危行为后,不懂得通过及时服用阻断药避免自己被感染,或者没有渠道及时获取阻断药,耽误了最佳阻断时间,故应加强预防治疗的宣传以及提供畅通的阻断药购买渠道,避免发生因没有及时阻断而感染HIV的悲剧。
此外,在线数据也存在一定的不足。首先,部分HIV感染者在确诊感染之后,会受到巨大的心理打击,可能会将自己曾经发布的帖子删除,这将导致笔者估计的HIV流行率偏低。其次,论坛上也可能存在用户感染了HIV但并没有发布关于感染HIV的主帖,或者由于没有发布确诊单等强有力的证明材料,而没有被纳入HIV感染者之列的情况,这也会导致笔者估计的流行率偏低。除此以外,由于部分在线论坛中用户发表的内容信息量有限,没有发表与其高危行为有关的内容,导致无法确定他们的性取向,也会使实验结果产生偏差,导致性取向未知的用户偏多,异性恋和同性恋用户数目偏少。在今后的研究中,笔者将选择更具真实性和代表性的开源数据作为研究数据。
作者简介
肖时耀(1996- ),男,国防科技大学系统工程学院硕士生,主要研究领域为大数据分析。
吕慰(1985- ),男,湖南益阳康雅医院肿瘤科主治医师,主要研究领域为放射医学。
陈洒然(1989- ),男,国防科技大学系统工程学院博士生,主要研究领域为复杂网络理论、统计抽样、数据挖掘。
秦烁(1995- ),女,国防科技大学系统工程学院硕士生,主要研究领域为复杂网络传播动力学。
黄格(1991- ),女,国防科技大学系统工程学院博士生,主要研究领域为大数据、复杂网络。
蔡梦思(1992- ),女,国防科技大学系统工程学院博士生,主要研究领域为社交网络、大数据。
谭跃进(1958- ),男,国防科技大学系统工程学院教授,主要研究领域为复杂网络。
谭旭(1981- ),男,深圳信息职业技术学院软件工程学院教授,主要研究领域为智能决策、机器学习、舆情分析。
吕欣(1984- ),男,国防科技大学系统工程学院副教授,主要研究领域为大数据、复杂网络理论、应急 管理。
《大数据》期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。
关注《大数据》期刊微信公众号,获取更多内容
往期文章回顾
基于深度学习的异构时序事件患者数据表示学习框架
人工智能在医学影像中的研究与应用
基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法
分布式数据库在金融应用场景中的探索与实践
共享单车运营分析及决策研究