舆情&传染病时空分析文献阅读笔记

[1]朱炤瑗,秦昆,关庆锋,罗萍,姚博睿,漆林,周扬.COVID-19期间国家关系交互网络时空分析研究[J].地理与地理信息科学,2022,38(01):15-22.

研究问题:
COVID-19疫情不断蔓延为国际政治、外交关系等带来深刻影响。目前基于复杂网络方法的国际关系研究较少考虑节点的空间属性,难以探索国际关系的动态演化模式及其空间分布特征。该文提出一种结合时间序列聚类与空间统计的国家关系交互网络演化模式探测方法。

研究流程:

  1. 获取数据(GDELT是一个实时监测全球新闻媒体中的新闻并进行分析、编码、储存和发布的新闻数据库,事件库中数据共有58个字段,包含对所搜集新闻事件的文本分析结果,如暴乱、抗议、和平呼吁等。)2020.1-2021.3,190万余条新闻数据。
  2. 国家关系交互网络特征及演化(网络节点、网络连边、网络平均加权度)。
    1)平均加权度:为加权度总和与节点数的比值,可反映平均每个节点与其他节点间连接边的强度大小;在国家关系交互网络中,平均加权度可衡量每个国家与其他国家的平均冲突或合作交互程度。
  3. 国家关系交互网络节点演化特征(用点度中心性数据构建月度时间序列数据集——>用DTW动态事件规整算法进行k-means时间序列聚类——>分别生成6个依赖关系交互网络和对抗关系交互网络)。
    1)点度中心性:为无向网络中节点度与网络中节点总数的比值,可衡量节点的社会影响力,其值越高,表明该节点的社会影响力越大。
    2)应用“手肘法”,根据误差平方和(SSE)与K值的关系图确定最优K值。
    3)动态时间规整算法(DTW)通过寻找时间序列间的最佳对齐位置,对时间序列进行伸缩以计算数据间最短距离,可较好地处理时间轴上的变形,是目前度量时间序列间相似性的最优方法。
  4. 国家关系交互网络节点空间分布特征(12个关系网络在地图上的可视化——>用局部BB模式进行空间依赖性分析)。
    1)每个国家节点的类型分为“属于聚类簇K(简称 B(Black))和“不属于聚类簇 K(简称 W(White)),则相邻两个国家间的连接类型可分为BB、WW和BW 3种。局部BB模式:连接统计可以判别属于聚类簇K的国家节点空间分布属于核心聚集或离散效应,识别聚类簇K中各国家节点的聚类中心。

结论:

  1. COVID-19疫情形势深刻影响着国家关系交互网络的网络规模与结构特征,各国在疫情暴发后更倾向于参与合作类型的国家交互事件。
  2. 基于复杂网络模型对国家节点进行时间序列聚类,可对疫情防控期间节点的点度中心性的时序演化特征进行类别划分,不同时序演化模式总体按照节点的点度中心性强度由高到低分布,验证了时间序列聚类方法在探索网络节点演化模式方面的有效性。
  3. 不同演化模式下的国家节点在空间分布上呈现不同特征,国家关系交互网络中处于边缘位置的国家在地理分布上具有空间依赖性,而处于核心地位的国家分布相对较分散。
  4. 国家关系交互网络结构的时序演化特征可反映危机事件的发生与发展,基于新闻大数据观察网络变化可在一定程度上探测危机事件的发生与发展态势,为国家应对危机事件的策略 提供参考;另一方面,在疫情传播的背景下各国之间虽然存在外交摩擦,但直接形式的剧烈冲突较少,而中国作为国家关系交互网络中的核心国家节点,其在危机事件中与其他国家的 互动是决定全球政治格局与秩序的关键因素。

[2]曹天阳,张雪英,怀安.公共卫生事件中社会情绪的时空分析方法——以新冠疫情事件为例[J].地理与地理信息科学,2021,37(06):16-23.

研究问题:
准确把握社会情绪的变化特征并分析其影响因素有助于为政府决策提供支持。社交网络将传统单向性的信息传播方式转变为多元互动的交流结构,进一步放大了突发公共卫生事件中社会情绪的流变性,把控情绪强度及倾向可为精准施策提供有力支撑。

研究流程:

  1. 获取数据:采集2020年1月17日-5月31日和2021年1月1日-2月28日期间我国34个省级行政区微博数据,每条数据包含用户名称、发文内容、 发文时间、文本链接。最终获得271855条文本。
  2. 研究时段:根据确诊人数将事件分为征兆、高峰、持续、恢复、复发、平稳6个阶段。
  3. 时间变化特征:统计6个阶段各类情绪的文本数量,计算各阶段“七类三级”(参考“愉悦度—唤醒度”二维情绪模型,选择情绪类型和情绪强度作为描述维度:将社会情绪的“愉悦度”分为乐、好、怒、哀、惧、恶、惊7种类型,同时参考Plutchik的情绪三维模型,按照“唤醒度”数值将情绪强度分为高、中、低3 级,即“七类三级”。)情绪的占比,将两相邻阶段中同类型同强度等级情绪占比相减,分析社会情绪的变化情况。
  4. 空间分布特征:以省级行政区划为基本统计单元,6个演化阶段为固定时间间隔,对新冠疫情事件中“好”情绪占比采用自然断点法划分,并进行可视化分析;为揭示新冠疫情事件中社会情绪的空间演化规律,按事态发展顺序将各省域相邻阶段中同类型情绪相减,得到7种情绪的时空变化特征。
  5. 周期性对比分析:为研究两轮疫情的异同,分别将复发阶段和平稳阶段与前4个阶段同情绪类型占比相减,并进行可视化分析。
  6. 社会情绪变化的事件因素驱动分析:事件是影响社会情绪变化的重要因素,疫情防控期间发生了一系列关键节点事件,如“华南海鲜市场查封”“武汉封城”。从89个重要的疫情相关事件和微博热门话题中选择影响力值较大的12个节点事件进行分析。为避免7种情绪相互抵消,分别计算每日7种情绪的占比,再分别统计整个节点事件中各情绪占比之和作为该节点事件 对社会情绪的总影响力值,总影响力值越大,说明当前节点事件对当前社会情绪的影响力越大。 对影响力排序为1-12的节点事件,按其发生的时 间顺序,选择占比较高的乐、好、哀、惧、恶5类情绪制图,探讨节点事件在突发公共事件中对社会情绪的影响。

结论:

  1. 公共卫生事件中不同情绪类型的变化在时间和空间上均存在差异性和相似性。
  2. 社会情绪依赖个人经验对风险做出评估,而风险感知的强弱往往会影响其行为表现。
  3. 节点事件是影响社会情绪变化的重要原因。

[3] 阮文奇,李勇泉.自然灾害型危机事件对客源地旅游需求的影响及空间差异——九寨沟地震后的时空异质性分析[J].经济地理,2018,38(08):214-223.

研究问题:
旨在探讨自然灾害型危机事件下客源地旅游需求的结构演变及时空异质性,为旅游地灾后市场潜力分析、客源市场恢复及旅游持续发展提供理论指导。

研究流程:

  1. 数据来源:以百度搜索指数衡量出游需求,结合旅游六要素,以“九寨沟旅游攻略”、“九寨沟天气”、“九寨沟门票”、“九寨沟酒店”4个搜索关键词来统计31个省域对九寨沟的用户搜索量。检索时间选取2016年1月—2017年12月,以月度为时间段进行搜索,记录每个月的平均搜索量。为了研究其对景区的影响,以 2017年8~12 月、2016年8~12月两个时间段进行对比分析,探讨地震前后客源地旅游需求的时空异质性。
  2. 时间变化特征:运用旅游本底趋势线理论,测算未发生地震的旅游需求本底值,将旅游需求实际统计值与本底值进行对比。
    1)旅游本底趋势线:是指在不受重大政治事件冲击影响下,某个行业长期发展,以所表现出的天然的趋势方程.它反映了一个行业发展的天然而稳定趋势和时间规律。
  3. 空间结构演变:客源吸引半径与距离累计分析,为了进一步验证九寨沟客源市场需求空间变化特征,对比2017年812月与2016年812月距离累计曲线。对客源地进行划分,把500km以内设为邻近客源地,500~1500 km为中等距离客源地,1500~2400km为远距离客源地——>用Moran’s I指数进行全局空间自相关分析,测空间分布格局与集聚特征——>用热点分析和LISA集聚分析进行局部空间自相关分析,来衡量空间局部分异特征。
    1)客源吸引半径是衡量旅游地吸引范围的指标,客源吸引半径越大,表明旅游地吸引范围越大;半径越小,则吸引范围越小。

    2)客源市场累计曲线是按照距离目的地远近将游客量按距离累加形成。
  4. 九寨沟地震对客源地旅游需求的影响强度:用地理探测器分析要素在时间层面的分层异质性,以“8·8九寨沟地震”为时间节点进行分层,将地震前后5 个月划分为两个次一级时间段,也即2017年37月和2017年812月,并运用GeoDetector软件探讨地震前后九寨沟整体及各个客源地旅游需求的时间分层异质性,为了更加直观了解地震对客源地旅游需求
    的冲击影响,以2016年312月为对比时间段,以8月为时间节点,将其划分为2016年37 月和2016年8~12月两个次一级时间段,并进行可视化分析。
    1)地理探测器分析方法:既可以检验单变量的空间分异性,也可通过检验两个变量空间分布的一致性,来探测两变量之间可能的因果关系,包括风险探测、因子探测、生态探测和交互探测4个部分。分层异质性可以用来分析地理空间各类型区之间的整体差异性,地理探测器测算分层异质性的理念为:当各类型区内部各基本单元是完全均质的,而各类型区之间又各不相同时,分层异质性强度为1;当各类型区内部各基本单元都是随机分布的,则分层异质性强度为0。探测值q的值域为[0,1],值越大则说明分层异质性越明显。

结论:

  1. 九寨沟地震对客源地旅游需求影响极大,特别是10月份,但随着时间推移,影响强度呈现弱化趋势。
  2. 地震对客源地旅游需求的空间结构产生极大冲击,地震之后九寨沟客源吸引半径扩大,邻近客源地旅游需求下降明显,需求累计曲线放缓。
  3. 地震之后,客源地旅游需求的Moran’s I指数增加幅度较大,短期内呈现空间集聚特征,但随后空间集聚性逐渐下降。
  4. 地震之后,客源地旅游需求的热点和次热点整体东移,主要分布于东部、中部经济大省和人口大省,冷热点格局演化剧烈。且“高—高”和“低—高”集聚态势区域明显增多,集中于东部地区,也即旅游需求重心向东部转移,空间格局稳定性遭到破坏。
  5. “8·8九寨沟地震”之后,客源地旅游需求时间分异性都明显增大,地震对各个客源地都存在一定影响,各省域旅游需求的损失量和损失率均较大,但影响强度存在明显空间差异性,其中邻近客源地受到的影响最大,其次为远距离客源地,并发现空间距离与自然灾害型危机事件的影响作用强度呈现U型非线性关系。

[4]刘牧文,孙昼,考庆君,杨旭辉,宋姝娟,黄仁杰.2017—2019年浙江省杭州市登革热流行特征和时空聚集性分析[J/OL].疾病监测:1-8[2022-04-29].

研究问题:
探讨2017—2019年浙江省杭州市登革热输入性病例和本地病例的流行特征和时空分布特征。

研究流程:

  1. 数据来源:“中国疾病预防控制信息系统”中的“传染病监测”子系统。杭州市各年龄组、各街道人口数据来源于国家统计局。各街道经纬度坐标来源于百度地图拾取坐标系统(http://api.map.baidu.com/lbsapi/getpoint/index.html)。
  2. 将病例分为输入性病例和本地病例。以输入性病例与本地病例的比值作为输入性病例引起登革热的传播强度指标。形成生成病例数据库、地理数据库和人口数据库。
  3. 空间相关分析:以街道为单位对输入性病例、本地病例发病率进行分析,采用ArcGIS 10.2 软件中的空间自相关(Moran I)模块计算全局Moran’s I系数,取值范围:-1~1,当取值>0时表示空间呈正相关,越接近于1表示空间聚集性越强;当取值<0则表示空间负相关;取值= 0表示空间上呈随机分布。以Z检验和P值进行显著性评价。以聚类和异常值分析(Anselin Local Moran I)模块进行局部空间自相关性分析,反映相邻区域间的相关程度,分为高-高、高-低、低-高、低-低4种类型空间聚集模式。P < 0.05为差异有统计学意义。
  4. 时空聚集性分析:用SaTScan 9.4软件以街道为单位分别对输入性登革热病例、本地登革热病例进行时空聚集性扫描。以Poisson分布模型为基础进行分析,参数设置为:扫描时间范围为2017年1月1日至2019年12月31日,最大空间聚集范围设定为总人口的20%,最大时间范围为研究时长的30%,步长为30d。利用扫描窗口内外的实际数、理论数分布差异的对数似然比(log likelihood ratio,LLR)来描述聚集性程度,当LLR差异有统计学意义时(P < 0.05),可认为该地区存在聚集。LLR 值最大的地区被认为是1类聚集区,其他差异有统计学意义的地区被定义为2类聚集区。

结论:
描述性结论

[5]陈向阳,张鹤美,王大勇,叶振淼,汪若秋,苏德华,赵丽娜.2016-2019年浙江省温州市梅毒疫情时空特征分析[J].疾病监测,2021,36(02):172-176.

研究问题:
分析浙江省温州市2016 — 2019年梅毒疫情的时空分布特征,探测聚集区域,为梅毒防控提供理论依据。

研究流程:

  1. 数据来源:2016-2019 年温州市梅毒报告发病病例资料来自中国疾病预防控制信息系统,常住人口数据来自温州市第六次人口普查,并根据2016年温州地区乡镇(街道)行政区划调整资料,调整相应人口数据;温州地区乡镇(街道)行政区划来自温州勘测测绘研究院地理信息系统。2016-2019年共报告梅毒病例17 738 例,删除重卡3960例,不详乡镇228 例,纳入分析13550例。
  2. 建立包括梅毒疫情、人口、经度和纬度的地理信息数据库:按“现住址浏览+诊断日期+已审核”3个条件从中国疾病预防控制信息系统传染病监测系统个案管理模块导出现住址为温州市,诊断时间为2016年1月1日至2019年12月31日网络直报的梅毒病例并建立数据库,按年度核对重复和不详乡镇报告卡并订正;将各乡镇(街道)当年梅毒报告病例数作为分子,常住人口数作为分母计算当年梅毒报告发病率;以全市乡镇级矢量地图作为基础地图,以乡镇(街道)代码为主索引。
  3. 温州市梅毒报告情况:2016-2019年梅毒年均报告发病率为37.13/10万(0~365.14/10 万),将乡镇按年均报告发病率几何间隔划分为5个等级,进行可视化分析。
  4. 空间自相关分析:用Moran’s I 指数进行全局自相关和局部自相关分析;用Getis-Ord General G进行全局热点分析和局部热点分析
  5. 时空聚集性分析:用SaTScan 9.6软件进行时空扫描

结论:
综上所述,2016-2019 年温州地区各乡镇梅毒报告发病率呈明显的空间聚集性,总体上聚集区域集中在经济水平较低、交通不便的区域,高风险地区持续存在,有必要加强对重点乡镇的关注和防控工作。

[6]陈兴蜀,常天祐,王海舟,赵志龙,张杰.基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J].四川大学学报(自然科学版),2020,57(02):409-416.

研究问题:
对新浪微博中与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次疫情事件中网络舆情的时空演化过程,在时间维度层面进行文本聚类与情感分析。

研究流程:

  1. 数据来源:
    1)对2020年1月1日至2020年2月29日之间(共计60天)以“肺炎”为关键词的新浪微博进行时段分割,以每日为一小段,共计60小段,每一小段按热度高低抓取微博1000条,共计6万条微博博文,组成本文进行数据研究的基础单位。每条微博的抓取内容包括微博博文、时间戳、用户ID、点赞数、转发数和评论数等;
    2)抓取了从1月1日~2月29日期间与“新冠肺炎疫情”话题相关的热门评论共1.5万条,评论包括评论内容、评论人所在地、评论时间等。
  2. 文本聚类:jieba分词的load_userdict()函数—>用TF-IDF算法构造文本向量矩阵—>用pca降维,构造出较为稠密的矩阵—>用K-Means文本聚类算法得到话题聚类的结果。
  3. 情感分析:用Python的第三方库SnowNLP进行情感分析,可以对每一条微博进行情感分析,得到每天的平均情感数值,再对每天的平均情感数值进行基于时间的排序,用matplotlib进行可视化。
    1)SnowNLP的情感判断过程是:首先,读取已经分好类的文本neg.txt和pos.txt,再对所有文本进行分词、去停用词,从而计算每个词出现的频数。通过贝叶斯定理计算正面负面先验概率p(pos)和p(neg),对要进行判断的文本分词,计算每个词的后验概率p(词|neg)
    和p(词|pos),最后,选择计算出的概率较大的类别(正或负)。
  4. 词云生成:用wordcloud和matplotlib对清洗过的所有时间段微博文本进行高频词的统计, 并生成词云和高频词排序表。
  5. 地理统计分析:通过统计1月1日~2月29日来自全国34个省级行政区的网民在微博上发表评论的数量,通过情感分析计算出各个地区网民的平均情感数值,再结合数据可视化工
    具pyecharts,将全国各省级行政区的微博评论人数图与微博评论情感值图绘制出来。

    结论:
    描述性结论。

[7]郭玉珠,于钏钏,许宁,郑萍,王强.基于贝叶斯时空模型黑龙江省肺癌死亡风险及其影响因素分析[J].中国公共卫生,2021,37(06):965-973.

研究问题:
了解黑龙江省肺癌死亡的时空风险及其影响因素,为肺癌的预防控制提供参考依据。

研究流程:

  1. 数据来源:
    1)由中国疾病预防控制中心慢性非传染性疾病预防控制中心提供黑龙江省2008年1月~2017年12月区县级和市级肺癌和慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)粗死亡率、实际死亡数和年龄标化死亡率(age-standarized mortality rate,ASMR);
    2)市级≥60岁人口比例、农业人口比例、城镇采矿业就业人数比例来源于2010年人口普查数据、2005和2015年人口抽样调查数据以及1989 — 2018年黑龙江省、市统计年鉴;
    3)人均年卷烟消费量来源于1989 — 2018年黑龙江市级年鉴和绥化烟草志;
    4)PM10 年均浓度来源于“PM2.5 历史数据”网站(https://www.aqistudy.cn/historydata)、黑龙江省市级环境状况公报和已发表相关文献;PM2.5数据来源于达尔豪斯大学大气环境分析小组(http://fizz. phys.dal.ca/~atmos/martin/?page_id=140#V4.CH.03);
    5)人均地区生产总值、城市燃气普及率、人均公共绿地面积来源于1989 — 2018年黑龙江省、市统计年鉴。
  2. 缺失数据插补:缺失数据采用R4.0.2simputation软件包分地区按各变量随年份变化趋势进行插补。首先,通过散点图观察不同市/区县各变量随时间变化趋势,如果呈线性,则采用impute_lm函数,以待插补变量为因变量,年份为自变量,基于线性回归插补;如果不呈线性,则采用impute_rf函数,以待插补变量为因变量,年份为自变量,基于随机森林插补。
  3. 贝叶斯时空分析:
    用约克和莫莉模型(besag, york and mollie model, BYM)设置空间先验分布,并假设不同地区肺癌SMR时间变化趋势呈线性,模型超参数分布采用R-INLA默认设置。
  4. 模型拟合效果评价指标:偏差信息量准则(deviance information criterion,DIC)、校正偏差信息量准则(correct DIC,DICc)、 广泛应用的信息准则(widely applicable information criterion,WAIC)和交叉验证对数得分(cross-validate logarithmic score,LS)。
  5. 最优贝叶斯时空模型:以全局Moran′s I指数> 0且P < 0.05判断黑龙江省2008 — 2017年区县级肺癌SMR是否存在空间正相关性,若存在,则采用贝叶斯时空模型拟合空间因素对肺癌SMR的影响。在黑龙江省区县级全人口肺癌 SMR 时空数据中,模型D的DIC、DICc、WAIC、LS最小,拟合效果最佳,因此,选择拟合最优的模型 D 进行后续分析。
  6. 全局时间趋势分析:
  7. 区县级肺癌后验SMR时空分布:利用基于集成嵌套拉普拉斯逼近(INLA,R 4.0.2 INLA软件包)的贝叶斯时空模型估计黑龙江省肺癌标化死亡比(SMR),基于最优模型D的贝叶斯时空分析结果显示,全人口中空间格局、时间趋势和时空交互项分别解释了3.7 %、12.2 %和84.1 % 的肺癌SMR变异,提示不同区县肺癌 SMR 的时间变化趋势不同,也提示时空交互对肺癌死亡风险存在显著影响。采用QGis3.14.15软件绘制黑龙江省区县级肺癌SMR后验均值。
  8. 肺癌SMR影响因素分析:
    1)选择最优贝叶斯时空模型D,在市级尺度分别分析 COPD 标准化死亡率(1/10 万)、人均年卷烟消费量(支)、≥ 60岁人口比例(%)、农业人口比例(%)、人均地区生产总值(元)、城镇采矿业就业人数比例(%)、PM10 年均浓度(μg/m3)、PM2.5年均浓度(μg/m3)、城市燃气普及率(%)、人均公共绿地面积(m2)与肺癌SMR关联。
    2)通过corr函数实现Spearman相关检验变量的共线性计算,两变量间Spearman相关系数绝对值> 0.5则认为两变量间可能存在共线性。结果显示,≥ 60岁人口比例和人均公共绿地面积(滞后7年)、城市燃气普及率(滞后7年)和人均地区生产总值(滞后10年)均呈正相关(r = 0.5751、0.6150,均P < 0.05),可能存在共线性。
    3)基于最佳时空模型D的市级单因素分析结果显示,不论全人口、男性还是女性,COPD 标化死亡率的效应RR值均> 1,与肺癌SMR呈正相关,其余9个因素均无相关性(RR的95 % CI均包含1)。
    4)综合上述变量间相关性分析、各变量数据缺失情况和市级贝叶斯时空模型单因素分析结果,本研究多因素分析时所选用的解释变量包括COPD标化死亡率、≥ 60岁人口比例、农业人口比例(滞后20年)、人均年卷烟消费量(滞后20年)、人均地区生产总值(滞后10年)、城镇采矿业就业人数比例(滞后5年)和PM2.5(滞后8年)。利用多因素贝叶斯时空回归模型探索黑龙江省市级肺癌死亡风险的影响因素及其后验估计相对风险(relative risk,RR),为了比较不同影响因素的RR值,对纳入多因素分析的各变量进行标准化处理。市级多因素分析结果显示,调整其他肺癌SMR可能影响因素及时空交互作用后,COPD的ASMR与肺癌 SMR 均呈正相关(全人口:RR = 1.10,95 % CI = 1.04~1.16;男性:RR = 1.09,95 % CI = 1.03~1.16;女性:RR = 1.10,95 % CI = 1.04~1.16)。
  9. 模型敏感性分析:以全人口为例,分别改变多因素分析时模型D的超参数先验分布,观察模型拟合效果、相应超参数后验分布及协变量固定效应系数的变化。结果显示,模型拟合优度和协变量固定效应系数对超参数先验选择不敏感。的后验分布对相应超参数先验的选择不敏感;对于,除比较极端的超参数先验选择其超参数后验分布变化较大外,超参数后验分布基本相似。因此,本研究模型超参数先验分布的选择相对合理。

结论:

  1. 黑龙江省肺癌SMR整体呈上升趋势,但不同区县时空演变模式存在显著差异,与中国 2006—2012年肺癌死亡率时空分析结果一致[5]。
  2. 不论男性和女性,COPD的ASMR与黑龙江省肺癌SMR的时空变化趋势均呈正相关,提示COPD可能是黑龙江省肺癌高风险及其时空差异的一个重要影响因素。本研究基于时空交互作用动态分析了COPD与肺癌的关联,可能为COPD对肺癌的中介提供了生态学关联证据。
  3. 本研究还利用人均年卷烟消费量(滞后20年)间接分析了吸烟率对黑龙江省肺癌的影响,但未见显著相关性。一方面虽然卷烟的人均年消费量与吸烟率、吸烟量相关,但居民收入和卷烟供应也影响该消费量;另一方面,虽然黑龙江女性吸烟率较低,且在模型中调整了性别,但受限于时空数据的可获得性,模型中的人均年卷烟消费量并不是分性别的统计量,因而人均年卷烟消费量对黑龙江省肺癌的影响仍需进一步验证。
  4. 中国家庭能源消费调查结果显示近二、 三十年煤和生物质一直是中国农村家庭的主要能 源类型[43] ,农村与城市清洁能源使用比例差距较大,因此本研究以农业人口比例(滞后20年)间接拟合家庭固体燃料暴露与肺癌的时空关联,但单因素和多因素时空分析均无相关性。
  5. PM2.5也被IARC定义为人类1类致癌物[47] ,欧洲空气污染效应队列研究(European Study of Cohorts for Air Pollution Effects,ESCAPE)[48]和哈佛六城市研究[49]也显示长期 PM2.5暴露可增加肺癌死亡风险,但由于黑龙江省PM2.5的监测时间较晚,可用的市级尺度时空数据过少,本研究未见 PM2.5 暴露与黑龙江省肺癌SMR存在显著关联。此外,由于PM2.5成分和浓度的区域差异,PM2.5暴露与肺癌关联研究均不一致[50–53]。本研究还利用时空模型分析了可能协同肺癌风险的职业影响因素(城镇采矿业就业人数比例)及年龄影响因素(≥60岁人口比例),均未见显著关联性。
  6. 本研究结合模型拟合度和复杂度指标,最终选择了Knorr-Held [26]提出的Ⅱ型时空交互作用分析黑龙江省肺癌SMR的时空分布,结果与Knorr-Held等[26]对美国俄亥俄州男性肺癌死亡风险研究选择的模型一致,模型灵敏度分析也证明Ⅱ型时空交互模型超参数先验选择合理。平滑后肺癌SMR提供了较原始SMR更为稳定的疾病死亡风险估计,且同时考虑了时间、空间依赖性和时空交互作用,能更准确地识别较小地理尺度上肺癌死亡风险的变化[54–55]。

[8]邓敏,蔡建南,杨文涛,唐建波,杨学习,刘启亮,石岩.多模态地理大数据时空分析方法[J].地球信息科学学报,2020,22(01):41-56.

  1. 多模态地理大数据特点:多粒度、多类型、多参考系、多元关联、多维动态和多能自主。多模态地理大数据除了一般大数据普遍存在的“5V”表象特征之外,亦具有“5度”内在特征,即时空粒度细、时空广度宽、时空密度大、时空偏度重与时空精度低。
  2. 时空聚类分析:① 时空位置聚类,用于发现事物在空间位置上毗邻、时间上邻近发生的时空分布格局与规律。② 顾及非空间专题属性的时空聚类,旨在发现具有相似专题属性的地理实体或现象(如监测站点的空气质量、气温等)在时空域上聚集分布的特征,需要同时满足空间/时间毗邻和专题属性相似的双重约束。
  3. 时空异常分析:①“时空”维,从时间-空间信息耦合的视角研究空间异常[62]→时空异常[63]→实时异常[64],如极端气候事件的空间分布、时空分布及实时分布;②“属性”维,从地理实体属性维度的视角研究一元异常[65]→二元异常[66-67]→多元异常[68],如单一类型犯罪事件的分布异常、两种类型犯罪事件间的交叉异常,以及多种类型犯罪事件相互作用异常;③“分析”维,从分析任务的视角研究异常探测[69]→异常关联[70]→异常演化[71],如典
    型空气污染事件的异常探测、造成污染事件因素的关联分析、以及污染随时间的演化与推断。
  4. 时空关联分析:① 空间域向时空域的拓展,借助时空分治[79-80] 或时空耦合[81-82]策略在空间同位模式挖掘模型中纳入时间因子,用于发现频繁同时或依次出现于邻近时空位置的地理实体集合,如深夜发生于酒吧附近的群发案件;②欧氏空间向网络空间的拓展,以网络空间最短路径距离定义地理实体间的邻近关系[83],发现地理实体在网络约束下的频繁
    同现规律,如邻近街道上的合作商铺;③全局模型向局部模型的拓展,顾及地理数据的异质性,通过区域划分[84-85]或聚类分析[86-87]思想识别地理实体频繁满足空间邻近关系的空间关联区域,如占据特定空间的生物共生群落。
  5. 时空预测分析:① 时空统计模型通过统计推断来刻画变量间的关系,如处理(时)空间依赖性的地统计学模型[88]、时空自回归移动平均模型[89]等,以及表达(时)空间非平稳性的地理加权回归[90]、地理时空加权回归模型[91]等。②与时空统计模型相比,机器学习模型能够自适应地对任何复杂非线性关系进行建模,近年来被广泛地应用于时空预测分析。中。

你可能感兴趣的:(算法,聚类,机器学习)