基于计算机技术的媒体分析

文章结构

总体1500字
第一部分:介绍技术的作用和本场景 技术选型的原因 (200~400)
-每种技术的功能描述;
-与你选择的广泛研究问题相关的,可以用每种技术解决的一些具体问题。
第二部分:你想要什么样的知识,这些技术的局限性是什么。(建议700-900字)
本部分应该基于您在工作坊后练习中所做的一些分析。你应该讨论和评论每个选择的技术,根据你期望它如何有助于回答所选的研究问题,例如,你所选择的技术将创造什么样的知识?这些技术的局限性是什么?
你可以使用你的日志的部分作为这个报告的附录,并引用它,这样你就不必用单词数来详细描述你所做的分析和呈现的结果。附录不计入字数限制
第三部分:集成(建议300-500字)
这部分应该基于你在课后练习中所做的一些分析和/或你所读过的相关论文的引用。你应该解释和讨论如何以及为什么你会整合这些技术,以更好地回答你选择的研究问题

请记住,报告的目的不是为这些问题提供答案,而是描述、讨论和批评可能有助于回答这些问题的计算技术。

讨论问题三选一:

1)考虑到气候变化的接受者和怀疑者博客的两个语料库,气候变化在这些帖子中的表现有何不同?

2)不同的报纸对格伦费尔事件或其他大型媒体事件的报道或框架有何不同?

3)给定一组据称是由某个国家政府发布的喷子推文,我们能从这些推文中了解到社交媒体喷子的行为和策略吗?

已写内容

Question: Given a set of alleged troll tweets believed to have been created by a national government, what can we learn from these tweets about the behavior and tactics of social media trolls?
问:鉴于一组据称是由某个国家政府发布的喷子推文,我们能从这些推文中了解到社交媒体喷子的行为和策略吗?

技术:文本分类,网络分析
本报告将介绍技术的使用以及与研究问题的关系。然后,讨论了技术的局限性,以及与课程相关的信息如何有助于研究问题。最后,解释和讨论为什么这些技术应该集成。

文本分类是自然语言处理(NLP)中常用的研究方法。由于将自然语言处理与机器学习相结合,是一种既省时又可持续的方法。(Patricia Orza, 2022)它是一个将文本文档分组到两个或两个以上类别的过程,是一种将类别打开的文本自动归入标签类别的方法。它可以在任何不同类型的文本,结构和排列他们。

网络分析是一套技术,它研究一组事物或人与社会结构之间的关系,这些关系由这些关系的反复出现而产生。(A.M. Chiesi, 2001)在社交媒体中,这种方法可以分析用户或群体的社会关系,并对社会结构给予更深刻的理解,例如在Facebook或Twitter (Mengsay Loem, 2021),通过分析他们关注的人,然后分析他们关注的人与他们之间的关系,看看关注是单向的还是双向的,它可以确定他们的社交圈,他们的宗教,甚至他们的党派关系。这种研究方法也适用于分析社会网络的影响。

后续引导

第二部分需要展开写一些技术细节,比如所选技术挖掘了什么知识(信息),这些信息能对分析所选问题提供帮助。
比如:

Network Analyze 技术,这里其实说的是社交网络分析技术。将“人”(或者说是媒体组织或者是某个推文),抽象为 数据结构 graph中的node , 将 两个个体之间产生的“联系” 抽象为 graph中的有向(directed)或者无向(undirected)的 edge。 【有向图比如说一个代表债务的图、无向图比如说婚姻关系图】。有的时候边也是有权重的,这个权重可以代表二者连接关系的紧密程度。图中的节点有三个比较重要的性质:
度中心性(Degree Centrality): 一个节点直接相连的节点的个数。假如在一个社交网络中,节点代表的是人,边代表的是好友关系,那么一个节点的度中心性越大,就说明这个人的好友越多。这样的人可能是比较有名望的人物,如果需要散布一些消息的话,这样的人最适合,因为他的一条状态可以被很多很多的人看到。
紧密中心性(Closeness Centrality): 一个节点到其他所有节点的最短距离的加和,或者是加和的倒数。通常来讲紧密中心性是加和的倒数,也就是说紧密中心性的值在0到1之间,紧密中心性越大则说明这个节点到其他所有的节点的距离越近,越小说明越远。在一些定义中不取倒数,就是该节点到其他节点的最短距离加和,这样定义的话紧密中心性越小说明该点到其他点的距离越近。紧密中心性刻画了一个节点到其他所有节点的性质,在社交网络中,一个人的紧密中心性越大说明这个人能快速的联系到所有的人,可能自己认识的不多,但是有很知名的朋友,可以通过他们快速的找到其他人。
中介中心性(Betweenness Centrality): 一个点位于网络中多少个两两联通节点的最短路径上,就好像“咽喉要道”一样,如果联通两个节点A和B的最短路径一定经过点C,那么C的中介中心性就加一,如果说A和B最短路径有很多,其中有的最短路径不经过C,那么C的中介中心性不增加。中介中心性刻画了一个节点掌握的资源多少,在社交网络中,一个人的中介中心性越大说明这个人掌握了更多的资源而且不可替代(必须经过他,不存在其他的最短路径),就好像房屋中介一样,一边是买房的人一边是卖房的人,买卖双方要想联系就要经过中介。

那么比如我们想挖掘话题热度与发声的媒体或者人的关系
从图的中介中心性上,我们就可以分析出如下 知识(信息):比如我们发现很多热点问题都是有一个热点人物先发声,然后很多跟他有关系的人跟着发声,然后话题迅速热起来。然而如果一个话题没有热点人物发声,那普遍它就炒不热。舆论导向总是受中介中心性大的人引导。

文本分类参考https://zhuanlan.zhihu.com/p/370503493
另外,如果想要分析 媒体的行为偏好(比如对哪一类新闻 政治、军事、娱乐等),或者分析媒体是哪类的媒体。那么我们可能就需要文本分类技术了。对于推文我们首先进行分类,然后根据某媒体或者个人的所有有关系点(文章)的 不同类别统计,来挖掘出这个人的兴趣

第三部分集成
其实文本应用已经讲了一部分是怎么集成文本分类和网络分析了

你可能感兴趣的:(授课,媒体,人工智能,自然语言处理)