使用Python和SAS Viya分析社交网络|附代码数据

原文链接：http://tecdat.cn/?p=7303

原文出处：拓端数据部落公众号

最近我们被客户要求撰写关于社交网络的研究报告，包括一些图形和统计输出。

本示例使用Python和SAS分析了[预防高危药物研究]()的结果。这个社交网络有194个节点和273个边，分别代表[药物]()使用者和这些使用者之间的联系。

背景

SAS Viya的最新版本提供了用于探索实验问题的全套创新算法和经过验证的分析方法，但它也是基于开放式体系结构构建的。这意味着您可以将SAS Viya无缝集成到您的应用程序基础架构中，并使用任何编程语言来驱动分析模型。

尽管您可以继续进行并简单地发出一系列REST API调用来访问数据，但通常使用编程语言来组织您的工作并使之可重复是更有效的。我决定使用Python，因为它在年轻的数据科学家中很流行。

出于演示目的，我使用一个名为Jupyter的接口，该接口是一个开放的，基于Web的交互式平台，能够运行Python代码以及嵌入标记文本。

访问SAS云分析服务（CAS）

SAS Viya的核心是称为SAS Cloud Analytic Services（CAS）的分析运行时环境。为了执行操作或访问数据，需要连接会话。您可以使用二进制连接（建议使用该连接来传输大量数据），也可以通过HTTP或HTTPS通信使用REST API。


 import matplotlib.colors as colors #程序包包括用于颜色范围的程序
 import matplotlib.cm as cmx
 import networkx as nx #呈现网络图

现在已经加载了库，我们可以发连接到CAS并为给定的用户创建会话。

 s = CAS('http://sasviya.mycompany.com:8777', 8777, 'myuser', 'mypass')

对于此网络分析，我将使用一个名为hyperGroup 的集。


 s.loadactionset('hyperGroup')

加载数据

为了执行任何分析建模，我们需要数据。将本地CSV文件上载到服务器，并将数据存储到名为DRUG_NETWORK的表中。该表只有两列数值类型的FROM和TO。


 inputDataset = s.upload("data/drug_network.csv", casout=dict(name='DRUG_NETWORK', promote = True))

在分析建模期间，您通常必须更改数据结构，过滤或合并数据源。这里的put函数将两个数字列都转换为新的字符列SOURCE和TARGET。


 sasCode = 'SOURCE = put(FROM,best.); TARGET = put(TO,best.);\n'
 dataset = inputDataset.datastep(sasCode,casout=dict(name='DRUG_NETWORK2', replace = True))

数据探索

建立分析模型时的常见任务是首先了解您的数据。下面的示例返回数据集的前5行。


 dataset.fetch(to=5, sastypes=False, format=True) #列出开始5行

\
一个简单的汇总统计数据会显示更多详细信息，包括我们数据集中273条边的总数。

 dataset.summary()

图形布局

首先，我们将网络可视化，以基本了解其结构和大小。我们将通过力导向算法来计算顶点的位置。Hypergroup还可以用于查找群集，计算图布局以及确定网络度量标准，例如社区和中心性。

 s.hyperGroup.hyperGroup(
    createOut = "NEVER", # 这样可以禁止创建通常生成的表
    allGraphs = True, # 处理所有图形
    inputs    = ["SOURCE", "TARGET"], #指示边和目标列
    table     = dataset, # 输入数据集
    edges     = table(name='edges',replace=True), # 结果表包含edge属性
    vertices  = table(name='nodes',replace=True)  # 包含点属性的结果表
 )
 renderNetworkGraph() # 使用networkx包创建图形

呈现了以下网络，并提供了图形的第一视图。我们可以看到两个主要分支，并了解高密度和低密度区域。