FIT5147 数据探索和可视化 学习笔记

Week 1

课前预习

  1. 利用Tableau Public探索数据并将数据可视化
    1.1. Worksheets and Dashboards
    第一步:准备数据
    下载Tableau Public 链接
    下载待处理数据 Cultural-Exchange-International-Program-LA-Dept-of-Cultural-Affairs.xlsx
    该数据是 “row-oriented tables” 格式, 一行代表一个 entity, 一列代表 entity 的某一个属性。这种格式为数据分析提供了方便,但如果你的数据不是这种格式的话,请先进行 data wrangling。
    第二步:将数据导入Tableau
    打开 Tableau Public,导入数据的方法有两种:

    • 左上角点击 “Excel”,按文件路径加载
    • 直接将文件拖拽到 Tableau 的窗口中

    第三步:视图
    Tableau Public 会自动加载你的数据类型, 通常的数据类型有:

    • “#” => numbers
    • “Abc” => text (strings)
    • “An earth symbol” => geographic/locations

    自动推断的数据类型不可避免地会偶尔出错,最常见的错误是经纬度被推断成 “#” 类型。若想更换数据类型, 点击(“#”,“Abc” and ect.)更换。

    FIT5147 数据探索和可视化 学习笔记_第1张图片
    第四步:创建worksheet
    点击左下角 worksheet 进入工作页面,左方数据被分成两部分:

    • Dimensions(维度); by default, Tableau treats any field containing qualitative, categorical information as a dimension;
    • Measures(度量); and any field containing numeric (quantitative) information as a measure.

    这是信息的模块化处理——将各个数据字段视为独立的片段而不是相互依赖的表,这使我们能够选择要相互可视化的特定数据片段。

    第五步:可视化实现
    第一个简单的练习,我们将创建一个简单的水平条形图,将不同 City/Country 的 Total Award Amounts 进行比较。

    • Drag ‘City,Country’ from Dimensions and drop it to Rows
    • Drag ‘Total Award Amount’ from Measures and drop it to Columns
    • Maybe also try to switch Rows and Columns

    FIT5147 数据探索和可视化 学习笔记_第2张图片
    FIT5147 数据探索和可视化 学习笔记_第3张图片
    点击x轴上的图标 :
    在这里插入图片描述
    可以实现排序功能。
    若要查看各个国家的 individual grant 如何构成 Total Award Amounts,那么就 Click and drag your “Grantee” dimension into the “Marks” table。
    FIT5147 数据探索和可视化 学习笔记_第4张图片
    在 Mark 框中的 color 可以调节颜色:
    FIT5147 数据探索和可视化 学习笔记_第5张图片
    如果想根据某个属性进行过滤, 使用 Filters:FIT5147 数据探索和可视化 学习笔记_第6张图片

    第六步:地图既视感
    点击 Sheet 1 右边按钮新建一张 Sheet,将 Country 拉入最大的框内:
    FIT5147 数据探索和可视化 学习笔记_第7张图片
    地图将自动呈现,右边工具框可以调整地图的风格。将 Country 拉入 Mark 里面的 Labels 将在地图上显示国家的名字。
    FIT5147 数据探索和可视化 学习笔记_第8张图片

    1.2. 融合表格
    有些时候你的数据源自不同的文件。若数据量过大,可以依靠 Tableau 的 融合功能。
    第一步:加载文件
    下载数据 ‘Shape of US Congressional District Boundaries, 110th Congress‘ 和 ‘Household heating by Congressional District – 2008‘
    将其拉入Tableau,并选择 inner join 设置约束键,成功之后即可进入 sheet 进行加工。
    在此复习一下数据库中 join 的各种操作:

    • Inner, only fuse the rows (with the specified property) where the same value exists in both the left data and right data, drop the rows where the value only exists in one side.

    • Left, fuse the rows (with the specified property) that exist in the left data, and drop the row if it is in the right data but not in the left data.

    • Right, fuse the rows (with the specified property) that exist in the right data, and drop the rows if it is in the left data but not in the right data.

    • Full order, fuse the rows (with the specified property) that exist in either side.

    FIT5147 数据探索和可视化 学习笔记_第9张图片
    1.3 Choropleth Map
    Choropleth map is a map with regions filled by different colors representing different properties.
    One use case is using different color to present different type.
    Another is using gradient color to present quantitative data.
    第一步:下载、加载数据
    下载数据并加载 Household-heating-by-State-2008.csv
    第二步: 创建Map
    将 “States” 拉入中间区域,如果地图不生成,则需要:Map => Edit Locations,然后更改为美国。
    第三步:上色
    Drag “% Housing Units That Are Mobile Homes” to “Color” in “Marks” section.
    Click the top toolbar: Map => Map Layers
    Try different options, what do they mean?
    You can even add a colored data layer! You may want to remove your previous color first.

  2. 使用 R 实现可视化
    2.1

你可能感兴趣的:(学习笔记)