大数据和人工智能

Hadley Wickham 提出了分析Tidy Tuesday数据集的重要建议。Tidy Tuesday是一个由R for Data Science在线学习社区(特别是Thomas Mock)运行的一个很棒的项目,它每周都会发布一个有趣的数据集。

我现在发布了我的第一个这样的截屏视频,探索本周的Tidy Tuesday数据集(“挑选大学专业经济指南”背后的数据)。你也可以找到我在这里制作的R Markdown。

 

我制作了一些我发现非常有趣的数字。我看了一下各专业毕业生的收入分配情况。

 

我花了一些时间来研究不同专业的性别分布差异,这也包含在数据中。

大数据和人工智能_第1张图片

最后,我建立了一个交互式散点图,其中包含了一个情节包,将一个领域中女性的比例与工资中位数进行了比较。

大数据和人工智能_第2张图片

一些注意事项和观察:

  • 这不是R教程:如果我在教R,我会提前做好准备并且在材料中移动得更慢。这是一个案例研究,我将如何深入研究数据集并从中学习,包括我大声思考并决定采取何种路线的步骤。如果有的话,它更接近“speedrun”。

  • 我喜欢展示我的工作顺序:我写博客文章有点“从里到外”:我从几个数字开始,然后弄清楚我应该开始的预处理,我总是从帖子中移出无趣的数据或附录。很高兴看到分析如何形成并最终看起来像一个有组织的最终产品。

  • 我遇到的错误比我预期的要少:  现场截屏的一部分令人兴奋的是“任何事情都可能出错”(部分原因是我提前记录了第一个而不是现场直播是为了减轻压力!)我是我非常精通我在本次会议中使用的工具(dplyr和ggplot2),所以我只是陷入了一些错误(尽管我确实找到了一些非生产性的路线)。

我有足够的乐趣,我想我会再次这样做(虽然可能不是每周都这样)。考虑到这一点,我已经学到了一些可以改善我未来截屏视频的课程:

  • 我说得太快了:这对我来说是一个反复出现的问题。当我在观众面前讲话时,我可以看到人们的脸,并且自己的节奏更好一点,但是当我在录制它的时候“独自一人”很困难。我已经知道这对非本地听众来说尤其困难,我会尝试更有意识并且说话更慢!

  • 我需要更好地关注时间:截屏大约80分钟(我最初计划在一个小时,我可能会在未来瞄准)。我对有关长度的反馈感兴趣,以及人们是否觉得整个会议都很有趣。

你可能感兴趣的:(大数据)