小目标007

数据分析一般过程笔记

在开始之前，使用 iPython 笔记本时有几点需要注意一下：

如果代码单元格被运行之后，在单元格的左侧方框中会有数字出现。
当你启动一个新的笔记本会话时，请确保运行所有单元格（从第1个到你上次离开的单元格）。即使笔记本中依然可以看到上次运行所得到的输出，你重新运行的笔记本内核却处于一个完全新的状态，所以你需要重载数据和运行代码。
上一条注意事项特别重要。当你的答案和课程中的练习不一致时，请试着重载数据并一个一个运行代码单元格，以确保你所操作的变量和数据和练习中的一致。

从 CSV 加载数据

import unicodecsv

## 长代码版本 (该版本与短代码版本功能一致)

# enrollments = []
# f = open('enrollments.csv', 'rb') "b"代表改变文件读取格式
# reader = unicodecsv.DictReader(f)
# for row in reader:
#     enrollments.append(row)
# f.close()

def read_csv(filename):
    with open(filename, 'rb') as f:##计算机速成课，软件是一项工程，如何用别人写好的代码，别人给你开个接口，就可以直接用，open函数就相当于接口
        reader = unicodecsv.DictReader(f) ## reader 返回的是一个对象，是DictReader的实例，不能作为对象访问，
                                                #在迭代时，会生成可以相应访问的字典 ，可以创建一个空列表，将每个字典添加到列表中
                                                 #for r in reader: 也可以直接list(reader)  同样的效果
        return list(reader)

## 从 daily_engagement.csv 和 project_submissions.csv 载入数据并存
## 储至下面的变量中，然后检查每张表的第1行。

enrollments_filename = r'C:\My documents\Learning file\Udacity\Introductory course for Data analysis\project 2\practice\enrollments.csv'
engagements_filename = r'C:\My documents\Learning file\Udacity\Introductory course for Data analysis\project 2\practice\daily-engagement.csv'
submissions_filename = r'C:\My documents\Learning file\Udacity\Introductory course for Data analysis\project 2\practice\project-submissions.csv'

enrollments = read_csv(enrollments_filename)
daily_engagement = read_csv(engagements_filename)
project_submissions = read_csv(submissions_filename)

print(enrollments[0])
print(daily_engagement[0]) 
print(project_submissions[0]) 
# csv库并不检测个列的类型

OrderedDict([('account_key', '448'), ('status', 'canceled'), ('join_date', '2014-11-10'), ('cancel_date', '2015-01-14'), ('days_to_cancel', '65'), ('is_udacity', 'True'), ('is_canceled', 'True')])
OrderedDict([('acct', '0'), ('utc_date', '2015-01-09'), ('num_courses_visited', '1.0'), ('total_minutes_visited', '11.6793745'), ('lessons_completed', '0.0'), ('projects_completed', '0.0')])
OrderedDict([('creation_date', '2015-01-14'), ('completion_date', '2015-01-16'), ('assigned_rating', 'UNGRADED'), ('account_key', '256'), ('lesson_key', '3176718735'), ('processing_state', 'EVALUATED')])

为防止出现如下错误：(unicode error) ‘unicodeescape’ codec can’t decode bytes in position 29-33:
在路径前加r,路劲就直接系统的路径复制过来就好了

print(enrollments[0])

OrderedDict([('account_key', '448'), ('status', 'canceled'), ('join_date', '2014-11-10'), ('cancel_date', '2015-01-14'), ('days_to_cancel', '65'), ('is_udacity', 'True'), ('is_canceled', 'True')])

print(daily_engagement[0])

OrderedDict([('acct', '0'), ('utc_date', '2015-01-09'), ('num_courses_visited', '1.0'), ('total_minutes_visited', '11.6793745'), ('lessons_completed', '0.0'), ('projects_completed', '0.0')])

print(project_submissions[0])

OrderedDict([('creation_date', '2015-01-14'), ('completion_date', '2015-01-16'), ('assigned_rating', 'UNGRADED'), ('account_key', '256'), ('lesson_key', '3176718735'), ('processing_state', 'EVALUATED')])

修正数据类型

from datetime import datetime as dt

# 将字符串格式的时间转为 Python datetime 类型的时间。
# 如果没有时间字符串传入，返回 None

def parse_date(date):
    if date == '':
        return None
    else:
        return dt.strptime(date, '%Y-%m-%d')
    
# 将可能是空字符串或字符串类型的数据转为 整型 或 None。

def parse_maybe_int(i):
    if i == '':
        return None
    else:
        return int(i)

# 清理 enrollments 表格中的数据类型

for enrollment in enrollments:
    enrollment['cancel_date'] = parse_date(enrollment['cancel_date'])
    enrollment['days_to_cancel'] = parse_maybe_int(enrollment['days_to_cancel'])
    enrollment['is_canceled'] = enrollment['is_canceled'] == 'True'
    enrollment['is_udacity'] = enrollment['is_udacity'] == 'True'
    enrollment['join_date'] = parse_date(enrollment['join_date'])
    
enrollments[0]

OrderedDict([('account_key', '448'),
             ('status', 'canceled'),
             ('join_date', datetime.datetime(2014, 11, 10, 0, 0)),
             ('cancel_date', datetime.datetime(2015, 1, 14, 0, 0)),
             ('days_to_cancel', 65),
             ('is_udacity', True),
             ('is_canceled', True)])

# 清理 engagement 的数据类型
for engagement_record in daily_engagement:
    engagement_record['lessons_completed'] = int(float(engagement_record['lessons_completed']))
    engagement_record['num_courses_visited'] = int(float(engagement_record['num_courses_visited']))
    engagement_record['projects_completed'] = int(float(engagement_record['projects_completed']))
    engagement_record['total_minutes_visited'] = float(engagement_record['total_minutes_visited'])
    engagement_record['utc_date'] = parse_date(engagement_record['utc_date'])
    
daily_engagement[0]

OrderedDict([('acct', '0'),
             ('utc_date', datetime.datetime(2015, 1, 9, 0, 0)),
             ('num_courses_visited', 1),
             ('total_minutes_visited', 11.6793745),
             ('lessons_completed', 0),
             ('projects_completed', 0)])

# 清理 submissions 的数据类型
for submission in project_submissions:
    submission['completion_date'] = parse_date(submission['completion_date'])
    submission['creation_date'] = parse_date(submission['creation_date'])

project_submissions[0]

OrderedDict([('creation_date', datetime.datetime(2015, 1, 14, 0, 0)),
             ('completion_date', datetime.datetime(2015, 1, 16, 0, 0)),
             ('assigned_rating', 'UNGRADED'),
             ('account_key', '256'),
             ('lesson_key', '3176718735'),
             ('processing_state', 'EVALUATED')])

注意：当我们在运行上方的单元格时，我们已经改变了数据变量中的内容。如果你试着在同一个会话多次运行这些单元格时，可能会出错。

探索数据

以上数据格式已经清洗为python所用格式，接下来思考，通过这个数据能够回答什么问题–从数据库设计角度，设计三个数据表，每个表的内容包括什么
1.研究学生通常多长时间提交他们的项目；
2.通过项目和未通过项目的学生的特点；

调查数据
成功加载数据并确保数据格式良好，说明你已经开始数据整理过程了。下一步就是调查，看看数据中是否存在不一致处或问题，如果有，你需要清理它们。

对于你加载的每个文件（一共有三个），找到 csv 中的总行数以及不重复学员的数量。要在每个数据表中查找不重复学员数，你可能会需要创建一组帐号键值。

以下代码在写的时候注意点：
1.len函数前不需要加print函数
2.一个运行单元中不能同时写两个len函数，不然运行时只能显示一个结果

for engagement in daily_engagement:
    engagement["account_key"] = engagement["acct"]
    del engagement["acct"]
## 将 daily_engagement 表中的 "acct" 重命名为 ”account_key"

## 删除字典中的元素----account_key相同之后，可以将之前的代码写成函数

def get_unique_students(datas):
    unique_students = set()
    for data in datas:
        unique_students.add(data["account_key"])
    return unique_students #之后可能要用到这个集合本身，所以不需要更进一步的获取到该集合的数量，只要获取集合就可以了

len(enrollments)

unique_enrolled_students = get_unique_students(enrollments)
len(unique_enrolled_students)

len(daily_engagement)

unique_engagement_students = get_unique_students(daily_engagement)
len(unique_engagement_students)

len(project_submissions)

unique_project_submitter = get_unique_students(project_submissions)
len(unique_project_submitter)

数据中的问题
1.注册表中去重后学生人数比参与表中学生人数多；参与表中的注册人数应该对应注册表中的人数，两者数量应该相等；
2.含有学生账号值的那列数据，在两个表中是account_key,在另一个表中是acct;—已更改，提到前边了

为什么参与表的数据有缺失，如何调查此类问题：
1.找出异常的数据点–在这里就是没有相应参与数据的注册记录，
2.接下来要打印出一个或多个异常数据点，
有时可以通过观察，直接找出问题。
在注册表中找出在参与表中没有相应学生的任意一行。

缺失的互动（Engagement）记录

for enrollment in enrollments:
    student = enrollment["account_key"]
    if student not in unique_engagement_students:
        print(enrollment)
        break

## 找到任意一个 enrollments 中的学生，但不在 daily engagement 表中。
## 打印出这条 enrollments 记录
## break 只要找到一条信息就停下来

##由下边的运行结果来看，参与时间John_date = cancle_date,因为学生可能需要登录一整天，才会在参与表中有记录
## 因为是要查看记录，所以不能直接用 注册表的去重的账号与参与表中去重账号相匹配
## not_engagement_students = set()
## for engagemnt in get_unique_students(enrollments):
##     if engagement not in get_unique_students(daily_engagement):
##          not_engagement_students.add(engagement)
## print(not_engagement_students)

OrderedDict([('account_key', '1219'), ('status', 'canceled'), ('join_date', datetime.datetime(2014, 11, 12, 0, 0)), ('cancel_date', datetime.datetime(2014, 11, 12, 0, 0)), ('days_to_cancel', 0), ('is_udacity', False), ('is_canceled', True)])

检查更多的问题记录

not_engagement_students = 0
for enrollment in enrollments:
    student = enrollment["account_key"]
    if (student not in unique_engagement_students and
        enrollment["join_date"] != enrollment["cancel_date"]):  ## 注意此处的括号，and链接记得加括号
            print(enrollment)
            not_engagement_students += 1
print(not_engagement_students)

## 计算5种不同的数据点条数（在 enrollments 中存在，但在 engagement 表中缺失）
## 发现的问题，学生在注册的当天就注销掉了--这点很重要，因为接下来的数据分析，我们需要排除此类学生，或者需要知道此类问题
## 以便防止代码边际问题的产生


## 排查除了是当天注册注销的学生外，是否有其他的异常点

OrderedDict([('account_key', '1304'), ('status', 'canceled'), ('join_date', datetime.datetime(2015, 1, 10, 0, 0)), ('cancel_date', datetime.datetime(2015, 3, 10, 0, 0)), ('days_to_cancel', 59), ('is_udacity', True), ('is_canceled', True)])
OrderedDict([('account_key', '1304'), ('status', 'canceled'), ('join_date', datetime.datetime(2015, 3, 10, 0, 0)), ('cancel_date', datetime.datetime(2015, 6, 17, 0, 0)), ('days_to_cancel', 99), ('is_udacity', True), ('is_canceled', True)])
OrderedDict([('account_key', '1101'), ('status', 'current'), ('join_date', datetime.datetime(2015, 2, 25, 0, 0)), ('cancel_date', None), ('days_to_cancel', None), ('is_udacity', True), ('is_canceled', False)])
3

追踪剩余的问题

# 为所有 Udacity 测试帐号建立一组 set -----优达的测试账号不一定在参与表中体现出来
udacity_test_accounts = set()
for enrollment in enrollments:
    if enrollment['is_udacity']:
        udacity_test_accounts.add(enrollment['account_key'])
len(udacity_test_accounts)

# 通过 account_key 删除所有 Udacity 的测试帐号
def remove_udacity_accounts(data):
    non_udacity_data = []
    for data_point in data:
        if data_point['account_key'] not in udacity_test_accounts:
            non_udacity_data.append(data_point)
    return non_udacity_data

# 从3张表中移除所有 Udacity 的测试帐号  -----为剩下的数据建立了新的变量，之所以没有删除数据，是因为防止以后需要原始数据
non_udacity_enrollments = remove_udacity_accounts(enrollments)
non_udacity_engagement = remove_udacity_accounts(daily_engagement)
non_udacity_submissions = remove_udacity_accounts(project_submissions)

print(len(non_udacity_enrollments))
print (len(non_udacity_engagement))
print (len(non_udacity_submissions))

1622
135656
3634

此时已经完成了数据再加工，需要进行数据探索 exploration phase但是此后可能还会发现问题，到时会再解决他们
我想先研究对于通过和未通过第一个项目的学生而言，他们在每日参与表中的数据有何不同，但是这个问题，有些地方不够明确，比较奇怪。

如果我要观察每日参与表中的所有记录，那就包括项目提交后的数据，但是项目提交后的数据对于我们的研究没有什么关联，所以我们只观察首个项目提交前的参与数据。

2.如果我只看第一次提交前的参与情况，以及学生在一段时间后的提交情况，那么我需要比较的就是不同时间段的参与数据。但是学生的参与度可能会随时间变化–比如在最开始的几天之后，参与度可能会有所下降。如果是这样，那么将某学生一个月中的平均参与率与另一个学生两个月的参与情况相比较，可能会有误导性。

3.第三个问题是，我们使用的每日参与表含有整个纳米学位项目的参与数据，它也包括了与第一个项目无关的课程，这就比较奇怪了。

为了解决前两个问题，我只需要查看学生注册第一周的数据，我要把在一周内注销的学生排除在外。这样一来比较的时间段就相同了，这样做也有利于在收集数据时，排除在7天免费试用期过后注销的学生。
第三个问题也不难处理，我要查看纳米学位项目所有课程的参与数据，如果你只想看纳米学位第一节课的参与数据，可以下载每日参与数据的完整表格，其中包括按照课程分类，

首先，创建未注销学生字典或注销前注册超过七天的学生的字典，如果学生还没有注销，则days_to_cancel一列应该是None;如果学生注册超过7天，则该字段应该大于7；字典的键应该是account_keys,值应为学生注册的日期，因为，该日期此后还需要用于寻找第一周的参与记录。你应该将字典命名为paid_students

重新定义问题

paid_students = {}

for enrollment in non_udacity_enrollments:
    if (not enrollment["is_canceled"] or enrollment["days_to_cancel"] > 7):
        account_key = enrollment["account_key"]
        enrollment_date = enrollment["join_date"]
        if (account_key not in paid_students or enrollment_date > paid_students[account_key]):
            paid_students[account_key] = enrollment_date
            
                
            
len(paid_students)
##筛选出付费的学生，建立一个字典
## 创建一个叫 paid_students 的字典，并在字典中存储所有还没有取消或者注册时间超过7天的学生。
## 字典的键为帐号（account key），值为学生注册的时间。
## 写代码时注意单词的拼写
## 如果写成if (enrollment_date > paid_students[account_key] or account_key not in paid_students)
## 会出错，python 中or的执行逻辑  https://stackoverflow.com/questions/13960657/does-python-evaluate-ifs-conditions-lazily

获取第1周的数据

# 基于学生的加入日期和特定一天的互动记录，若该互动记录发生在学生加入1周内，则反回 True

def within_one_week(join_date, engagement_date):
    time_delta = engagement_date - join_date
    return time_delta.days < 7 and time_delta.days >=0

##在三张表中筛选中付费学生的记录，是记录，不是之前的单独付费学生字典


def remove_free_trail_cancel(data):
    new_data = []
    for data_record in data:
        if data_record["account_key"] in paid_students:
            new_data.append(data_record)
    return new_data

paid_enrollment = remove_free_trail_cancel(non_udacity_enrollments)
paid_engagement = remove_free_trail_cancel(non_udacity_engagement)
paid_submissions = remove_free_trail_cancel(non_udacity_submissions)

print(len(paid_enrollment))
print(len(paid_engagement))
print(len(paid_submissions))

## 创建一个 engagement 记录的列表，该列表只包括付费学生以及加入的前7天的学生的记录
## 输入符合要求的行数

for engagement_record in paid_engagement:
    if engagement_record["num_courses_visited"] > 0:
        engagement_record["has_visited"] = 1            ##字典中添加新元素的方法，记住，要会使用此方法
    else:
        engagement_record["has_visited"] = 0







paid_engagement_in_first_week = []

for engagement_record in paid_engagement:          ##注意此处是在付费的学生记录中，不是non_udacity_engagement
    account_key = engagement_record["account_key"]              ##一个字典跟一个列表链接，中间必须要有相同的东西---关系，搭建桥梁，
                                                         ##就像SQL中多张表连接一样
                                                        ##为什么写成account_key = engagement["account_key"] 也可以运行，结果是134549 ，相当于没有进行条件筛选了
    
    join_date = paid_students[account_key]
    engagement_date = engagement_record["utc_date"]   ## utc_date 是注册之后的参与日期
    
    if within_one_week(join_date,engagement_date):## 不需要写成(within_one_week(join_date,engagement_date))
        paid_engagement_in_first_week.append(engagement_record)
print(len(paid_engagement_in_first_week))

满足好奇心：
根据我想回答的问题，接下来的任务应该是将数据分成两组：
一组是最终通过第一个项目的学生；
一组是没有通过项目的学生；
但我有这么多有关学生第一周参与情况的数据，我很好奇，想观察一下数据
如果对数据好奇就去调查它，熟悉你的数据总是有用的

我想研究的又一个问题是，学生第一周上课的平均时间：

现在我有不同学生的参与记录，它们并未按顺序排列。
首先，我要对参与记录进行分组，使各组分别含有某学生的所有参与记录
我用字典来表现这些组，将键设为学生账号值，值设为该学生的参与记录表，
接下来，要把各学生的所有参与记录数据相加，以计算各学生上课的总时间，
最后，我要计算总数的平均值，以获得我想要的答案

要计算第一周学生的学习平均时间：
1.统计出每个学生的学习时间—defaultdict（list）来实现，按照学生分类
2.将每个学生的不同分类的学习时间汇总，到一个字典中
3.将字典中的所有值相加–利用numpy库来解决

Exploring Student Engagement

from collections import defaultdict

# 创建基于 student 对 engagement 进行分组的字典，字典的键为帐号（account key），值为包含互动记录的列表

#engagement_by_account = defaultdict(list)##用这个字典，主要是为了，当键不存在时，能返回空列表
#for engagement_record in paid_engagement_in_first_week:
   # account_key = engagement_record['account_key']
    #engagement_by_account[account_key].append(engagement_record)##官方写法，比较简洁


def group_data(data,filed_name):
    group_data = defaultdict(list)
    for data_piont in data: 
        account_key = data_piont[filed_name]
        group_data[account_key].append(data_piont)
    return group_data

engagement_by_account = group_data(paid_engagement_in_first_week,"account_key")

认识defaultdict：
当我使用普通的字典时，用法一般是dict={},添加元素的只需要dict[element] =value即，调用的时候也是如此，dict[element] = xxx,但前提是elemen在字典里，如果不在字典里就会报错，
这时defaultdict就能排上用场了，defaultdict的作用是在于，当字典里的key不存在但被查找时，返回的不是keyError而是一个默认值，这个默认值是什么呢，下面会说
如何使用defaultdict
defaultdict接受一个工厂函数作为参数，如下来构造：
dict =defaultdict( factory_function)

这个factory_function可以是list、set、str等等，作用是当key不存在时，返回的是工厂函数的默认值，比如list对应[ ]，str对应的是空字符串，set对应set( )，int对应0，如下举例：

from collections import defaultdict

dict1 = defaultdict(int)

dict2 = defaultdict(set)

dict3 = defaultdict(str)

dict4 = defaultdict(list)

dict1[2] =‘two’

print(dict1[1])

print(dict2[1])

print(dict3[1])

print(dict4[1]】

输出：

set()

[]

用法：
from collections import defaultdict

l=[(‘a’,2),(‘b’,3),(‘a’,1),(‘b’,4),(‘a’,3),(‘a’,1),(‘b’,3)]
d=defaultdict(list)
for key,value in l:
d[key].append(value)

d
defaultdict(,{‘a’:[2,1,3,1],‘b’:[3,4,3]}

原文：https://blog.csdn.net/liufang0001/article/details/54618484

# 创建一个包含学生在第1周在教室所花总时间和字典。键为帐号（account key），值为数字（所花总时间）
#total_minutes_by_account = {}
#for account_key, engagement_for_student in engagement_by_account.items():
    #total_minutes = 0
    #for engagement_record in engagement_for_student:
       # total_minutes += engagement_record['total_minutes_visited']
    #total_minutes_by_account[account_key] = total_minutes
    
def total_sth(group_data,filed_name):
    total_sth = {}
    for key,data_piont in group_data.items():
        total = 0
        for data_record in data_piont:
            total += data_record[filed_name]
        total_sth[key] = total
    return total_sth

total_minutes_by_account = total_sth(engagement_by_account,'total_minutes_visited')

##用法示例
from collections import defaultdict
l=[(‘a’,2),(‘b’,3),(‘a’,1),(‘b’,4),(‘a’,3),(‘a’,1),(‘b’,3)]
d=defaultdict(list)
for key,value in l:
d[key].append(value)
print(d)
print(d.items())

defaultdict(, {‘a’: [2, 1, 3, 1], ‘b’: [3, 4, 3]})
dict_items([(‘a’, [2, 1, 3, 1]), (‘b’, [3, 4, 3])])

%pylab inline
import matplotlib.pyplot as plt
import numpy as np

# 汇总和描述关于教室所花时间的数据
#total_minutes = list(total_minutes_by_account.values())##字典的value方法是将所有值列出,是字典值，直接用numpy计算平均值是会返回错误的，
##转成字典就好了

#print( 'Mean:',np.mean(total_minutes))
#print ('Standard deviation:', np.std(total_minutes))##标准偏差用以衡量数据值偏离算术平均值的程度。标准偏差越小，这些值偏离平均值就越少
##print ('Maximum:', np.max(total_minutes))
total_minutes = list(total_minutes_by_account.values())
def describe_data(data):
    print('Mean:', np.mean(data))
    print('Standard deviation:', np.std(data))
    print('Minimum:', np.min(data))
    print('Maximum:', np.max(data))
    plt.hist(data)
describe_data(total_minutes)

Populating the interactive namespace from numpy and matplotlib
Mean: 306.70832675342825
Standard deviation: 412.99693340852957
Minimum: 0.0
Maximum: 3564.7332644989997

标准偏差的值很大，比平均值还大
最小值0，最大值10568，比一周的总时间都长，肯定有问题

调试数据分析代码

解决这个问题的过程与之前缺失参与记录的过程是一样的：
确定哪些数据点属于异常点
打出异常点，看是否发现问题

找出异常点并打印出来

找到异常的分钟数，找到异常的学生

纠错现有的数据分析代码

max_minutes_student = None  
max_minutes = 0

for student,total_minutes in total_minutes_by_account.items():  ##要学会用这种方法
    if total_minutes > max_minutes:
        max_minutes = total_minutes
        max_minutes_student = student

print(max_minutes)

for engagement_record in paid_engagement_in_first_week:
    if engagement_record["account_key"] == max_minutes_student:
        print(engagement_record)
    

## 通过之前的方法检查是否有问题数据存在。
## 定位至少一条异常数据，打印出来并检查。

3564.7332644989997
OrderedDict([('utc_date', datetime.datetime(2015, 7, 9, 0, 0)), ('num_courses_visited', 4), ('total_minutes_visited', 850.519339666), ('lessons_completed', 4), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 1)])
OrderedDict([('utc_date', datetime.datetime(2015, 7, 10, 0, 0)), ('num_courses_visited', 6), ('total_minutes_visited', 872.633923334), ('lessons_completed', 6), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 1)])
OrderedDict([('utc_date', datetime.datetime(2015, 7, 11, 0, 0)), ('num_courses_visited', 2), ('total_minutes_visited', 777.018903666), ('lessons_completed', 6), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 1)])
OrderedDict([('utc_date', datetime.datetime(2015, 7, 12, 0, 0)), ('num_courses_visited', 1), ('total_minutes_visited', 294.568774), ('lessons_completed', 2), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 1)])
OrderedDict([('utc_date', datetime.datetime(2015, 7, 13, 0, 0)), ('num_courses_visited', 3), ('total_minutes_visited', 471.2139785), ('lessons_completed', 1), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 1)])
OrderedDict([('utc_date', datetime.datetime(2015, 7, 14, 0, 0)), ('num_courses_visited', 2), ('total_minutes_visited', 298.778345333), ('lessons_completed', 1), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 1)])
OrderedDict([('utc_date', datetime.datetime(2015, 7, 15, 0, 0)), ('num_courses_visited', 0), ('total_minutes_visited', 0.0), ('lessons_completed', 0), ('projects_completed', 0), ('account_key', '163'), ('has_visited', 0)])

结果中的数据远非7条，因为只是在第一周付费参与的，应该只包含一周的数据，此外数据点也不在一周范围内，
可以看到第一个数据点是在2015.1.7，底部最后一个日期是4.26.
所以within_one_week函数可能出问题了。
在这个函数中，我校验了参与日期与注册日期，最多相隔7天，并没有校验参与日期在注册日期之后，所以对于注册后注销，再注册的学生，其第一次注册的所有数据都会被算作第一周的数据。为确保这个问题，我要确保注册日期和参与日期之间，至少相隔0天。这样一来，我只考虑最近的注册数据

第1周完成的课程数（Lessons）



lessons_completed_in_first_week_account = total_sth(engagement_by_account,'lessons_completed')
total_lessons = list(lessons_completed_in_first_week_account.values())
describe_data(total_lessons)

## 修改之前的代码，找出第1周学生完成课程数的 平均值、标准差、最小值、最大值。尝试创建一个或更多的函数来复用之前的代码

Mean: 1.636180904522613
Standard deviation: 3.002561299829423
Minimum: 0
Maximum: 36

第1周的访问次数

##统计一周中有几天在访问，而num_courese_visited字段是每天访问了几节课，并不等于上课的天数
##所以需要创建一个字段 has_visited




course_visited_account = total_sth(engagement_by_account,'has_visited')
total_courses = list(course_visited_account.values())
describe_data(total_courses)


## 找出第1周学生访问教室天数的平均值、标准差、最小值、最大值。

Mean: 2.8673366834170855
Standard deviation: 2.2551980029196814
Minimum: 0
Maximum: 7

区分项目通过的学生

######################################
#                 11                 #
######################################
##将每日参与数据分为两个列表，一个是通过首个项目的学生参与数据，另一个是未通过首个项目的学生参与数据
## 创建两个付费学生第1周的互动数据列表（engagement）。第1个包含通过项目的学生，第2个包含没通过项目的学生。

subway_project_lesson_keys = ['746169184', '3176718735']

pass_students_list = set()


for submission_record in paid_submissions:
    if((submission_record["lesson_key"] in subway_project_lesson_keys)
   and (submission_record["assigned_rating"] in ["PASSED","DISTINCTION"])):#如果此处单独有一个accoutn值，可以直接在engagement_record["account_key"]中等于钙质
        pass_students_list.add(submission_record["account_key"])            ##但是此处值很多，需要建立一个列表，但是不能 有重复值，所以写成集合
                                                                        ## passed and distiction都是通过的，所以要写两个条件，其余都是不满足的
print(len(pass_students_list)) 

#for submission in paid_submissions:
  #  project = submission['lesson_key']                 写成这样会更直观
   # rating = submission['assigned_rating']    

    #if ((project in subway_project_lesson_keys) and
            #(rating == 'PASSED' or rating == 'DISTINCTION')):
       # pass_subway_project.add(submission['account_key'])



passing_engagement = []                                          ##在第一周的参与数据中，通过项目的学生通过条件筛选出来了，则剩下的是未通过的
non_passing_engagement = []

for engagement_record in paid_engagement_in_first_week:
    if engagement_record["account_key"] in pass_students_list:
        passing_engagement.append(engagement_record)
    else:
        non_passing_engagement.append(engagement_record)


#non_pass_students_list = set()
#non_passing_engagement = []
#for submission_record in paid_submissions:
    #if((submission_record["lesson_key"] in subway_project_lesson_keys) 
   #and (submission_record["assigned_rating"] in ["INCOMPLETE","blank","UNGRADED"])):
        #non_pass_students_list.add(submission_record["account_key"])
        
#for engagement_record in paid_engagement_in_first_week:
   # if engagement_record["account_key"] not in pass_students_list:
       #  non_passing_engagement.append(engagement_record)     
      
        

print(len(passing_engagement))
print(len(non_passing_engagement))

647
4527
2392

对比两组学生数据

需要计算两组的一些数据指标，可以从之前研究过的三个指标入手，学生上课的分钟数，完成的课程数，以及上课的天数
还可以再研究其他问题，比如这些学生是否更有可能完成其他项目，选择你认为差异最突出的数据指标

######################################
#                 12                 #
######################################
##前边的函数，方便查看，搬到这里了
#def group_data(data,filed_name):
  #  group_data = defaultdict(list)
  #  for data_piont in data: 
    #    account_key = data_piont[filed_name]
        #group_data[account_key].append(data_piont)
    #return group_data

#def total_sth(group_data,filed_name):
   # total_sth = {}
    #for key,data_piont in group_data.items():
     #   total = 0
       # for data_record in data_piont:
          #  total += data_record[filed_name]
       # total_sth[key] = total
   # return total_sth

#total_minutes = list(total_minutes_by_account.values())
#def describe_data(data):
   # print('Mean:', np.mean(data))
   # print('Standard deviation:', np.std(data))
    #print('Minimum:', np.min(data))
   # print('Maximum:', np.max(data))
    


pass_student_by_account = group_data(passing_engagement,"account_key")
##访问总时间数据
pass_student_total_minutes = total_sth(pass_student_by_account,"total_minutes_visited")
total_minutes = list(pass_student_total_minutes.values())
print("通过学生访问课程总时间数据：")
describe_data(total_minutes)

##访问总时间数据
non_pass_student_total_minutes = total_sth(non_pass_student_by_account,"total_minutes_visited")
total_minutes = list(non_pass_student_total_minutes.values())
print("未通过学生访问课程总时间数据：")
describe_data(total_minutes)

通过学生访问课程总时间数据：
Mean: 394.58604648350865
Standard deviation: 448.4995193265521
Minimum: 0.0
Maximum: 3564.7332644989997
未通过学生访问课程总时间数据：
Mean: 143.32647426675584
Standard deviation: 269.5386190114951
Minimum: 0.0
Maximum: 1768.5227493319999

##课程完成数
 
pass_student_courses = total_sth(pass_student_by_account,"lessons_completed")
total_courses = list(pass_student_courses.values())
print("通过学生课程完成数量数据：")
describe_data(total_courses)
print("\n")
non_pass_student_courses = total_sth(non_pass_student_by_account,"lessons_completed")
total_courses = list(non_pass_student_courses.values())
print("未通过学生课程完成数量数据：")
describe_data(total_courses)
print("\n")

通过学生课程完成数量数据：
Mean: 2.052550231839258
Standard deviation: 3.1422270555779344
Minimum: 0
Maximum: 36


未通过学生课程完成数量数据：
Mean: 0.8620689655172413
Standard deviation: 2.5491599418312028
Minimum: 0
Maximum: 27

##访问天数

pass_student_days = total_sth(pass_student_by_account,"has_visited")
total_days = list(pass_student_days.values())
print("通过学生访问天数数据：\n")
describe_data(total_days)
print("\n")
## 计算你所感兴趣的数据指标，并分析通过项目和没有通过项目的两组学生有何异同。
## 你可以从我们之前使用过的数据指标开始（教室的访问时间、课程完成数、访问天数）。


non_pass_student_days = total_sth(non_pass_student_by_account,"has_visited")
total_days = list(non_pass_student_days.values())
print("未通过学生访问天数数据：/n")
describe_data(total_days)

通过学生访问天数数据：

Mean: 3.384853168469861
Standard deviation: 2.2588214709184595
Minimum: 0
Maximum: 7


未通过学生访问天数数据：/n
Mean: 1.9051724137931034
Standard deviation: 1.9057314413619046
Minimum: 0
Maximum: 7

如果从以上选一个最有趣的差异，我可能会选上课的总分钟数，因为一个是第一周6.5各小时，一个是2.5小时，我认为两者差距最大，但是这个还是比较主观的

制作直方图

######################################
13 #
######################################

针对通过项目和没有通过项目的两组学生，为我们之前研究的三个数据指标制作直方图。
你也可以为其它你所检验的数据指标来制作直方图。
data = [1, 2, 1, 3, 3, 1, 4, 2]

%matplotlib inline
import matplotlib.pyplot as plt
plt.hist(data)
%matplotlib inline 这行代码专门用于 IPython 笔记本，可使图形呈现在你的笔记本而非新窗口中。
如果你没有使用 IPython 笔记本，你无需包含这行代码，而是应该在底部添加 plt.show() 这行代码，以便图形能够呈现在新窗口中。

直方图----数据的分布情况

x轴是上课时间总数或者访问课程总数及上课总天数区间，y轴是在这些区间中有多少学生

得出结论，进行预测#

我们已经解决了优达学成学生数据中的一些问题，同时，发现了变量之间的一些关系，现在，轮到我们得出结论，或者进行预测，你可能已经得出了一些初步结论，例如，通过地铁项目的学生在第一周中上课的分钟数要大于未通过的学生，但是，即便通过和未通过项目的学生之间不存在任何实际差异，两组的平均值也不会是相等的，那么，应该如何判断数据差异是真正的差异，还是数据中的噪音所导致的，我们看到的差异很大，这不太可能是由噪音造成的，但在这些情况中，直觉往往是不可靠的，你需要利用统计学来严格检查，偶然得出这些结果的可能性。----查看统计学课程

但是记住，我们得出的结论是未经证实的试验性结论

自己小结：通过对数据的统计，我们发现了变量间的一些关系，针对差异比较明显的关系，我们初步下了结论。但是这种差异是否是真正的差异，还是说很偶然，碰巧出现了这种差异，凭感觉是无法确定的，感觉不靠谱。这时候，需要用到统计学来严格检查，碰巧偶然得出这种可能性有多大。–统计学课程。

基于众多特征进行预测#

你现在需要尝试预测哪些学生更可能通过首个项目，而那些不会通过，你可以先根据你的研究，利用启发式方法，处理这个问题。
例如，你可以预测，第一周上课时间较长的学生，最后更可能通过第一个项目，但这样做出的预测往往不够准确。
首先，我们可能需要，考虑更多。你至少要考虑之前已经研究过的东西。比如，完成课程数量，上课分钟数和上课天数，除此之外，你可能还要考虑，一些其他的信息或特征。这本身并不难。但是这些特征之间有着复杂的相互作用。
比如，在单独观察上课分钟数的数据时，它可能是一个很重要的特征，但当你同时考虑它和课程完成数量时，你可能会发现，在知道学生完成课程的数量后，他们上课的分钟数，就无法提供任何其他信息了。

在此类情况中，你可以利用机器学习，自动进行较为准确的预测，这通常比你手动进行的预测更准确。有些机器学习算法还会根据特征对预测的重要性，为你提供一系列特征，

自己小结：
预测是根据特征来的：
可以根据研究数据中的一些特征手动进行预测，以某一个特征进行预测时候（这个特征比较重要），但是某一个特征预测，其准确度不够。
如果多个特征进行预测，各个特征之间又有着复杂的相互作用：比如当同时考虑其他特征时，另一个特征可能就变得无法提供任何其他信息了，
可以通过机器学习进行预测。

沟通----可视化#

在得出结论和做出预测后，程序的最后一步是分享你的研究成果。

即使你的结论没有统计学和机器学习作为支撑，你也可以考虑如何就你的研究成果与他人进行交流。
此时，你需要找出你认为最有趣或最值得分享的研究成果。并决定如何分享这些成果。—可视化
例如，我感兴趣的是，通过和未通过首个项目的学生，在上课总分钟数上的区别，我认为最清楚的呈现该结果的方法是展现两组的平均值；
此外，我还觉得，第一周上课的天数很有趣。对此，我认为，直方图能更好的展示数据，如果你想采用可视化手段，最好要花时间对其进行优化。你要让它看起来更美观。使其能够传达你要表现的趋势。你虽然知道图表表达的意思，但你的读者不一定能看懂。

改进图表及分享发现

######################################
#                 14                 #
######################################

## 至少改进一幅之前的可视化图表，尝试导入 seaborn 库使你的图表看起来更美观。
## 加入轴标签及表头，并修改一个或多个 hist() 内的变量。

你可能感兴趣的:(数据分析课程笔记,python数据分析,数据分析一般过程)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
凤凰公园吴侬暖语sym
凤凰公园距离我们家880米，大概步行12分钟就到了，这是我们每天饭后散步或者闲暇时的去处。现在夏季徬晚时分广场舞大妈们总是热情非凡，那里的大门口就是一个好地方，每天总有两拨人在那踩着节奏翩翩起舞呢！而且一路上，从我们小区到公园，或者从昆仑西苑沿河到公园，都是饭后锻炼的人们，川流不息，老人小孩，年轻人，…！哪哪都是。最早家乡的公园，所有公园都是要收门票的，那时候也就是休息天会有人花钱去转转，平时一般
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri