实习--Day6

7/29,真.强烈建议给我发正式员工的工资,昨天忘记更新博客了

新任务又来了

这次与SQL无缘了,开始要数据分析了

从某张表t1提取某些字段直接插入到另一张表t2

insert into t1(column1...) select column1... from t2 where comdition;

 

pandas:

  • pandas对象的read_sql方法:通过执行sql语句将表的数据变成DataFrame实例返回
  • apply方法:DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds),该函数最有用的是第一个参数,这个参数是函数,相当于C/C++的函数指针。也就是高阶函数,用于函数式编程范式
    • 这个函数需要自己实现,函数的传入参数根据axis来定,比如axis = 1,就会把一行数据作为Series的数据结构传入给自己实现的函数中,我们在函数中实现对Series不同属性之间的计算,返回一个结果,则apply函数会自动遍历每一行DataFrame的数据,最后将所有结果组合成一个Series数据结构并返回。
  • concat方法:
    pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
              keys=None, levels=None, names=None, verify_integrity=False,
              copy=True)
    • objs:Series,DataFrame或Panel对象的序列或映射。如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文)。任何无对象将被静默删除,除非它们都是无,在这种情况下将引发一个ValueError。
    • axis:{0,1,...},默认为0。沿着连接的轴。
    • join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为并集和inner为交集
    • ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,...,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。注意,其他轴上的索引值在连接中仍然受到尊重。
    • join_axes:Index对象列表。用于其他n-1轴的特定索引,而不是执行内部/外部设置逻辑。
    • keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。
    • levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。
    • names:list,default无。结果层次索引中的级别的名称。
    • verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
    • copy:boolean,default True。如果为False,请勿不必要地复制数据。
  • DataFrame['column_name']:可以把list或者tuple作为右值
  • 打印DataFrame两列出来:df[['a_column','b_column']],就类似于将这两列作为一列打印出来
  • df的groupby.count:相当于sql中的select count(*) from tablename group by column...
  • df[df['column_name'] != value]]:select * from table where column_name <> value

NAVICAT:

DDL备份表:查看--->对象信息--->DDL--->复制DDL--->适当修改某些东西,比如表名--->执行即可

 

新工作:

之前我这块的分析工作做的差不多了,现在要做的就是统计了

完整流程:我一开始做的地址提取,后面增强版,再后面字段内容分析--->这些都是数据分析,分析完就要把分析的数据进行存储到分析表里面anls,最后统计汇总到---statistic后缀的数据表中,由于大数据里面表是没有关联的(外键,多对多),所以我们要通过逻辑来进行外键的功能实现,以及进行汇总(统计的过程大概是:我统计表里面的一个字段的某个值是对应分析表同字段的多行数据,所以我们要进行聚类,并且选出这个事件编码对应的某些东西的最多出现的作为代表)

 

enumerate:有i,item返回回来

你可能感兴趣的:(杂项,数据分析)