WerateDogs数据分析

这是我的第一个数据分析项目，主要是对WerateDogs（一个以诙谐幽默的方式为狗狗评分的tweet）的数据进行收集和清洗，并生成可视化。
原创，禁止转载！

import pandas as pd
import numpy as np
import requests as rq
import tweepy
import json
import os

#设置数据的显示长度为500字符
pd.set_option('max_colwidth',500)

#读取twitter-archive-enhanced.csv文件，简写为tae
tae=pd.read_csv('twitter-archive-enhanced.csv')
tae[tae['retweeted_status_id'].notnull().values==True]

数据质量问题：

twitter-archive-enhanced表

  1.timestamp列和retweeted_status_user_id列的时间后面都有'+0000';
  2.source列有多余的html相关信息，只需要截取设备相关信息；
  3.与转发推文相关的列应该删除,根据项目要求没有相关图片的列也需要删除；

tae.info()

数据质量问题：

twitter-archive-enhanced表

4.所有“id”相关的数据类型应该是字符串，所有“timesatmp”相关的数据类型应该是Date type；
5.expanded_urls部分缺失，后续应该删除；
6.doggo、floofer、pupper、puppo列有大量空值，有的一个dogname对应2种stage。

数据整洁度问题：

twitter-archive-enhanced表

1.doggo、floofer、pupper、puppo四列应该合并成‘stage’一列

#首先查重，没有重复行
tae.duplicated()
tae['tweet_id'].duplicated().sum()
tae['text'].duplicated().sum()

#查询跟expanded_urls相关的缺失，应该是因为相关列属于转发列，所以没有url，后续删除。
tae[tae['expanded_urls'].isnull().values==True]

tae['text'].sort_values(0)

tae['expanded_urls'].value_counts()
tae['expanded_urls'].sort_values()

数据整洁度问题：

twitter-archive-enhanced表：

2.expanded_urls列出现很多重复的url；

tae['rating_numerator'].sample(100)
tae['rating_numerator'].value_counts()
tae['rating_numerator'].isnull().sum()
tae['rating_numerator'].sort_values()

数据质量问题：

twitter-archive-enhanced表：

7.rating_numerator列狗的评分有0分，还有很多评分达到三位数甚至4位数（观察发现可能是跟前面的text列出现的评分错误有关）,还有空值；

tae['rating_denominator'].value_counts()
tae['rating_denominator'].sort_values()

数据质量问题：

twitter-archive-enhanced表：

  8.rating_denominator列很多基准评分是10分以上，甚至出现3位数（暂未知是否正确），有空值出现。

tae['name'].sample()
tae['name'].value_counts()
tae['name'].sort_values()

数据质量问题：

twitter-archive-enhanced表

  9.name列出现很多非名字的单词、字母‘a’或空值；

#创建一个文件夹，下载image-predicitons文件
folder_name = 'image-predictions'
if not os.path.exists(folder_name):
    os.makedirs(folder_name)
url='https://raw.githubusercontent.com/udacity/new-dand-advanced-china/master/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97/WeRateDogs%E9%A1%B9%E7%9B%AE/image-predictions.tsv'
response=rq.get(url)
with open(os.path.join(folder_name,url.split('/')[-1]),mode='wb') as file:
    file.write(response.content)

#读取image-predictions文件
ip=pd.read_csv('image-predictions/image-predictions.tsv',sep='\t')

数据质量问题：

image-predictions表

  10.tweet_id的类型应为字符串，而不是整形；

ip.duplicated()
ip['jpg_url'].duplicated().sum()

数据质量问题：

image-predictions表

  11.jpg_url列出现65条重复的url，应该是转发的，删除；

#读取tweet_json文件
tweet=pd.read_json('tweet_json.txt',lines=True)
tweet.info()

#这里只需要id、favorite count和retweet相关的数据，先观察一下数据
tweet[['id','id_str','favorite_count','retweeted','retweet_count']].sample(100)
#id和id_str两列有些末两位数字不一样;retweeted列没有数据，删除。

tae['tweet_id'].isin([714251586676113408,692894228850999296]).sum()
#随机选择id和id_str列两组不一致的数据检查，发现id列的数据是对的而id_str列是错的

#根据tweet新建DataFrame，并将tweet_id类型改为字符串，为后面合并表格做准备
tweet_clean=tweet.copy()
tweet_clean=pd.DataFrame(tweet_clean[['id','favorite_count','retweet_count']])
tweet_clean.rename(columns={'id':'tweet_id'},inplace=True)
tweet_clean['tweet_id']=tweet_clean['tweet_id'].astype('str')

数据质量问题：

twitter-archive-enhanced表

  1.timestamp列和retweeted_status_user_id列的时间后面都有'+0000';
  2.source列有多余的html相关信息，只需要截取设备相关信息；
  3.与转发推文相关的行和列应该删除；
  4.所有“id”相关的数据类型应该是字符串，所有“timesatmp”相关的数据类型应该是Date type；
  5.expanded_urls部分缺失；
  6.doggo、floofer、pupper、puppo列有大量空值，有的一个dogname对应2种stage；
  7.rating_numerator列狗的评分有0分，还有很多评分达到三位数甚至4位数（观察发现可能是跟前面的text列出现的评分错误有关）,还有空值；
  8.rating_denominator列很多基准评分不是10分，基准评分出现3位数（暂未知是否正确），有空值出现；
  9.name列出现很多非名字的单词、字母‘a’或空值；

image-predictions表

  10.tweet_id应是字符串，而不是整形；
  11.jpg_url列出现65条重复的url，应该是转发的，删除；

数据整洁度问题：

twitter-archive-enhanced表：

  1.doggo、floofer、pupper、puppo四列应该合并成‘stage’一列；
  2.expanded_urls列出现很多重复的url；
  3.应该依据tweet_id将三个表格合并到一个表格中。

#1.timestamp列和retweeted_status_user_id列的时间后面都有’+0000’;
后面要删除retweeted_status_user_id列，就不修改这一列了。

#先将所有表格copy一份
tae_clean=tae.copy()
ip_clean=ip.copy()
tweet_clean=tweet_clean.copy()

#tae_clean.info()
tae_clean['timestamp']=tae_clean['timestamp'].astype('str')
tae_clean['timestamp']=tae_clean['timestamp'].str[0:19]
tae_clean['timestamp']

#2.source列有多余的html相关信息，只需要截取设备相关信息；

tae_clean['source'].value_counts(0)
tae_clean['source']=tae_clean['source'].str.extract('(>(.+)<)',expand=True)
tae_clean['source']=tae_clean['source'].str.extract('([A-Z]\D+[a-z])',expand=True)
#测试结果
tae_clean['source'].value_counts()

#3.与转发推文相关的行和列应该删除，没有图片的列也应该删除；观察发现retweet相关的列的时间都更早一些，但是不确定是否是最初的tweet，所以直接删除，共删除in_reply_to_status_id、in_reply_to_user_id、retweeted_status_id、retweeted_status_user_id、retweeted_status_timestamp5列及对应的
行。没有图片的列将在后面合并三个表格时再处理。

#先看下in_reply_to_status_id和retweet相关的各有多少列
tae_clean[tae_clean['in_reply_to_status_id'].notnull()]
tae_clean[tae_clean['retweeted_status_id'].notnull()]
in_reply_to_status_id和retweet相关的依次有78、181列,有部分重叠的，都删除掉
#先保留非转发的数据
tae_clean=tae_clean[tae_clean['retweeted_status_id'].isnull()]
tae_clean=tae_clean[tae_clean['in_reply_to_status_id'].isnull()]
#删除in_reply_to_status_id、in_reply_to_user_id、retweeted_status_id、retweeted_status_user_id、retweeted_status_timestamp5列
tae_clean.drop(['in_reply_to_status_id','in_reply_to_user_id','retweeted_status_id','retweeted_status_user_id','retweeted_status_timestamp'],axis=1,inplace=True)
#测试结果
tae_clean.info()

#4所有“id”相关的数据类型应该是字符串，所有“timesatmp”相关的数据类型应该是Date type；

#将tweet_id改为字符串
tae_clean['tweet_id']=tae_clean['tweet_id'].astype('str')
#将timestamp改为date time型式
import time,datetime
tae_clean['timestamp']=tae_clean['timestamp'].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S") )
tae_clean['timestamp']
#测试结果
tae_clean.info()

#5.expanded_urls部分缺失；现在expanded_urls只剩下3个空值。

#先观察空值情况
tae_clean[tae_clean['expanded_urls'].isnull()]
#相关行的name也是空值，全部删除
tae_clean=tae_clean[tae_clean['expanded_urls'].notnull()]
#测试结果
tae_clean['expanded_urls'].value_counts()

#6.doggo、floofer、pupper、puppo列有大量空值，有的一个dogname对应2种stage。待name列处理完后再处理这一条。

#7、#8 .rating_numerator、rating_denominator列评分较多错误。先从text列提取相关评分对比观察，并相应调整。

#从text列提取评分相关数据,使用正则表达式\d+\/\d+来匹配评分，如果text里面有多个类似字符串，可能会匹配第一个，造成数据错误，后面进一步更正
tae_clean['rating_standard']=tae_clean['text'].str.extract('(\d+\/\d+)',expand=True)
tae_clean['rating_standard'].value_counts()

#针对其中可能有异常的值观察下text的内容
tae_clean[tae_clean['rating_standard'].isin(['27/10','26/10','84/70','121/110','50/50','9/11','1776/10','7/11','45/50','4/20','24/7','80/80','88/80','1/2','75/10','144/120','420/10','60/50','44/40','204/170','99/90','165/150'])][['text','rating_standard','rating_numerator','rating_denominator']]

#其中出现了一些分母不为10的情况，大部分可以人为将分母调整为10，分子对应调整;但是像50/50、24/7、9/11、4/20、1/2和7/11这样的是截取了错误的数据，像26/10、75/10和27/10是只截取了小数部分数据，都要进行调整。
tae_clean['rating_standard'].replace({'24/7':'nan','45/50':'9/10','144/120':'12/10','88/80':'11/10','204/170':'12/10','121/110':'11/10','99/90':'11/10','84/70':'12/10','4/20':'13/10','80/80':'10/10','9/11':'14/10','44/40':'11/10','1/2':'9/10','165/150':'11/10','60/50':'12/10','50/50':'11/10','7/11':'10/10','4/20':'13/10','75/10':'11.75/10','27/10':'11.27/10','26/10':'11.26/10'},inplace=True)
tae_clean[tae_clean['rating_denominator']!=10]

#所有错乱数据都已经更正，接下来将rating_standards列拆分，取代原来的rating_numerator、rating_denominator列
tae_clean['rating_numerator_new'],tae_clean['rating_denominator_new']=tae_clean['rating_standard'].str.split('/',n=1).str
#测试结果
tae_clean['rating_numerator_new'].value_counts()
tae_clean['rating_denominator_new'].value_counts()
#对于其中1776和420这两个可能异常的值再次观察对应的text文本，发现评分确实是这么高，不属于异常。

#删除原来的rating_numerator、rating_denominator列
tae_clean.drop(['rating_numerator','rating_denominator'],axis=1,inplace=True)
tae_clean
#至此评分清洗完毕

#9.name列出现很多非名字的单词、字母‘a’或空值。

tae_clean['name'].value_counts()
#其中有600个空值和55个a，可以通过提取text栏信息进一步完善；仔细观察text，发现类似于This is、named、Meet、Say hello to、name is、Here we have、
# Here is等字符后面跟的都是dog的姓名，都在text的首句。因此采用(?:This is|named|Meet|Say hello to|name is|Here we have|Here is)\s([A-Z][a-z.+]*)(|表示从前面的字符串里面
#任选一个作为前缀，[A-Z][a-z.+]*表示以大写字母开头、后面紧跟小写字母、到后面一个'.'为止的狗的名字）匹配狗的名字，再利用切片去除后面的‘.’。
tae_clean['name_new']=tae_clean['text'].str.extract('(?:This is|named|Meet|Say hello to|name is|Here we have|Here is)\s([A-Z][a-z.+]*)',expand=True)

tae_clean['name_new'].value_counts()
#用nan填充空白
tae_clean['name_new']=tae_clean['name_new'].str[:-1].replace('',np.nan)
tae_clean['name_new'].sample(100)

#删除原来name列
tae_clean.drop(['name'],axis=1)

#6.doggo、floofer、pupper、puppo列有大量空值，有的一个dogname对应2种stage；同时存在整洁度问题，应该将他们合并成‘satge’一列。从text重新提取相关信息生成stage列。

#从text提取stage相关信息
tae_clean['stage']=tae_clean['text'].str.lower().str.findall('(doggo|floofer|pupper|puppo)')

#将stage列的值改为str，并合并有两个或三个stage的值
tae_clean['stage']=tae_clean['stage'].apply(lambda x:','.join(set(x))).replace('',np.nan)
tae_clean['stage'].value_counts()
#删除doggo、floofer、pupper、puppo列
tae_clean.drop(['doggo','floofer','pupper','puppo'],axis=1,inplace=True)

tae_clean['stage'].value_counts()
#其中有一些stage里面有两种评级，将其拆分为两行。

#新建一列，先将有两个stage的值拆分为两行
stage_split=tae_clean['stage'].str.split(',',expand=True).stack()
#重新设置索引
stage_split=stage_split.reset_index(level=1,drop=True)
#删除含多值的列,然后把拆分后的列合并进去
tae_clean=tae_clean.drop('stage',axis=1).join(stage_split.rename('stage'))
tae_clean['stage'].value_counts()

###image-predictions表
10.tweet_id应是字符串，而不是整形

ip_clean['tweet_id']=ip_clean['tweet_id'].astype('str')
ip_clean.info()

#11.jpg_url列出现65条重复的url，应该是转发的，删除；

ip_clean.drop_duplicates(['jpg_url'],'first',inplace=True)
#测试结果
ip_clean['jpg_url'].value_counts()

数据整洁度问题：

twitter-archive-enhanced表：
1.已将dog的四个评级列合并成一列；
2.expanded_urls列出现很多重复的url；这一列信息与后面的分析没什么关系，可以删除

tae_clean.drop(['expanded_urls'],axis=1,inplace=True)
tae_clean

#2.应该依据tweet_id将三个表格合并到一个表格中；项目要求使用含有图片的原始评级，因为jpg_url列都是含图片的，这里采用inner连接即可过滤掉相关无图片的行。

#tweet_clean.info()
tae_clean=pd.merge(tae_clean,ip_clean,on=['tweet_id'],how='inner')
tae_clean=pd.merge(tae_clean,tweet_clean,on='tweet_id',how='left')
tae_clean

#删除text，name，rating_standard列，修改对应列名后存档
tae_clean.drop(['text','name','rating_standard'],axis=1,inplace=True)
tae_clean.rename(columns={'rating_numerator_new':'rating_numerator','rating_denominator_new':'rating_denominator','name_new':'name'},inplace=True)

储存数据

tae_clean.to_csv('twitter_archive_master.csv')

数据分析和可视化

拟研究的问题：
1.狗的评分是否与转发数和点赞数有关；
2.狗的哪几个名字最常用；
3.狗的哪种评级的评分最高。

#首先加载数据
df=pd.read_csv('twitter_archive_master.csv')
df

import matplotlib.pyplot as plt
%matplotlib inline

#1. 狗的评分是否与转发数和点赞数有关；

df_favorite=df[['favorite_count','rating_numerator']]
#评分存在异常值，这里取评分低于30分的值
df_favorite=df[df['rating_numerator']<30]

#这里选用散点图
plt.scatter(df_favorite['rating_numerator'],df_favorite['favorite_count'])
plt.xlabel('rating_numerator')
plt.ylabel('favorite_count')
plt.title('scatter')
plt.show()

df_favorite=df[['retweet_count','rating_numerator']]
#评分存在异常值，参考上面的结果，这里取评分低于20分的值
df_favorite=df[df['rating_numerator']<20]
plt.scatter(df_favorite['rating_numerator'],df_favorite['retweet_count'])
plt.xlabel('rating_numerator')
plt.ylabel('retweet_count')
plt.title('scatter')
plt.show()

在评分较为正常的区域(低于15分），随着favorite_count、retweet_count分布越密集、数值越大，则评分越高，说明点赞数、转发数与评分正相关，
也可能是因为评分越高则点赞和转发越高。

#2 狗的哪几个名字最常用；采用词云图来观察；

# -*- coding=utf-8 -*-
from wordcloud import WordCloud
from wordcloud import ImageColorGenerator
from os import path
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
%matplotlib inline

df_name=df[['tweet_id','name']].dropna()
df_name['name'].sort_values()

image=Image.open(r"music.png")
img=np.array(image)
cloud=WordCloud(font_path='geforce.ttf',background_color='white',mask=img,max_words=200,max_font_size=300,width=1400,height=2400)
names='/'.join(df_name['name'])
print(names)
cloud.generate(names)
plt.imshow(cloud)
plt.axis('off')
plt.show()
plt.savefig('dog_name.png',dpi=300)

从词云图看，最常用的名字包括Charlie，Dliver，Lucy，Cooper,Penny等，还可以进一步搜集dog的性别信息，统计这些常用名与性别的关系。

#3.狗的哪种评级的评分最高。需要求出各种分级评分的均值再进行比较。

df_stage=df[['stage','rating_numerator']]
df_stage.groupby('stage').mean().sort_values('rating_numerator',ascending=False)

从统计结果看，puppo的平均评分最高，后面依次是floofer,doggo和pupper。由于评级相关的数据较少统计结果可能存在一定的误差。

##总结：通过加载、url下载方式收集了Weratedgos相关的三份数据，经过评估后对三份数据进行了清理和合并，最后利用matplotlib画散点图研究了相关转发数、点赞数与狗的评分的关系，画词云图研究了狗的哪些名字最常见，通过pandas统计的不同stage狗的评分的高低排序。

你可能感兴趣的:(数据分析)

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
RNA-seq数据分析_未完成子诚之组学数据分析数据分析
目录基础分析1.质控（reads）2.比对3.质控（alignment）4.定量5.样本合并差异表达1.质控（cohort）2.差异分析3.可视化（差异）富集分析肿瘤免疫1.免疫组库2.免疫浸润3.免疫响应4.新抗原预测微生物组参考本文主要覆盖了肿瘤样本bulkRNA-seq数据常见的分析步骤，并从实践角度出发，较为具体地介绍了每一步骤依赖的工具和数据集。另外，尽管本文适用于肿瘤样本，但其中的一些
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
深度分析 | 2024年四川大学信息资源管理考研初试成绩数据分析是希望川大667信息管理导论川大972信息检索信息资源管理复试数据分析 667 972 四川大学考研复试考研成绩
摘要本文深入分析了2024年四川大学信息资源管理考研复试成绩，提供了关于考生成绩分布、各科目成绩表现以及科目成绩与总分之间的相关性的详细见解。分析显示，复试考生的平均总分为380.63分，标准差为12分，反映出成绩分布相对集中且波动适中。特别地，专业课972与总分的相关性最高，达到了0.82，明显影响了考生的总分表现。此外，通过比较高分组和低分组的表现，我们发现专业课成绩是区分高低分考生的关键因素
如何评估一个需求值不值得做？木灵V
如何评估一个需求值不值得做？以下阐述我评估的过程：1、首先，应了解清楚一个需求最基础的问题用户：这个需求要满足的用户是谁？场景：用户是什么情况下提出来的？问题：要解决的核心问题是什么？动机：用户要解决这个问题的目的和动机是什么？原方案：用户原来解决这个问题的方案是怎样的？2、然后，通过调研或数据分析验证需求/问题是否存在然后，如果有条件，我会开展简单的调研，回到用户产生需求的现场，确认一下要满足的
R语言microeco:一个用于微生物群落生态学数据挖掘的R包（构建microeco对象。还是要前进啊 R语言 r语言数据挖掘
我以前写过临床微生物组的文章，其中数据分析用过microeco包，在这里，将我学到的资源分享给大家。R语言microeco:一个用于微生物群落生态学数据挖掘的R包。主要功能R6类;分类群丰度图，维恩图，Alpha多样性，Beta多样性，差异丰度分析，环境数据分析，零模型分析，网络分析，功能分析。install.packages("microeco")library(microeco)library
Pandas教程15：多个DataFrame数据（保存+追加）为Excel表格数据我的Python教程我的Python教程 #Pandas pandas excel Python教程
---------------pandas数据分析集合---------------Python教程71：学习Pandas中一维数组SeriesPython教程74：Pandas中DataFrame数据创建方法及缺失值与重复值处理Pandas数据化分析，DataFrame行列索引数据的选取，增加，修改和删除操作Pandas教程05：DataFrame数据常用属性和方法汇总Pandas教程06：Da
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Python新手入门教程 | 如何用Python进行数据分析(超详细）田野猫咪 python 数据分析 windows
有小伙伴在学Python新手教程的时候说学Python比较复杂的地方就是资料太多了，比较复杂。很多网上的资料都是从语法教起的，花了很多时间还是云里雾里，摸不清方向。今天就给大家来捋一捋思路！帮助大家提高学习效率！三大板块：两组Python基础术语如何实现爬虫如何做数据分析1.两大Python基础术语A.变量和赋值Python可以直接定义变量名字并进行赋值的，例如我们写出a=4时，Python解释器
让数据在业务间高效流转，镜舟科技与NineData完成产品兼容互认镜舟科技数据库云计算
近日，镜舟科技与NineData完成产品兼容测试。在经过联合测试后，镜舟科技旗下产品与NineData云原生智能数据管理平台完全兼容，整体运行高效稳定。镜舟科技致力于帮助中国企业构建卓越的数据分析系统，打造独具竞争力的“数据护城河”，其基于全球领先的开源项目StarRocks研发了两款企业级软件——镜舟分析型数据库和镜舟湖仓加速引擎，在用户画像分析、指标平台建设、固定报表加速、实时数据查询分析等领
每天一个数据分析题（二百零一）紫色沙数据分析题库数据分析数据挖掘
以下关于线性回归模型的经典假设，描述正确的是（）。A.自变量与因变量必须有线性关系B.正交假定:扰动项与自变量不相关，期望值为0C.扰动项之间相互独立且服从方差相等的同一个正态分布D.多元线性回归中，自变量之间不能有强共线性题目来源于CDA模拟题库点击此处获取答案
11/21 日精进刘磊stely
晚上数据分析会进入年底了为年底做准备检查好每一辆检查出的项目跟客户沟通好避免客户因为没有检查到位大冬天的车辆出现问题造成客户不满意
python从入门到精通（十五）：python爬虫完整学习大纲 HACKNOE python 爬虫学习
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库，如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
ChatGPT GPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术夏日恋雨人工智能 chatgpt 数据分析 AI大数据机器学习 python 数据挖掘
原文链接：ChatGPTGPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247596849&idx=3&sn=111d68286f9752008bca95a5ec575bb3&chksm=fa823ad6cdf5b3c0c446eceb5cf29cccc3161d746bd
numpy和matplotlib小例子 Roy Teng numpy matplotlib
最近准备学《Python数据分析与挖掘实战》这本书，刚看到第二章numpy和matplotlib这一部分，发现这个图挺有意思的，就做个笔记记录一下，日后发现有意思的继续更。importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)y=np.sin(x)+1z=np.cos(x**2)+1plt.figure(figsize
MYSQL的读写扩展 hailang86 mysql 数据库
1.分布式数据库有很多种：采用分库分表方式将数据路由拆分到多个数据库上；以greenplum未代表的mpp数据库架构；以tidb为代表的newSQl数据库架构。2.mpp数据架构是一种处理大规模数据分析任务的分布式数据架构，大规模并行处理。当执行一条SQL语句时，会将语句发送到所有数据节点进行查询处理，利用多节点的计算能力进行计算。3.分库分表主要用于简单的业务场景，OLTP场景，onlinetr
计算机设计大赛疫情数据分析与3D可视化 - python 大数据 iuerfee python
文章目录0前言1课题背景2实现效果3设计原理4部分代码5最后0前言优质竞赛项目系列，今天要分享的是大数据全国疫情数据分析与3D可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：2分工作量：3分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题背景基于大数据的新
为什么要使用ElasticSearch？ z.jiaminf ElasticSearch elasticsearch 大数据搜索引擎
ElasticSearch是一个开源的分布式搜索和分析引擎，主要适用于以下场景：1.搜索引擎：用于快速检索文档，商品，新闻等。2.日志分析：通过分析日志数据，帮助企业了解其业务的性能情况。3.数据分析：帮助数据科学家和数据分析师进行数据分析，以获取有价值的信息。4.商业智能：帮助企业制定数据驱动的决策，以实现商业上的成功。5.实时监控：帮助企业实时监测系统性能，监控数据变化，以保证系统正常运行。6
Hive SQL 开发指南（三）优化及常见异常大数据_苡~ 003-数据开发 hive Hive优化数据倾斜 Hive常见异常 hive join
在大数据领域，HiveSQL是一种常用的查询语言，用于在Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的HiveSQL开发规范至关重要。本文将介绍HiveSQL的基础知识，并提供一些规范化的开发指南，帮助您高效地编写HiveSQL查询。本系列分为HiveSQL开发指南（一）数据类型及函数HiveSQL开发指南（二）使用（DDL、DML，DQL）HiveSQL开
数据分析Pandas专栏---第十一章＜Pandas数据聚合与分组(1)＞晦涩男董先生数据分析pandas 数据分析 pandas 数据挖掘
前言:数据聚合和分组操作是数据处理过程中不可或缺的一部分。它们允许我们根据特定的条件对数据进行分组，并对每个组进行聚合计算。这对于统计分析、汇总数据以及生成报告和可视化非常有用。无论是市场营销数据分析、销售业绩评估还是金融数据建模，数据聚合和分组操作都起着关键的作用。正文:数据聚合操作定义数据聚合在数据分析中，聚合是指将多个数据元素合并为更高级别的结果表示。数据聚合可以通过对数据集应用统计函数来实
数据分析业务面试题 Lowe-小码数据分析数据挖掘
目录Q1：请简述数据分析的工作流程？Q2：你经常用到的数据分析方法有哪些，举例说明？Q3：公司最近一周的销售额下降了，你如何分析下降原因？Q4：店铺销售额降低如何分析？Q5：若用户留存率下降如何分析？Q6：店铺商品销售情况分布后Q7：如何描述店铺经营状况？
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round