YT.5

案例：探索性数据分析，房价预测

文章目录

探索性数据分析
- 查看数据量和简单信息
- - 加载数据
  - 数据大致信息
- 数据切片分析
- 单变量分析
- 峰度和偏度
- 数据维度的分析
- - 水资源分布情况
- 变量关系可视化展示
房价预测

探索性数据分析

数据集：粮农组织数据集

https://raw.githubusercontent.com/cmawer/pycon-2017-eda-tutorial/master/data/aquastat/aquastat.csv.gzip

探索性数据分析是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法，特别是当我们面对大数据时代到来的时候，各种杂乱的“脏数据”，往往不知所措，不知道从哪里开始了解目前拿到手上的数据时候，探索性数据分析就非常有效。

查看数据量和简单信息

加载数据

data = pd.read_csv(path,compression='gzip')
data.head()

数据大致信息

data.shape

数据切片分析

我们先来看一下variable,variable_full这两列的信息，

看一下统计了多少国家，

data.country.nunique()
#输出：199

看一下有多少个时间周期，

data.time_period.nunique()
#结果：12

看一下时间周期有哪些，

time_periods = data.time_period.unique()

我们看一下某一列某个指标的缺失值的个数，比如variable是total_area时缺失值的个数,

data[data.variable=='total_area'].value.isnull().sum()#缺失值个数
#输出结果:220

我们通过几个维度来进行数据的分析：

横截面：一个时期内所有国家
时间序列：一个国家随着时间的推移
面板数据：所有国家随着时间的推移(作为数据给出)
地理空间：所有地理上相互联系的国家

我们按照上面的处理继续，现在我们想统计一下对于一个时间周期来说，不同国家在这个周期内的变化情况，

# 数据切片分析
def time_slice(df,time_period):
    df = df[df.time_period==time_period]
    df = df.pivot(index='country',columns='variable',values='value')  # 透视表 index是country 列索引是variable和value
    df.columns.name = time_period
    return df

我们也可以按照国家分类，查看某个国家在不同时期的变化，

 # 国家在不同的时间上分布的规则
def country_slice(df,country):
    df = df[df.country==country]
    df = df.pivot(index = 'variable',columns = 'time_period',values = 'value')
    df.index.name = country
    return df

我们还可以根据属性，查看不同国家在不同周期内的变化情况，

# 所有国家随着时间的变化在指定属性下的变化情况
def variables_slice(df,variable):
    df = df[df.variable == variable]
    df = df.pivot(index = 'country',columns = 'time_period',values = 'value')
    return df

我们还可以给定国家和指标，查看这个国家在这个指标上的变化情况，

# 给定国家在指标的情况
def time_series(df,country,variable):
    series = df[(df.country==country)&(df.variable==variable)]
    series = series.dropna()[['year_measured','value']]
    series.year_measured = series.year_measured.astype(int)
    series.set_index('year_measured',inplace = True)
    series.columns = [variable]
    return series

我们可能需要查看某些评估数据的子集。区域是一种直观的数据细分方式。

在这里插入代码片

通过上图可以看出，区域太多，不便于观察，我们可以将一些区域进行合并。减少区域数量有助于模型评估，可以创建一个字典来查找新的，更简单的区域(亚洲，北美洲，南美洲，大洋洲)

单变量分析

通过画图来分析，导入一些库
地图矢量数据可以自己网上搜

%matplotlib inline
%config InlineBacked.figure_format = 'retina'

import matplotlib as mpl
from matplotlib import pyplot as plt
import seaborn as sns
sns.set_context('poster',font_scale=1.3)
import folium  # 世界地图

import os,sys
import numpy as np
import pandas as pd
import pivottablejs
import missingno as msno# 缺失值可视化
import pandas_profiling#可以以网页的形式展现给你数据总体概况
import ipynb
sys.path.append(r"F:\jpyter file\learn")
from demo1 import time_slice,country_slice,time_series,simple_regions,subregion,variables_slice

msno.matrix(recent,labels=True)#缺失值可视化

# 查看其中水资源总量缺失值
msno.matrix(variables_slice(data,'exploitable_total'),inline =False,sort = 'descending')
plt.xlabel('Time_period');
plt.ylabel('Country');
plt.title('Missing total exploitable water resources data across countries and time periods \n\n\n')

# 去掉无法使用的数据
data = data.loc[~data.variable.str.contains('exploitable'),:]

通过上图发现，南美洲各国缺失得的数据并不是很多，前几个国家是不缺数据的，我们抽查一下巴哈马(图中倒数第二)，看一下它缺少了哪些数据，

msno.nullity_filter(country_slice(data,'Bahamas').T,filter='bottom',p=0.1)

接下来我们探索一下区域之间的关系，看一下缺失值的出现，是不是跟国家之间有关系，我们画一下世界地图，选择区域，然后在这个区域选择某一个指标，看一下它的缺失值的分布情况，颜色越深，缺失值越严重，我们以农业对GDPagg_to_gdp,为指标看一下分布情况，
geo = r"D:\谷歌下载\世界国家geojson大全，各国地图json数据下载\countries.geo.json"

null_data = recent['agg_to_gdp'].notnull()*1
map = folium.Map(location = [48,-102],zoom_start=2)
map.choropleth(geo_data=geo,
              data=null_data,
              columns=['country','agg_to_gdp'],
              key_on='feature.properties.name',reset=True,
              fill_color='GnBu',fill_opacity=1,line_opacity=0.2,
              legend_name='Missing agricultural contribution to GDP data 2013-2017')


map

我们也可以指定不同的指标，

def plot_null_map(df,time_period,variable,legend_name=None):
    ts=time_slice(df,time_period).reset_index().copy()#不指明，从0开始
    ts[variable]=ts[variable].notnull()*1
    map = folium.Map(location=[48,-102],zoom_start=2)
    map.choropleth(geo_data=geo,
        data=ts,
        columns=['country',variable],
        key_on='feature.properties.name',reset=True,
        fill_color='GnBu',fill_opacity=1,line_opacity=0.2,
        legend_name=legend_name if legend_name else variable)
    return map

接下来我们用热力图展示一下，不同指标随着时间的变化情况，颜色越深说明在这个指标上收集到的国家数据越少，反之则越多。

# 不同国家对不同变量随着时间推移的重视程度
fig,ax = plt.subplots(figsize=(16,16))
sns.heatmap(data.groupby(['time_period','variable']).value.count().unstack().T,ax=ax)
plt.xticks(rotation=45)
plt.xlabel('Time period')
plt.ylabel('Variable')
plt.title('Number of countries with data reported for each variable over time')

# 单变量的分布规则和不同变量之间的关系
pandas_profiling.ProfileReport(time_slice(data,'2013-2017'))

峰度和偏度

上图是2013-2017年国家总人数的分布，通过上图我们发现，人口量少于200000(不考虑单位)的国家非常多，人口大于1200000的国家非常少，如果我们需要建模的话，这种数据我们是不能要的。这个时候我们应该怎么办呢？

通常，遇到这种情况，使用log变换将其变为正常。对数变换是数据变换的一种常用方式，数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设，从而更好的进行统计推断。

我们可以看到结果log处理之后峰度和偏度下降了许多

def plot_hist(df,variable,bins=20,xlabel=None,by=None,ylabel=None,title=None,logx=False,ax=None):
    if not ax:
        fig,ax=plt.subplots(figsize=(12,8))
    if logx:
        if df[variable].min()<=0:
            df[variable] = df[variable] -df[variable].min()+1
            print('Warning:data<=0 exists,data transformed by %0.2g before plotting' % (-df[variable].min()))
        bins = np.logspace(np.log10(df[variable].min()),np.log10(df[variable].max()),bins)
        ax.set_xscale("log")
    ax.hist(df[variable].dropna().values,bins=bins)
    
    if xlabel:
        ax.set_xlabel(xlabel)
    if ylabel:
        ax.set_ylabel(ylabel)
    if title:
        ax.set_title(title)
    
    return ax

画图展示

plot_hist(recent,'total_pop',bins=25,logx=True,xlabel='Log of total population',ylabel='Number of countries',
         title='Distribution of total population of countries 2013-2017')

数据的分布已经比之前的更标准了

数据维度的分析

首先我们先来看一下美国的人口总数随时间的变化，

# 首先我们先来看一下美国的人口总数随时间的变化，
plt.figure(figsize=(10,10))
plt.plot(time_series(data,'United States of America','total_pop'))
plt.xlabel('Year')
plt.ylabel('Population')
plt.title('United States population over time')

查看北美洲每个国家人口总数随着时间的变化

#查看北美洲每个国家人口总数随着时间的变化
plt.figure(figsize=(15, 10))
with sns.color_palette(sns.diverging_palette(220,280,s=85,l=25,n=23)):
    north_america = time_slice(subregion(data,'North America'),'1958-1962').sort_values('total_pop').index.tolist()
    for country in north_america:
        plt.plot(time_series(data,country,'total_pop'),label=country)
        plt.xlabel('Year')
        plt.ylabel('Population')
        plt.title('North American populations over time')

    plt.legend(loc=2,prop={'size':10})

这个时候我们发现，一些国家由于人口数量本身就少，所以整个图像显示的不明显，我们可以改变一下参照指标，那我们通过什么标准化？我们可以选择一个国家的最小、平均、中位数、最大值…或任何其他位置。那我们选择最小值，这样我们就能看到每个国家的起始人口上的增长。

plt.figure(figsize=(15, 10))
with sns.color_palette(sns.diverging_palette(220,280,s=85,l=25,n=23)):
    for country in north_america:
        ts=time_series(data,country,'total_pop')
        ts['norm_pop']=ts.total_pop/ts.total_pop.min()*100
        plt.plot(ts['norm_pop'],label=country)
        plt.xlabel('Year')
        plt.ylabel('Percent increase in population')
        plt.title('Percent increase in population from 1960 in North American countries')

    plt.legend(loc=2,prop={'size':10})

我们也可以用热度图来展示，用颜色的深浅来比较大小关系，

水资源分布情况

def plot_hist(df,variable,bins=20,xlabel=None,by=None,ylabel=None,title=None,logx=False,ax=None):
    if not ax:
        fig,ax=plt.subplots(figsize=(12,8))
    if logx:
        if df[variable].min()<=0:
            df[variable] = df[variable] -df[variable].min()+1
            print('Warning:data<=0 exists,data transformed by %0.2g before plotting' % (-df[variable].min()))
        bins = np.logspace(np.log10(df[variable].min()),np.log10(df[variable].max()),bins)
        ax.set_xscale("log")
    ax.hist(df[variable].dropna().values,bins=bins)
    
    if xlabel:
        ax.set_xlabel(xlabel)
    if ylabel:
        ax.set_ylabel(ylabel)
    if title:
        ax.set_title(title)
    
    return ax

峰值和偏度处理：

使用热度图查看

fig,ax = plt.subplots(figsize=(16,12))
sns.heatmap(north_america_renew,ax=ax,cmap=sns.light_palette((214,90,60),input="husl",as_cmap=True))
plt.xticks(rotation=45)
plt.xlabel('Time period')
plt.ylabel('Country,ordered by Total renewable water resources in 1960(<-greatest to least->)')
plt.title('Total renewable water resources increase in population from 1960')

变量关系可视化展示

人均GDP变化与季节之间的关系

data=data.loc[~data.variable.str.contains('exploitable')]
data=data.loc[~(data.variable=='national_rainfall_index')]
plt.figure(figsize=(8,8))
plt.scatter(recent.seasonal_variability,recent.gdp_per_capita)
plt.xlabel('Seasonal variability')
plt.ylabel('GDP per capita ($USD/person)')

使用新的函数JoinGrid

def plot_scatter(df,x,y,bins=20,xlabel=None,ylabel=None,title=None,ax=None,logx=False,logy=False):
    if not ax:
        fig,ax=plt.subplots(figsize=(12,8))
    colors = mpl.rcParams['axes.prop_cycle'].by_key()['color']
    if by:
        groups = df.groupby(by)
        for j,(name,group) in enumerate(groups):
            ax.scatter(group[x],group[y],color=colors[j],label=name)
        ax.legend()
    else:
        ax.scatter(df[x],df[y],color=colors[0])
    if logx:
        ax.set_xscale('log')
    if logy:
        ax.set_yscale('log')
    ax.set_xlabel(xlabel if xlabel else x)
    ax.set_ylabel(ylabel if ylabel else y)
    if title:
        ax.set_title(title)
    
    return ax

svr = [recent.seasonal_variability.min(),recent.seasonal_variability.max()]
gdpr = [recent.gdp_per_capita.min(),recent.gdp_per_capita.max()]
gdpbins = np.logspace(*np.log10(gdpr),25)
g = sns.JointGrid(x="seasonal_variability",y="gdp_per_capita",data=recent,ylim=gdpr)
g.ax_marg_x.hist(recent.seasonal_variability,range=svr)
g.ax_marg_y.hist(recent.gdp_per_capita,range=gdpr,bins=gdpbins,orientation="horizontal")
g.plot_joint(plt.hexbin,gridsize=25)
ax = g.ax_joint

g.fig.set_figheight(8)
g.fig.set_figwidth(9)

其他元素：

bar_colors = ['#0055A7' if x else '#2C3E4F' for x in list(recent_corr.values<0)]
color_labels = {'#0055A7':'Negative correlation','#2C3E4F':'Positive correlation'}

conditional_bar(recent_corr.apply(np.abs),bar_colors,color_labels,
               title='Magnitude of correlation with GDP per capita,2013-2017',
               xlabel='|Correlation|')

蓝色代表负相关，黑色是正相关

直方图展示

plot_hist(recent,'gdp_per_capita',xlabel='GDP per capita($)',
         ylabel='Number of countries',
         title='Distribution of GDP per capita,2013-2017')

log变换 log = True

房价预测

数据集：https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=train.csv

# 看完数据基本情况之后，查看处理缺失值了  cancat重塑（简单连接）：0行1列
total = df.isnull().sum().sort_values(ascending=False)
percent = (df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total,percent],axis=1,keys=['Total','Percent'])
missing_data.head(20)

15. 条件语句 if_elif_else 丰收连山 python 数据库开发语言
一、基础语法结构if语句的基本格式概念定义if语句是Python中的条件控制语句，用于根据条件的真假执行不同的代码块。其基本结构如下：if条件:代码块使用场景if语句适用于需要根据条件决定是否执行某段代码的情况，例如：检查用户输入是否合法判断变量是否符合预期值根据计算结果选择不同的处理方式常见误区或注意事项条件表达式后必须加冒号（:）代码块必须缩进（通常4个空格或1个制表符）条件表达式的结果应为布
Python中if及else使用 moclocd Python编程 python
if、else使用{Python的if判断语句可以单独使用，也可搭配else使用：如：if(变量名运算符数值或另一个变量名)://括号可加可不加，如果不加，第一个变量名前就需要加一个空格。语句组1//语句组可多写，但是!!!语句组一定要和if的判断条件对齐!!!不然会报错!!!{例：if(a>=0):print(a)}或：if(变量名运算符数值或另一个变量名):语句组1else:语句组2//els
Python的判断语言if/elif/else Star___J python 开发语言后端
Python的判断语句分为"单分支"、"二分之"、"多分支"。Python判断语言"单分支"语句:if:if条件:代码块它包含这样几个部分:if关键字，表示这是一条判断语句；表示判断的条件，当这个条件被满足(即条件为真)时，执行中的代码，条件不满足时，中的代码不会被执行；冒号表示判断代码的开始；表示条件满足时，执行代码块。例如:x=5ifx>1:#if后面跟的就是条件，如果x大于1代码就会继续执行
【GitHub开源项目实战】高频交易系统实战解析：基于 Nautilus Trader 的策略回测与事件驱动架构优化观熵 GitHub开源项目实战 github 开源架构
高频交易系统实战解析：基于NautilusTrader的策略回测与事件驱动架构优化关键词：高频交易、事件驱动架构、NautilusTrader、量化回测、算法交易、PythonCython、交易引擎、回测系统、交易策略框架、实战优化摘要：本篇博客围绕GitHub上高质量的开源项目nautechsystems/nautilus_trader展开系统性实战解析。NautilusTrader是一套为专业
Python 中 if 和 else 基础知识的详解和使用点云SLAM Python python 开发语言 python基础学习 Python中流程控制语法 if和else语法人工智能基础计算机语言
一、基本语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件1不成立，条件2成立时执行else:#所有条件都不成立时执行注意：elif是“elseif”的缩写，可以有多个；else可省略；条件表达式必须是可以返回布尔值的语句（True或False）；Python使用缩进表示代码块，通常是4个空格。二、常见条件表达式表达式含义x==y等于x!=y不等于x>y,x=y,x0:print
python多线程：自定义线程类实现线程体、多线程锁机制、死锁问题的解决网小鱼的学习笔记 Python python 开发语言
自定义线程类实现线程体其实threading.Thread是threading模块内的一个类，我们可以自行设计一个类，让这个类继承threading.Thread类，接着在def_init_()内调用threading_Thread_init()方法，然后再所设计的类类别设计run方法，这个概念就称为自定义线程。自定义线程类实现线程体importthreadingimporttime#自定义子线程
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
DOCKER教程 weixin_34388207 运维操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>注意事项1.官方申明docker还是在开发完善中，不建议在运营的产品中使用它，但是现在离正式版越来越接近了，请关注我们的博客http://blog.docker.io/2013/08/getting-to-docker-1-0/2.系统注意事项-由于现在的docker的局限性，现在只能使用在64位的服务器上边安装教程ubntu安装教程（12.0
Python简单理解1-10阶乘和运算小张不嚣张꒰ঌ(˚ᆺ˚)໒꒱ Python爬虫基础集合 python 后端
简单理解for循环实现1-10的阶乘运算基本思路;首先分析阶乘的关系如1!=12!=2*1=23!=3*2*1=64!=4*3*2*1=245!=5*4*3*2*1=120....10!=10*9*8*7*6*5*4*3*2*1=3628800自2以后的阶乘都是前面数的阶乘再乘以本身的数。如4的阶乘4!=43!(32*1),因此我们可以使用for循环来执行代码，定义一个变量啊a和一个总和sum然后
python实现回文数的判断简单理解
回文数的判断及解析第一种方法：第二种方法：回文数：简单来说就是，无论是从前往后读还是从后往前读，都是一样的第一种方法：通过字符串的一些特定的功能来判断是不是回文数a=str(input("请输入你要输入的数字:"))#输入字符串b=a[::-1]#倒序输出ifa==b:#判断是否相等print(f'{a}是回文数')else:print('{}不是回文数'.format(a))#format方法输
使用Python加载SubRip (.srt)字幕文件进行文本处理 zbb258 python 开发语言
SubRip文件格式是一种非常基础的字幕文件格式，通常使用扩展名.srt。这种格式的字幕文件是由一组组格式化的纯文本行组成，每组之间由一个空行分隔。字幕通常从1开始按顺序编号。时间码格式为小时:分钟:秒,毫秒，且时间单位固定为两个零填充的数字，分数固定为三个零填充的数字(例如00:00:00,000)。由于该程序是在法国编写的，分数分隔符使用逗号。在这篇文章中，我们将演示如何使用Python库加载
Flask + GPT 实践红鼻子时代 flask项目 flask gpt python
一、前言本篇文章会介绍从零开始构建一个基于Flask+GPT的小项目的过程。总共有四个版本的迭代，包括：1、调用GPT接口并渲染到前端页面；2、使用Flask提供的session来实现登录和登出功能；3、用SQLAlchemy管理数据库，实现用户注册和登录；4、记录和分页查看用户与GPT的对话历史。二、项目环境与依赖Python版本：建议3.7+Flask：最常用的PythonWeb框架之一ope
python初学者编程指南源码_Python可以这样学 PDF 带讲义代码版 weixin_39980917 python初学者编程指南源码
给大家带来的一篇关于Python编程相关的电子书资源，介绍了关于学Python方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小22MB，董付国编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.9。内容介绍读者评价已刷完，重点看前面部分基础知识，后面的挑着感兴趣的领域看。前面基础知识讲得不够系统，如果不是刷过别的python书的话单靠本书不一定能吃透。后半应用领域讲得较散，既不
Python的GUI库选择指南（深度拓展）
前文我们分析了python的GUI库，有很多，面向应用场景也不尽相同，如何在使用过程中，选择合适的GUI库呢？可以查看：python有哪些常用的GUI（图形用户界面）库及选择指南-CSDN博客初学者推荐：Tkinter或PySimpleGUI，简单易学，文档丰富。复杂应用：PyQt5或WxPython，提供完整的功能集和高级组件。移动应用：Kivy或BeeWare（Toga），支持跨平台部署到iO
Python小游戏（井字棋）毛大猫（蓉火科技） python 开发语言数据库
Python的井字棋小游戏：方法一：初始化一个3x3的空棋盘（用数字1-9表示位置）board=[“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”]defprint_board():“”“打印当前棋盘”“”print(“\n”)print(f"{board[0]}|{board[1]}|{board[2]}“)print(”—|—|—“)print(f”{board[3]}|
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
使用matplotlib绘制散点图、柱状图和饼状图-学习篇 Zorione Python matplotlib 学习 python
一、散点图Python代码如下：num_points=100x=np.random.rand(num_points)#x点位随机y=np.random.rand(num_points)#y点位随机colors=np.random.rand(num_points)#颜色随机sizes=1000*np.random.rand(num_points)#大小随机alphas=np.random.rand(
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
AccuFace 在 iClone/Character Creator 导出 ARKit 52 子燕若水 iclone 3D daz3d 服务器 linux 运维
方案概览AccuFace在iClone/CharacterCreator里写入的是Reallusion60标准BlendShape曲线。要把它们导出为ARKit52并写入文本文件，可采用「iClone→FBX(ARKit52命名)→Blender→Python脚本→JSON/CSV」这一条相对稳妥的管线。关键步骤下面分拆说明，并给出可直接运行的脚本示例。步骤1：把Reallusion60映射到AR
Python 3 中tkinter 里的滚动文本框（ScrolledText）彭啊彭
最近在写一个模拟做题系统，里面有一个输出错题的功能，设置的文本框只有输出一道错题的大小，但是不能就一道题吧，就想到了平时页面里的滚动文本框，上网搜了搜，查到了ScrolledText，但是没找到实现我所需要功能的具体方法，没办法，我就自己研究了研究，好在最后实现了，现在就附上我的实现代码：defcuotiwin():globalscore#分数globallist2#存放错题var1=String
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
Django 4.x Models App settings 模型应用设置 Mr数据杨 Python Web开发 python django 模型 model 配置
在Django框架中，模型（Model）是用于定义和操作数据库表结构的核心组件。模型通过使用Python类的形式，帮助简化数据库操作，自动生成SQL语句，使得开发者能够专注于业务逻辑的实现，而无需直接编写复杂的SQL代码。Django的ORM（对象关系映射）提供了一种便捷的方式，将Python对象与数据库记录进行映射操作，从而有效地管理数据交互。对于那些想要在项目中使用Django构建数据库应用的
OpenGauss数据库-L.应用开发(Python)-选做 lovane_630 数据库 python oracle
第1关：简单查询#加载数据库模块importpsycopg2#连接数据库,创建连接并返回连接对象defconnect():conn=psycopg2.connect(database="finance",user="gaussdb",password="Passwd123@123",host="localhost")returnconn#建立与数据库连接mydb=connect()#获取游标#执行
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
GitHub 趋势日报 (2025年06月25日) qianmoQ GitHub 项目趋势日报 (2025年)github
由TrendForge系统生成|https://trendforge.devlive.org/本日报中的项目描述已自动翻译为中文今日获星趋势图今日获星趋势图880awesome788build-your-own-x691free-for-dev427best-of-ml-python404Self-Hosting-Guide403Best-websites-a-programmer-should-
python读mongodb很慢_Python3.5+Mongodb+Flask Web实战坑点小结【Dog Plus】 weixin_39604685
我不是程序员，也不是设计师，我只是碰巧有一些想法和一台电脑。Iamnotadesignernoracoder.I'mjustaguywithapoint-of-viewandacomputer.写在前言前：第一个WEB部署完毕，觉得有必要做一个小结：开发平台及工具：Win10+Pycharm+Py3.5+Flask+Mongodb回头看看，一旦选择这样的套装就注定要有很多坑来填。建议后来者能用Li
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本