性感奎爷在线写代码

机器学习

准备

特征工程：

scikit-learn介绍：

数据特征抽取：

热编码：适合类别型数据处理方式

sklearn特征抽取API

字典特征抽取

文本特征抽取

TF_IDF(评估重要性):

数据特征预处理：

通过数学算法把数据转为算法要求的数据

归一化算法（原始分布情况不会改，数值减小了）

标准化

缺失值处理：

数据降维：

数据类型：

算法分类：监督学习和无监督学习

机器学习开发流程：

sklearn数据集与估计器

转换器估计器

分类算法-K近邻算法

K近邻算法实例

分类模型的评估

分类算法-朴素贝叶斯算法

朴素贝叶斯算法实例

模型的选择与调优

决策树与随机森林

准备

机器学习适合的数据：csv

为什么？（mysql性能瓶颈） 2.格式不太符合机器学习要求数据类型

用到工具：numpy可以释放GIL锁，pandas读取工具

可用数据集：1.scikit-learn(提点：数据量小 2方便学习) 2 kaggle特点（数据量大，数据竞争平台，真实） 3.UCI(收录了360数据集 2.覆盖多个领域)

常用数据集数据的结构组成：特征值+目标值样本的概念

数据中对特征的处理：scikit-learn pandas

特征工程：

是什么：将原始数据转为更好的代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的准确性

意义:直接影响预测结果

scikit-learn介绍：

数据特征抽取：

特征抽取案例：

结论特征抽取时对文本等数据进行特征值化（方便让计算机去理解）

sparse矩阵节约内存，方便读取处理

热编码：适合类别型数据处理方式

sklearn特征抽取API

from sklearn.feature_extraction import  DictVectorizer
from  sklearn.feature_extraction.text import CountVectorizer

字典特征抽取

from sklearn.feature_extraction import  DictVectorizer
di=DictVectorizer()
data=di.fit_transform(X=[{"头发":3,"升高":"180"},{"头发":7,"升高":"160"}]) 就拿到矩阵了
  (0, 1)	1.0
  (0, 2)	3.0
  (1, 0)	1.0
  (1, 2)	7.0

sklearn.feature_extraction  数据特征抽取API

DictVectorizer.fit_transform(X)  X>>>>> [{},{},{}] 返回>>>举证

DictVectorizer(sparse=True,) 默认返回矩阵 如果想要数组改为False

inverse_transform(X) X>数组或矩阵  转换之前数据格式
d.get_feature_names()#返回列表名称
d.transform() #按照原先的标转换

文本特征抽取

from  sklearn.feature_extraction.text import CountVectorizer
c=CountVectorizer()  #生成一个计文本特征抽取对象
data=c .fit_transform(["i like like laowang","i am find, thank"])  #解析文本返回元祖
    # (0, 10)	1
  # (0, 4)	1
  # (0, 2)	1
  # (0, 15)	2
  # (0, 16)	1
  # (1, 6)	1
# print(c.get_feature_names())  # 抽取的出文字名字列表 ['am', 'find', 'laowang', 'like', 'thank']
# print(cv.inverse_transform(x))  #返回转换之前数据格式  [array(['am'], dtype='

 
  TF_IDF(评估重要性): 
  """ 适合分类 :文本
解决不知道根据什么词汇作为主要词汇   用来评估一个词对文档的重要程度
如果在别的文章中也出现较多 可能说明这个词汇不重要  逆文档频率越低  统计总数/别的文章出现该词次数
TF  词的频率
IDF  逆文档频率
重要性=TF*IDF（出现的词汇的频率*逆文档频率） 
  from  sklearn.feature_extraction.text import  TfidfVectorizer
    c1, c2, c3 = cutword()
    c1 = "".join(c1)
    c2 = "".join(c2)
    c3 = "".join(c3)
    tfv=TfidfVectorizer()
    data=tfv.fit_transform([c1,c2,c3])
    print(len(tfv.get_feature_names()))
    print(tfv.get_feature_names())
    print(data.toarray())  #试点 出现的频率较高  0.60534851  如果增加别的文章出现的“试点”频率，这个值就会下降 
    #[[0.         0.         0.4305185  0.         0.4305185  0.
  #0.         0.         0.         0.4305185  0.         0.
  # 0.         0.         0.50854232 0.4305185  0.         0.        ] 
  ================================================================================================ 
  数据特征预处理： 
  接口：sklearn.preprocessing 
  通过数学算法把数据转为算法要求的数据 
  归一化算法（原始分布情况不会改，数值减小了） 
  主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速读取 
  比如查看魅力占分，取决于三个值，三个值同等重要。总不能按照原来数据进行计算。 
  缺点：如果数据不准确，例如最大值计算错误，会收到到异常的影响，此时需要标准化，这种只适合场景精确度小的场景。 
  标准差=（具体的特征值-这一列最小的值)/最大值-最小值


归一值 =标准差* （区间差  默认1 -0）+区间最大的值
原理 ：
X'=(x-min)/max-min  得到 X''=X’*（mx-mi）+mi
max为一列里的最大值，min为最小值，x''最终结果。
mx 区间最大值   mi区间最小


 
   
    
  def  guiui():
    from sklearn.preprocessing import MinMaxScaler
    mm=MinMaxScaler()
    data2=mm.fit_transform([[5,4,2],[3,6,0],[7,1,1]])  #X为 二维数组 的列表  注：feature_range=(2,3)  默认0-1会影响最终结果
    print(data2) 
    
  标准化  
  可以把数据转为均值为0，方差为1范围内 
  对于归一来说，出现异常点，结果会变 
  标准化，具有一定数据量，少量异常点影响较小 
  公式：
标准值：X‘=（x-均值）/标准差
标准差=根号(方差)
方差=（(x1-均值）^2+(x2-均值）^2）/n 样本个数  

 
  from sklearn.preprocessing import StandardScaler
    import  numpy as np
    sds=StandardScaler()
    data=sds.fit_transform([[1,2,3],[4,5,6],[7,8,9]])
    print(sds.mean_) #原始数据的平均值
    print(sds.std_)  #原始数据的方差 
    
  缺失值处理： 
  思路：1.删除 达到一定要求比例 建议删除  2.插补 换成平均值 中数 
  可以用 numpy.replace 把一些错误数据变为nan 
  文件中有缺省，通过np.array转为fioa'转为数组即可 
  而在sklearn只需要通过接口，就可以把数据添上了 
  def queshizhi_chuli():
    """缺失值处理"""
    import  numpy as np
    from sklearn.preprocessing import  Imputer
    imp=Imputer(missing_values="NaN",strategy="mean",axis=0)
    data=imp.fit_transform([[1,2],[3,np.nan],[np.nan,6]])
    print(data)
    return None

 
    
  数据降维： 
  这里指的是减少数据的特征的数量，但是不会减小数据的实际意义。数据降低了但是表达的意思不能少。 
  方式：特征选择  主成分分析 
  特征选择 
  选择部分特征作为训练特征，特征在选择后可以选择是否改变原值，但是维数一定减少 
  冗余：部分特征相关度高，容易消耗性能（不讲） 
  噪声：部分预测对与预测结果有影响 ，比如亚洲人统计皮肤颜色 ，但是亚洲人颜色又差不多 
  主要方法 过滤式Filter（过滤方差较小的）  Embedded(嵌入式) 正则化，决策树   Wrapper(包裹式) 
  过滤式，有一列数据可能方差小 没必要统计，那么我们就过滤掉 
  #设立过滤式方差阈值 多余的会被过滤
from sklearn.feature_selection import VarianceThreshold
    vt=VarianceThreshold(threshold=1.6)  #设置阀值,只保留方差在阀值以上的那一列
    data=vt.fit_transform ([[0,2,3,4],[4,5,2,1],[2,2,1,3]])
    print(data) 
  主成分分析： 
  高维度数据容易产生的问题:因为特征之间通常相关的，这些多余相关的数据可以不要 
  PCA:: 分析 简化数据集的技术 让数据压缩，在尽可能减少数据损害的情况下 减少数据维度为目的。 
  def zhuchengfeng_fengxi():
    '''主成分分析'
    PCA 是啥 分析 简化数据集的技术
    让数据压缩，为减少数据为目的，损失少量数据
    作用：可以削减回归分析或者聚类分析的数量
    '''
    from sklearn.decomposition import   PCA
    pca=PCA(n_components=0.99)  #n_components 小数的话为 保留百分之多少 整数的话 为减少几个维度
    data=pca.fit_transform(X=[[1,4,7,10],[2,5,8,11],[3,6,9,12]])
    print(data)  # 123  456 789  规律很显然 所以按照规律不要了
    return None
 
  数据类型： 
  离散型数：所有数据都是int，不能再提高他们的精确度：如15000人，区间不可分 
  连续性数据：长度时间质量，区间可分 
    
  算法分类 ：监督学习 和无监督学习 
  有特征值+目标值------》有监督    有监督又分为 
  分类 ：有分类的，最基本二分类，眼睛，头发 
  回归 ：有连续的数据，如气温 
  只有特征值》》》无监督 
  =============================================================================================== 
  机器学习开发流程： 
  算法是核心 
  准备数据：公司本身有的数据，合作过来的数据，购买的数据 
  1.明确老板想干啥  根据目标值划分重类   
  2.数据预处理：pd 缺省 合并 
  3.特征进行处理 保留啊，归一化啊 文本啊 
  4.合适的算法进行预测，分类问题找分类算法，回归用回归 
  5.模型的评估   算法+数据 
  6.模型评估  最后上线使用 API 的形式提供 
  sklearn数据集与估计器 
  数据集划分 ：训练集 测试集 （全都为训练集，最后拿什么测，拿训练集测的话 不就百分百了？ 所以 75%作为训练，25%作为测试） 
  训练集集用来建立模型，测试集用来评估模型 
  API: 
  from sklearn.model_selection import train_test_split #进行数据分类 
  from sklearn.model_selection import  train_test_split  #进行数据分类
from sklearn.datasets import load_iris
li = load_iris()
x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25)
# 第一个参数为特征值训练的和测试的，第二个参数为目标值 训练的和测试的，test_size 测试值占比大小，比如 0.25
print(x_train)  #训练特征值
print("*"*120)
print(x_test)  #测试特征值
print("*" * 120)
print(y_train)  #训练目标值
print("*" * 120)
print(y_test)    #测试目标值 
  sklearn数据集接口 
  from sklearn.datasets import load_iris  #拿到小规模数据集 以load_ 开头，
数据已经在databases0了

from sklearn.datasets import fetch_20newsgroups  #拿到大规模数据集 
以fetch__ 开头
Fetch_20newsgroups(data_home=None)  #data_home数据集下载位置
 
  sklearn回归数据集 
      from sklearn.datasets import  load_iris
    li=load_iris()
    print(li.data) #[样本*特征值]    每一行为样本  列为特征值构成的二维数组   #这里有150 4列
    print(li.target) #目标值
    print(li.DESCR) #描述信息
    print(li.feature_names)  #特证值标题。注： 新闻数据，手写数据，回归数据集 没有此方法
    print(li.target_names)  #目标值标题 
  sklearn分类数据集 
      from sklearn.datasets import  fetch_20newsgroups #没有的话会自动下在 可以指定目录
    new=fetch_20newsgroups(data_home="C:",subset="all") #train训练的 test测试的  all两个都
    print(new.data)
    print(new.target)  # 目标值
    print(new.DESCR)

    from sklearn.datasets import clear_data_home  # 清空目录下的数据
    clear_data_home(data_home=None) 
    
  转换器估计器 
  转换器： 
  我们之前其实实例化的是一个转换器，通过转换器的fit_transforms
自动计算得到矩阵 词频不能使用该方法


fit_transforms  输入数据直接转换


fit 输入数据计算 但是不转换


transform（）转换
注意 如果你fit了，如果再拿新的数据进行转换 肯定是和本意有区别的 
    
  估计器：是一类实现了算法的API 
  分类的估计器：sklearn.neighbors K近邻算法    
naive_bayes朴素贝叶斯  linear_model.logisticrege 逻辑回归，tree 决策数随机森岭

估计器：线性回归 岭回归

 
  1.通过实例化转换器传入 训练的特征值，目标值 计算（fit）

然后通过估计器里的方法传入(测试特征值) 拿到目标值  （predic）

测试准确率

2 输入测试集的数据 
    
  分类算法-K近邻算法 
  与它最相似的数据作比较 最后推测出它的结果  通过算法实现 
  如果近邻数过小，那么极其容易受异常点影响，如果近邻数过大，结果不准确。 
  K近邻算法实例 
  from sklearn.model_selection import train_test_split
from sklearn.neighbors import  KNeighborsClassifier
time_value=pd.to_datetime(df["time"],unit="s")# 时间戳精确到秒
time_value=pd.DatetimeIndex(time_value)#把日期格式转换为字典格式

# 把日期格式提取出日时分
df["day"]=time_value.day
df["hour"]=time_value.hour
df["minute"]=time_value.minute
df.drop(["time"],axis=1)
#特征工程  进行一些数据清晰
place_count=df.groupby("place_id").count()  #根据事件 进行计数  得到DF
tf=place_count[place_count.row_id>3].reset_index()  #只保留row>3的行 再将索引加回去
df=df.drop(["row_id"], axis=1)
print(df)
data=df[df["place_id"].isin(tf.place_id)]
#取出目标值
y=data["place_id"]
x=data.drop(["place_id"],axis=1)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25)
knn=KNeighborsClassifier(n_neighbors=5)
y_predict=knn.fit(x_train,y_train)  #把训练的加入
print("预测位置",y_predict)
print("准确率",knn.score(x_test,y_test)) 
    
  分类算法-朴素贝叶斯算法 
  朴素贝叶斯原理
 我可以根据每种类别的比重 进行分类（比如成人比例较大 我就是成人） 
  概率
 一件事件发生的可能性
 需要由数据说话 100天有3天晴天那么明天下雨的概率是 3% 不是说明天要么晴天要么雨天 概率就是50% 
  联合概率： 
  是XX并且xx的概率
 P(A,B）=P(A)*P(B) A在数据中出现的概率*B在数据中出现的概率 
  条件概率： 
  就是事件A在 事件B 已经发生条件下的发生概率
 在女神喜欢的条件下，职业是XX体重是XX的概率
 记作P(产品，超重|喜欢)=P（产品|喜欢）*p(超重) 
  此条件成立必须是A1,A2相互不影响的结果 
  朴素贝叶斯 使用场景 
  特征独立（朴素） 
  一般用在文档分类比如
 给一个文档求科技的类别
 p(科技|文档) 》》把文档换成词 
  贝叶斯公式p(c/w)=[p(w/c)*pc]/p(w 
  朴素贝叶斯算法实例 
   
   
   
    
  有0对结果的影响 
   
  朴素贝叶斯算法受训练集影响特比大 
  
from sklearn.model_selection import  train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import   fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
all_new_Set=fetch_20newsgroups(subset="all")  #拿出所有的新闻数据集包裹特征值，目标值
x_tain,x_text,y_train,y_text=train_test_split(all_new_Set.data,all_new_Set.target,test_size=0.25) #
#对数据进行分割提取出 训练的特征值，训练的目标值，测试的特征，测试的目标

tf=TfidfVectorizer()#Tf_idf重要值评估
x_tain=tf.fit_transform(x_tain) #进行重要值评估并且转换
x_text=tf.transform(x_text)#对测试的特征也进行转换


mlt=MultinomialNB(alpha=1)#进行贝叶斯算法预测,拉普拉斯平滑设成1
mlt.fit(x_tain,y_train)  #建立模型计算 揉捻出预测的算法
#
y_caice=mlt.predict(x_text) #给测试集特征值，去推理最终结果



print("预测的目标值",y_caice)  #推测最终的目标值 
#
zhunquelv=mlt.score(x_text,y_text) # 得出分数
print("最终得分",zhunquelv)  #最终得分 0.8546264855687606



 
  分类模型的评估 
  一般常用的是预测结果正确的百分比      
  但是我们想看模型正列的准确率(想看能猜出癌症患者的个数占真实癌症患者的比例) 
  准确率 ：猜中的百分比 
  召回率：猜测的正列在实际中正列的比例 
  比如猜中15个是癌症患者/20个真实癌症患者  
  精确率：真实的癌症患者/猜中的个数  （场景较少） 
  其他分类标准f1-score反应模型稳健性 
   
   
  from sklearn.metrics import classification_report
print(classification_report(y_text, y_caice,target_names=all_new_Set.target_names ))#真实目标，估计器预测目标，目标类别，返回精确率和召回率 
  交叉验证于网络搜索 
  原理： 
  交叉验证
把训练集右分一些出来作为验证集
所以数据分为N等分 1/4分  4折交叉验证
但是是交叉来验证
比如
验证 数据 数据 数据
数据 验证 数据 数据
。。。
。。。
所以最后预测结果可能不一样
最后求出平均结果 
  网络搜索：调参数 
  
网格搜索:调参数
K-近零算法 超参数K 需要手动指定（又称网格搜索）

每组超参数都需要手动指定，手动复杂，所以需要对模型预设超参数组合
每组超参数都采用交叉验证来评估
最后选出最优的组合

有两个超参数怎么解决？-两两组合

 
  API 
  from sklearn.model_selection import GridSearchCV

#构造参数进行搜索
param={"n_neighboors"=[1,3,10]}

#进行网络搜索
gc=GridSearchCV(knn,param_grid=param,cv=2)#指定几折交叉验证

gc.fit(x_train,y_train)

#计算准确率
gc.score(x_test,y_test) #测试集上得到准确率
gc.best_score_ 在交叉验证中求出最好的结果
gc.best_estimator_ 得到最好的模型
gc.cv_results  每个超参数每次交叉验证的结果
比如3,5,10  3，5，10  交叉两次的结果 ，3，3会得到一个平均值放在
mearn_test_score里面
 
    
  模型的选择与调优 
    
    
  决策树与随机森林 
  原理 
  K近邻可以用网格搜索，但是参数少的情况下适用，那么参数特别多呢？
第三种分类算法 决策树 升级版本 随机森林
决策树原理 ：从上到下分析执行，就像if then一样   并且把最重要的先判断，可以减少不确定性

一个事件需要猜测5次 他的信息熵为5
公式前提预习：5bit=log32
5bit怎么来的 1/32log1/32   +1/32log1/32+1/32log1/32+.....取反 =-5

开放数据信息
信息熵：当32支球队夺冠概率相等，信息熵为5bit，
直到的情况下 信息熵就会比5bit小

信息熵越大，不确定越大
【信息】和【消除不确定性】是相关联的


哪个减少的信息熵的信息最多，把他当作第一个条件放在第一个
怎么划分决策树？把什么放在最前面？ 通过信息增益
怎么计算信息增益 g(d,a)=H(D)-H(D|A)  
H（d|A） 结果的信息商
翻译：a带来信息递增=初始信息熵大小-A带来的信息商大小  ？？？
比如 g(D,年龄)=初始值大小-H(D'|年龄)=总结果的信息熵-【青年比*年轻人的信息熵+...+老年比例*老年人信息熵】

怎么求A带来的信息熵？
筛选出青年看结果【能贷款成功】
H(青年)=-（2/5log(2/5)）
 
  为什么我们在sklearn的标准选择gini 而不是信息递增entropy 
  因为gini划分更详细 
  API 
   
  例子 
  建立泰坦尼克号死亡率模型 
  API 截图
tanti事故分析
文件样本：截图
字段：“row.names”、“pclass”、“幸存”、“名称”、“年龄”、“开始”,“home.dest”、“空间”、“票”、“船”,“性”
文本url：http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt 
    
   
  如何将pd转为字典 
   
  代码 
  
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import  DecisionTreeClassifier
from sklearn.tree import export_graphviz
import  pandas as pd
import  numpy as np


pf=pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
pf_x=pf[["pclass","age","sex"]] #提取特征值
pf_y=pf[["survived"]]#提取目标值
pf_x["age"].fillna(pf_x["age"].mean(),inplace=True) ]#缺失值处理


#数据划分
train_x,test_x,train_y,test_y=train_test_split(pf_x,pf_y,test_size=0.25)

dv=DictVectorizer(sparse=False)#矩阵关了

train_x=dv.fit_transform(train_x.to_dict(orient="records")) #特征值转换
test_x=dv.transform(test_x.to_dict(orient="records")) #特征值转换

fz_name=dv.get_feature_names()  
dtc=DecisionTreeClassifier()  
dtc.fit(train_x,train_y) #trre数进行计算
print("准确率",dtc.score(test_x,test_y)) #得分
export_graphviz(dtc,out_file="tree.dot",feature_names=fz_name) #转出dot
  
  安装工具把dot转为pdf，png的工具 不能在虚拟环境安装 
 然后我们把dat-Tpng tree.dot -o tree,png 
 决策数如果更改深度的话 可能会影响到结果 (估计器里的max_depth) 
  https://convertio.co/zh/dot-png/ 或者直接使用这个网站 
  决策树优缺点 缺点 
   
  解决：
 减枝 把分配较小的数据坎掉 ，防止有自己的枝叶
 方案一：DecisionTreeClassifier（min_samples_split=2,min_samples__leaf=1 ） 
   
  方案二：随机森林 
  随机森林 
  什么是随机森林:一种继承学习方法利用多棵树对样本进行训练并预测的一种分类器，多个决策树  最后投票 
   
  单棵树学习过程： 
  1.在样本里拿一个样本，学习一次，再随机抽一个学习一次，重复N次（和样本一样） 
  2.随机再M个样本选出m个学习m< 
  
采用bootstrap抽样 
   
  前一个案例分析 
   
  随机森林的过程优势 
    
   
  回归算法 
  回归算法-线性回归分析 
  回归：目标值连续 数据如225.35  

回归算法能做什么：只要你目标值是连续型的我都能预测 房价 销售额的预测
贷款额度的预测 （和能否贷款不一样，这个是能贷款多少）
也能把一个回归问题变为分类问题

比如一张图，我们预测房子的价格
曲线不好的话 就不好预测：后面分析

我们先考虑简单的问题

如直线，可能会有偏差
我们把图中的关系称之为 线性关系 ：二维：直线关系
两个因素影响房子因素 就不是二维问题而是三维

 
 
    
   
  线性关系模型： 
  一个通过属性的线性组合来进行预测的函数 
  线性关系定义y=kx+b b:偏置 
 为了使单个特征的情况更加通用 
   
  多个特征：
 比如x1~xd都是我们的特征，那么我们只需要
 权中*特征值 然后全部相加 最后+b 就是我们的线性函数
 fx=w1*x1+w2*x2+...+b 
   
  自变量也可以特征值，因变量是目标值 
  多个h(w) 
  三个样本 
  a(三组特征)=[[1,2,3,4],[2,4,6,8],[3,6,9,12]] 
  b（4个权重）=[2,2,2,2] 
  就可以得到一个值 
   
  a(三组特征)=[[1,2,3,4],[2,4,6,8],[3,6,9,12]]

b（4个权重）=[2,2,2,2]
假设权重知道的情况
np.dot(a,b) 就可以拿到三个样本目标值 
  线性回归策略优化案例 
  我们用举证算出来的结果就是预测的结果
 现在我们知道规律了，权重于预测的特征值想乘，得出预测结果
 矩阵就是为了乘法运算上面
   
    
  机器学习会误差，不能达到100%准确     
  回归和神经网络有优化的空间（俗称迭代的算法） 
  回归算法知道自己有误差，也不断减少误差  （损失函数：见截图） 这个损失越小越好
 比如权重也在不断该变 
  《统计学习方法》提了概念
 算法           策略  （损失函数）        优化
 线性回归        误差平方，最小二分法    见截图
    
  如何求权重，使得损失最小，怎么找w
 
  最小二分乘法之正规方程（不过不做要求） 
  转置*本身 的逆 再乘以X转置*目标 
   
  4个特征 拿到4个w 
  后面有数进来了 用这个w做运算 
  最小二分乘法之梯度下降（理解过程）
 刚开始随机一个线性函数w
 第二次学习的时候看是否有误差，在原有的基础上迭代优化，最终找到误差最小的w 
  我们以单变量的w0，w1为例子
 w1,w2  
  原始的值见去后面的结果得到新的w1 下次在w1的基础再迭代一次
 下降的大小 称之为学习率 
  理解：
 线性问题 》》有什么策略 误差平方和 和最小二乘法   优化 梯度下降 
   
  api 
   
    
  在sklearn 0.18版本中 二维一位都可以使用，但是0.19 转换器中的estimator必须是二维的 
  y_train.reshape(-1,1) 
  案例分析： 
  from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor,LinearRegression
from sklearn.model_selection import  train_test_split

def xx():
    l_b=load_boston()
    x_train,x_test,y_train,y_test=train_test_split(l_b.data,l_b.target,test_size=0.25)

    #因为有 k的关系 所以目标值也要归一化，归一化的转换必须不一样，所以用的是两个转换器
    std_x=StandardScaler()
    x_train=std_x.fit_transform(x_train)
    x_test=std_x.transform(x_test)

    std_y=StandardScaler()
    y_train = std_y.fit_transform(y_train.reshape(-1,1))
    y_test = std_y.transform(y_test.reshape(-1,1))

    lr=LinearRegression()
    lr.fit(x_train,y_train)
    # print(lr.coef_)
    yc_reg=lr.predict(x_test)#预测的数值
    yc_reg=std_y.inverse_transform(yc_reg) #转换会未归一化的数据
    print("测试机集预测的房子价格", yc_reg) 
    
  回归性能评估 
  from sklearn.metrics import mean_squared_error 
  print("您的估梯度模型评估得分:", mean_squared_error(std_y.inverse_transform(y_test), tzz_test))  # 估梯度下降 
   
  使用哪一个? 
   
   
  岭回归 带正则化 
  处理过拟合，欠拟合 
  出现的现象：为什么训练集挺好的，在测试集上就有问题呢 
   
  主要有两种情况：过拟合（特征过于复杂）欠拟合（特征不够） 
  欠拟合学到了2个特征，通过这两个特征 能匹配大多数结果 ，结果不准确 
  过拟合(训练不好，测试不好) 拿到了不必要的特征，大部分天鹅是白色，结果有黑天鹅 黑天鹅不算天鹅，结果不准确 
  欠拟合解决思路：增加特征 
  过拟合（训练很好，测试不好）： 
  1.特征选择 
  2.交叉验证，发现训练集交叉验证结果变得不行，测试机也不行，这种方法能检验出是否过拟合，无法解决 
  3.正则化，把一些过于复杂的曲线让他的权重趋近于0，正则化力度越来越大，权重越来越小 
    
   
    
    
      
  from sklearn.linear_model import Ridge 
    
    
  分类算法-逻辑回归 
  一般样本少    的为正例 
  适合二分类 这个分类的概率 另外一个分类的概率 【不好处理多分类】    
  会出现和线性回归一样的问题：过拟合 
  from sklearn.linear_model import LogisticRegression 
    
  逻辑回归实例 
  聚类算法-kmeans 
  k-means实例 
    
  模型的保存 
  from sklearn.externals import joblib
joblib.dump("估计器","文件名")
估计器=joblib.load("文件名")

Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
一张图让你清晰认识Python（附基本语法总结）进击的C语言数据库服务器运维 python
一张图认识Python（附基本语法总结）一张图带你了解Python，更快入门，一张图认识Python（附基本语法总结）Python基础语法总结：1.Python标识符在Python里，标识符有字母、数字、下划线组成。在Python中，所有标识符可以包括英文、数字以及下划线(_)，但不能以数字开头。Python中的标识符是区分大小写的。以下划线开头的标识符是有特殊意义的。以单下划线开头_foo的代表
【python基础语法十】面向对象 monoplasty Python python 开发语言 python面向对象
面向对象的程序开发"""用几大特征表达一类事物称为一个类,类更像是一张图纸,表达的是一个抽象概念对象是类的具体实现,更像是由这图纸产出的具体物品,类只有一个,但对象可以通过这个类实例化出多个对象是类的实例,类是对象的模板*类中的成员只有方法和属性,不要裸露的把判断和循环直接写在类中,而是用方法包起来(1)类的定义(2)类的实例化(3)类的基本结构(4)类的命名"""1.类的定义#1classCar
Python基础语法 Breakthrough_code python python 开发语言
1.数据类型文本编码1.基本数据类型整数（int）、浮点数（float）、复数（complex）、布尔值（bool）2.序列数据类型字符串（str）、列表（list）、元组（tuple）3.集合数据类型集合（set）：表示无序的唯一元素集合、冻结集合（frozenset）：表示不可变的集合4.映射数据类型字典（dict）5.特殊数据类型NoneType：表示空值，只有一个值Nonebytes：表示
python基础语法九-多进程和多线程 yunduor909 python python
书接上回：python基础语法一-基本数据类型python基础语法二-多维数据类型python基础语法三-类python基础语法四-数据可视化python基础语法五-函数python基础语法六-正则匹配python基础语法七-openpyxl操作excelpython基础语法八-异常1.多进程1.1创建多进程1)importmultiprocessing模块2)创建进程要执行的函数3)调用mult
python基础语法总结（超详细），被逼无奈开始狂啃底层技术前端漫画书 2024年程序员学习 python windows 开发语言
7radiansdict.keys()返回一个迭代器，可以使用list()来转换为列表8radiansdict.setdefault(key,default=None)和get()类似,但如果键不存在于字典中，将会添加键并将值设为default9radiansdict.update(dict2)把字典dict2的键/值对更新到dict里10radiansdict.values()返回一个迭代器，可
python基础语法--if--elif--else条件语句哈喽2020 python python
1.if语句ifexpression:expr_true_suite#例子：if2>1andnot2>3:print('CorrectJudgement!')#输出：CorrectJudgement!2.if-else语句if
python 基础语法之函数 I＇m happy python 开发语言
python基础语法之函数函数函数的参数函数的返回值函数的嵌套函数变量作用域函数参数位置参数详解:关键字参数:缺省参数不定长参数匿名函数总结函数概述:函数也叫方法,可以用单词Function(函数,功能),Method(方法)来表示.定义格式:def函数名(形式参数1,...)函数体,以前书写的逻辑代码,如if,for...return具体返回值格式解释:defdefined单词的缩写,表示:定义
RemakePython b1ue1ue1ue python 开发语言
2小时Python基础语法回忆，参考以下文章：Python3教程|菜鸟教程#is代表引用相同#=值相同#python语法糖a,b=b,a+b#元组初始化只有一个元素a=(1,)#交互模式中最后被输出的表达式结果被赋值给变量_,且被当做只读变量#python中格式化字符串print("我叫{},今年{}岁".format("小蜜",18))#list的remove和pop区别#tuple不允许删除,
python基础语法 - 函数江南小作坊 Python学习笔记 python 其他
函数What（是什么）Why（为什么）How（怎么用）定义函数调用函数使用位置调用使用关键字参数调用参数设置默认值可变参数基于元组基于字典作用域函数类型过滤函数filter()映射函数map()lambda()函数What（是什么）首先，函数是什么？函数是带名字的代码块，用于完成具体的工作。函数是将代码裹起来的一种封装。函数具有函数名、参数、返回值。不同地方的函数：在模块之内，类之外的函数，称为函
Python数据类型（06列表&元组）小彭向前冲 Python基础语法 python 开发语言 pytest
Python基础语法文章导航：Python基础（01初识数据类型&变量）Python基础（02条件&循环语句）Python基础（03字符串格式化&运算符&进制&编码）Python基础（04基础练习题）Python数据类型（day05整型&布尔类型&字符串类型）目录一.列表1.定义2.独有功能（1）append()（2）extend()（3）insert()（4）remove()（5）pop()（6
Python文件操作02（自动化测试文件相关操作）小彭向前冲 Python基础语法 python 开发语言功能测试自动化
Python基础语法文章导航：Python基础（01初识数据类型&变量）Python基础（02条件&循环语句）Python基础（03字符串格式化&运算符&进制&编码）Python基础（04基础练习题）Python数据类型（day05整型&布尔类型&字符串类型）Python数据类型（06列表&元组）Python数据类型（07集合&字典&浮点型&None）Python文件操作01（自动化测试文件相关操
四：《Python基础语法汇总》— 列表&元组&集合温轻舟 Python基础语法汇总 python 开发语言
一：列表列表是Python中最基本的数据类型之一，是可以存放多个多种元素的容器列表是Python中序列的一种，是一个有序可变序列由于列表是可变序列，所以可以对其里面的内容进行修改，无需重新开辟空间存储1.下标与切片：列表中也可以应用下标索引和切片，与在字符串中的应用一样创建列表：使用中括号[]将所有准备放入列表中的元素给包裹起来，不同元素之间使用英文逗号隔开列表中可以放入整型，浮点型，字符串和变量
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
2.Python从入门到精通—Python 基础语法详细讲解-上以山河作礼。 python 开发语言
【30天】Python从入门到精通详解版—第一天—Python基础语法详细讲解-上Python变量Python数据类型数字类型（Number）字符串类型（String）列表类型（List）元组类型（Tuple）字典类型（Dictionary）集合类型（Set）运算符和表达式Python变量在Python中，变量是用来存储数据的容器。Python不需要声明变量的类型，变量的类型是根据所赋的值自动推导
day1-python基础语法总结未醒的梦_19b0
1、未来五个月需要学习的东西（1）学会自己解决实际中遇到的问题（2）学会怎么更好的表达自己（3）学会怎么整理好文档资料2、学习python的环境搭建和辅助软件的学习（1）python安装（2）pycharm安装（3）vzc安装（4）Hbuilder安装（5）typora文件（6）的书写（7）macdown学习
Python基础语法介绍 DogDaoDao Python python 开发语言
Python解释：Python是一种高级编程语言，以其简洁、易读和易用而闻名。它是一种通用的、解释型的编程语言，适用于广泛的应用领域，包括软件开发、数据分析、人工智能等。python是一种解释型，面向对象、动态数据类型的高级程序设计语言，是一门开源免费的脚本编程语言。2020.1.1，停止Python2的更新。特点：简洁易读：Python采用清晰简洁的语法，使得代码易于阅读和理解。它使用缩进来表示
如何系统地自学Python？ Python南帝写篇CSDN热门文章吧 python 如何系统地自学Python
如何系统地自学Python？如何系统地自学Python？1.了解编程基础2.学习Python基础语法3.学习Python库和框架4.练习编写代码5.参与开源项目6.加入Python社区7.利用资源学习8.制定学习计划9.持之以恒总结如何系统地自学Python？作为一个Python语言爱好者，一个过来人，我想说的是：Python语言是所有语言中比较特别的，它可以很短的时间就学会，看似很简单，很多种语
一、Python基础语法 Yang_Winston 编程语言 #Python python 开发语言
Python是一门优雅而健壮的编程语言，它继承了传统编译语言的强大和通用性，同时也借鉴了脚本语言和解释语言的易用性。要点：面向对象：每一个变量都是一个类，有其自己的属性（attribute）与方法（method）。语法块：用缩进（四个空格）而不是分号、花括号来标记。因此，行首的空格不能随意书写。注释：行内用”#“号，行间注释写在两组连续三单引号之间：‘’’续行：行尾输入一个反斜杠加一个空格（'\'
python程序基本结构总结图_一张图认识Python（附基本语法总结） weixin_39727934 python程序基本结构总结图
一张图带你了解Python，更快入门，Python基础语法总结：1.Python标识符在Python里，标识符有字母、数字、下划线组成。在Python中，所有标识符可以包括英文、数字以及下划线(_)，但不能以数字开头。Python中的标识符是区分大小写的。以下划线开头的标识符是有特殊意义的。以单下划线开头_foo的代表不能直接访问的类属性，需通过类提供的接口进行访问，不能用fromxxximpor
Python基础语法学习总结 Python栈机 python 学习开发语言
随着人工智能的崛起和快速发展，Python成为众多编程自学者的首选语言。本文整理了定义变量、字符串、运算符、if语句、循环语句、列表、字典、元组、函数、文件操作等等Python基础语法知识点，希望下面的学习总结可以帮助大家快速掌握Python编程，现在我们一起来梳理一遍吧！Python基础语法学习总结:一、定义变量，使用变量1、input用户自己输入值2、print打印值可以输出多个变量3、%d|
Python爬虫——解析库安装（1） ymchuangke Spider爬虫系列 python 爬虫开发语言
目录1.lxml安装2.BeautifulSoup安装3.pyquery的安装我创建了一个社区，欢迎大家一起学习交流。社区名称：Spider学习交流注：该系列教程已经默认用户安装了Pycharm和Anaconda，未安装的可以参考我之前的博客有将如何安装。同时默认用户掌握了Python基础语法。抓取网页代码之后，接着是从网页中提取信息，提取信息的方式有很多，可以使用正则来提取，但是写起来相对比较烦
Python基础语法(番外篇) 一枕眠秋雨>o< python神卷 python 开发语言 prcode
一.文件操作1.打开文件和关闭文件这里文件打开模式有多种,与C语言大致相同(但是也有不一样的地方),现阶段我们只需要掌握三种即可,分别是:r:read模式,只读,如果对文件进行写入,就会抛出异常w:write模式,要注意的是该模式下,每打开一次文件就会自动清空上一次写入文件的内容a:append追加模式,在上一次写入的内容之后继续写入2.写文件和读文件写文件只要注意w模式和a模式之间的区别即可需要
python基础语法百度网盘,python基础语法合集下载 w12130826 windows 人工智能
大家好，本文将围绕python基础语法百度网盘展开说明，python基础语法合集下载是一个很多人都想弄明白的事情，想搞清楚python基础语法手册pdf需要先了解以下几个事情。python语言的类型python属于解释型语言源代码(python)解释器(逐行解释每一句源代码)操作系统cpujava属于编译型语言源代码(java)->编译器->可执行文件->操作系统cpupython语言数据的基本类
Python基础语法(内置Python, pycharm配置方式) 一枕眠秋雨>o< pycharm python
一.工具安装与配置1.Python解释器的安装官网网址:https://www.python.org/选择downloads即可(Windows用户点击Windows,苹果用户点击macOS)找到最新版本,并选择DownloadWindowsinstaller(64-bit)下载完成后可在得到一个安装包进行安装(安装时间较长)安装完成后可在此处查看2.pycharm安装官网网址:https://w
python语法速成方法_30分钟学完Python基础语法 weixin_39924486 python语法速成方法
请注意，本文编写于637天前，最后修改于624天前，其中某些信息可能已经过时。之前学了一些，现在全忘了。有时间所以又重新看了一下，并做以下记录有一门面向对象语言的基础，30分钟足够看一遍Python的基础了基础语法#缩进取代大括号#用换行取代分号，也可以使用分号，无所谓#输出print();#输入input();#注释#单行注释"""多行注释1"""'''多行注释2'''#申明变量直接写字母就行与
day2-进制和运算符 tcis
python与c语言编译过程图比较!python的优缺点python基础语法1.注释1)单行注释:在一行文字的前面加#(快捷键:ctr+/)2)多行注释:将注释内容写在三个双引号或者三个单引号里面(但是一般使用三个双引号)2.语句1)一条语句占一行,语句结束后不用加分号。2)如果一行显示多条语句，语句之间必须用分号隔开3)如果一条语句很长，需要多行显示的时候，可以在语句中加\然后再换行(注意不能破
【python】Python基础语法详细教程以及案例讲解之函数 Ulpx python 开发语言考研学习方法 pycharm
目录前言：一、函数介绍1）函数是什么？2）函数的快速体验二、函数的定义1）函数的定义：2）练习案例三、函数的参数1)函数的传入参数2）语法解析3）练习案例四、函数的返回值1）函数返回值的定义2）None类型1）什么是None?2)None类型的应用场景五、函数说明文档六、函数的嵌套调用1）学习目标2）什么是函数的嵌套？七、变量的作用域1）学习目标2）什么是局部变量？3）什么是全局变量？4）什么是g
爬虫之xpath/BeautifulSoup/re 基础学习总结（一）流动的白沙爬虫 python
背景：小白，没有计算机基础，只学过python基础语法。大二，目前因为感兴趣所以先学着。开始学习爬虫，记录学习情况，这是我的第一篇文章，存在诸多不足，如果偶尔看见这篇文章，欢迎各位批评指正，也可以对我的学习给予一些建议。现在就是看成套的视频教程学习，过一段时间准备买崔庆才老师的《python3:网络爬虫开发实战》学习正文：1.首先是导入模块，三种都需要导入requests库：importreque
「Python系列」Python基础语法/数据类型雪梅零落 Python系列专栏 python windows 开发语言
文章目录一、Python基础语法二、Python数据类型三、Python数据类型转换四、Python整体详解五、相关链接一、Python基础语法变量和数据类型：#变量赋值x=10y="Hello,World!"#打印变量print(x)#输出10print(y)#输出Hello,World!#数据类型a=1#整数b=3.14#浮点数c="Python"#字符串d=[1,2,3]#列表e=(4,5,
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

机器学习

准备

特征工程：

scikit-learn介绍：

数据特征抽取：

热编码：适合类别型数据处理方式

sklearn特征抽取API

字典特征抽取

文本特征抽取

TF_IDF(评估重要性):

数据特征预处理：

通过数学算法把数据转为算法要求的数据

归一化算法（原始分布情况不会改，数值减小了）

标准化

缺失值处理：

数据降维：

数据类型：

算法分类：监督学习和无监督学习

机器学习开发流程：

sklearn数据集与估计器

转换器估计器

分类算法-K近邻算法

K近邻算法实例

分类算法-朴素贝叶斯算法

朴素贝叶斯算法实例

分类模型的评估

交叉验证于网络搜索

模型的选择与调优

决策树与随机森林

决策树优缺点缺点

随机森林

回归算法

岭回归带正则化

分类算法-逻辑回归

模型的保存

你可能感兴趣的:(python基础语法)

机器学习

准备

特征工程：

scikit-learn介绍：

数据特征抽取：

热编码：适合类别型数据处理方式

sklearn特征抽取API

字典特征抽取

文本特征抽取

TF_IDF(评估重要性):

数据特征预处理：

通过数学算法把数据转为算法要求的数据

归一化算法（原始分布情况不会改，数值减小了）

标准化

缺失值处理：

数据降维：

数据类型：

算法分类 ：监督学习 和无监督学习

机器学习开发流程：

sklearn数据集与估计器

转换器估计器

分类算法-K近邻算法

K近邻算法实例

分类算法-朴素贝叶斯算法

朴素贝叶斯算法实例

分类模型的评估

交叉验证于网络搜索

模型的选择与调优

决策树与随机森林

决策树优缺点 缺点

随机森林

回归算法

岭回归 带正则化

分类算法-逻辑回归

模型的保存

你可能感兴趣的:(python基础语法)

算法分类：监督学习和无监督学习

决策树优缺点缺点

岭回归带正则化