weixin_30260399

cap2 加州房价预测模型

获取所需数据集：

import os
import pandas as pd
import tarfile
from six.moves import urllib
DOWNLOAD_ROOT="https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH="datasets/housing"
HOUSING_URL=DOWNLOAD_ROOT+HOUSING_PATH+"/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL,housing_path=HOUSING_PATH): #下载数据集
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path=os.path.join(housing_path,"housing.tgz") #拼接路径
    urllib.request.urlretrieve(housing_url,tgz_path) #下载为 housing.tgz压缩文件
    housing_tgz=tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path) # 解压
    housing_tgz.close()

def load_housing_data(housing_path=HOUSING_PATH): #加载数据集
    csv_path=os.path.join(housing_path,"housing.csv")
    return pd.read_csv(csv_path) #加载为csv数据类型

快速查看数据结构（属性、特征信息）：

fetch_housing_data()
housing=load_housing_data()
# housing.head() #查看数据集前5行
# housing.info() #查看数据集的简单描述
# housing["ocean_proximity"].value_counts() #查看类型值属性的值的分类情况
# housing.describe() #显示数值属性摘要，不包括类型值属性
# housing.hist(bins=20,figsize=(20,15)) #各属性的直方图，bins参数设置直方个数

纯随机抽样，产生测试数据集，占完整数据集的20%：

# from sklearn.model_selection import train_test_split
# train_set,test_set=train_test_split(housing,test_size=0.2,random_state=42) #纯随机抽样，未考虑按照某一属性分层抽样
# print(len(train_set),len(test_set))

纯随机抽样获取测试集会产生偏差。因为纯随机抽样过程没有考虑不同特征值的分布情况。此例中，要预测的房价平均值与数据集中的收入中位数这一特征值有很大的关系，所以，抽样应符合收入中位数的分布情况，即基于收入中位数的分层抽样。

由于收入中位数是连续的数值属性，需要首先创建一个收入类别的属性，然后把每个类别当成一个层，才能分层抽样。

此例中，大多数收入中位数在2-5之间。数据集中，每一层都要有足够多的实例，所以不能将层数划分的太多。

创建收入类别属性：将收入中位数除以1.5（限制收入类别的数量），然后使用ceil函数取整得到离散类别，最后将所有大于5的类别合并为类别5：

import numpy as np
housing['income_type']=np.ceil(housing['median_income']/1.5)
housing['income_type'].where(housing['income_type']<5,5.0,inplace=True)

根据收入类别进行分层抽样，使用sklearn的StratifiedShuffleSplit方法：

from sklearn.model_selection import StratifiedShuffleSplit

split=StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in split.split(housing,housing['income_type']):
    strat_train_set=housing.loc[train_index]
    strat_test_set=housing.loc[test_index]
housing['income_type'].value_counts()/len(housing) #计算完整数据集中每个类别占的比例

输出为：

3.0    0.350581
2.0    0.318847
4.0    0.176308
5.0    0.114438
1.0    0.039826
Name: income_type, dtype: float64

分层抽样结束后，添加的收入中位数类别属性就用不到了，删除此属性：

for set in (strat_train_set,strat_test_set):
    set.drop(['income_type'],axis=1,inplace=True)

至此，数据预处理完成。

从数据探索和可视化中获得洞见

创建训练集的副本用来操作，避免损坏训练集。

housing=strat_train_set.copy()

将地理数据可视化，设置alpha参数为0.1，可以清楚的看出高密度数据点的位置。

housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.1)

以下代码可以更清楚地可视化信息。每个圆的半径大小代表每个区的人口数量（选项s）；颜色代表价格（选项c）。使用一个名为jet的预定义颜色表（选项cmap）来进行可视化，颜色范围从蓝色（价格低）到红色（价格高）。

housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4,s=housing['population']/100,
             label="population",c="median_house_value",cmap=plt.get_cmap("jet"),colorbar=True) #alpha表示点的透明度

寻找属性之间的相关性

方法1：使用corr()方法计算出每对属性之间的标准相关系数（皮尔逊相关系数）：

corr_mat=housing.corr()

查看每个属性与房屋价格中位数之间的相关性：

corr_mat['median_house_value'].sort_values(ascending=False)

输出：

median_house_value    1.000000
median_income         0.687160
total_rooms           0.135097
housing_median_age    0.114110
households            0.064506
total_bedrooms        0.047689
population           -0.026920
longitude            -0.047432
latitude             -0.142724
Name: median_house_value, dtype: float64

可以看出，收入中位数与房屋价格中位数相关性最高。

注意：

1、相关系数只能刻画线性相关性（如果x上升，则y上升/下降），所以它有可能彻底遗漏非线性相关性（例如正弦曲线）；

2、相关性大小和斜率大小完全无关。

方法2：使用pandas的scatter_matrix方法可视化每个数值属性相对于其他数值属性的相关性。

此例中有9个数值属性，会产生9*9=81个相关性图像，我们只关注与房屋价格中位数最相关的那些属性。

from pandas.plotting import scatter_matrix
attr=['median_house_value','median_income','total_rooms','housing_median_age']
scatter_matrix(housing[attr],figsize=(12,10),color='green',alpha=0.1)

输出：

由上图可知，与房屋价格中位数最相关的是收入中位数，放大查看这两个属性的相关性：

housing.plot(kind='scatter',x='median_income',y='median_house_value',alpha=0.1)

输出：

图中有50万美元、45万美元、35万美元三条直线，这些数据可能会影响算法学习效果，应该删除。

试验不同属性的组合

在准备给机器学习算法输入数据之前，应该尝试创建各种属性的组合，观察新的属性与目标值之间的相关性。

#添加新的组合属性
housing['rooms_per_household']=housing['total_rooms']/housing['households']
housing['bedrooms_per_room']=housing['total_bedrooms']/housing['total_rooms']
housing['population_per_household']=housing['population']/housing['households']
corr_matrix=housing.corr()
corr_matrix['median_house_value'].sort_values(ascending=False)

输出：

median_house_value          1.000000
median_income               0.687160
rooms_per_household         0.146285
total_rooms                 0.135097
housing_median_age          0.114110
households                  0.064506
total_bedrooms              0.047689
population_per_household   -0.021985
population                 -0.026920
longitude                  -0.047432
latitude                   -0.142724
bedrooms_per_room          -0.259984
Name: median_house_value, dtype: float64

表明新属性bedrooms_per_room比原始属性total_bedrooms和total_rooms更有价值。

机器学习算法的数据准备

分离训练集上的特征值和标签值：

housing=strat_train_set.drop("median_house_value",axis=1) #分离属性和标签 drop会创建一个副本，不会影响strat_train_set
housing_labels=strat_train_set["median_house_value"].copy()

数据清理：处理缺失值

方法1：放弃缺失数据的实例

方法2 ：放弃缺失数据的属性

方法3 ：填充中位数值

# housing.dropna(subset=["total_bedrooms"])#方法1，放弃缺失数据的实例
# housing.drop("total_bedrooms",axis=1)#方法2 放弃确实数据的属性
median=housing["total_bedrooms"].median()#方法3 填充中位数值
housing["total_bedrooms"].fillna(median)

使用sklearn的imputer处理缺失值：首先创建imputer实例，指定要用属性的中位数值替换该属性的缺失值

from sklearn.preprocessing import Imputer
imputer=Imputer(strategy="median")

由于中位数只能在数值属性上计算，所以先创建一个没有文本属性值的数据集副本：

housing_num=housing.drop("ocean_proximity",axis=1)

使用fit()方法将imputer实例适配到训练集：

imputer.fit(housing_num) #这里imputer只计算了每个属性的中位数，并将结果存储在其实例变量statistics_中。
# imputer.statistics_
# housing_num.median().values #以上两种方法输出的中位数值相同

这里imputer应用于所有属性。虽然只有total_bedrooms属性存在缺失值，但是无法确定以后的新数据是完整的，为了稳妥起见，应用于所有属性。

然后，使用这个实例化的imputer将缺失值替换为中位数值完成训练集的转换：

X=imputer.transform(housing_num) #返回的是Numpy数组
#转换成pandas的DataFrame
housing_trans=pd.DataFrame(X,columns=housing_num.columns)

注：sklearn的设计原则：1、实例化转换器；2、将转换器fit（适配）到具体的数据集；3、实行transform方法完成转换

处理文本和分类属性

之前排除了分类属性ocean_proximity，因为它是一个文本属性，我们无法计算它的中位数值。

将文本属性转换为数值属性：sklearn转换器LabelEncoder：

#将文本类别转换为整数类别
from sklearn.preprocessing import LabelEncoder #将文本属性转换为可以计算的数值属性
#使用LabelEncoder转换器来转换文本特征列的方式是错误的，该转换器只能用来转换标签（正如其名）
#在这里使用LabelEncoder没有出错的原因是该数据只有一列文本特征值，在有多个文本特征列的时候就会出错。应使用factorize()方法来进行操作
encoder=LabelEncoder()#实例化LabelEncoder
housing_cate=housing["ocean_proximity"]
housing_cate_encoded=encoder.fit_transform(housing_cate) #housing_cate_encoded是转换后的属性值，是个Numpy一维数组
# housing_cate_encoded
# print(encoder.classes_) #使用classes_属性查看此编码器已学习的映射（文本值映射到数值）

这种属性值的转换存在一个问题：系统会认为数值间的差代表了文本间的距离，然而并非如此。为了避免由此带来的误差，可以采用独热编码的方式：

#将整数类别转换为独热向量
from sklearn.preprocessing import OneHotEncoder
encoder=OneHotEncoder()
housing_cate_1hot=encoder.fit_transform(housing_cate_encoded.reshape(-1,1)) #reshape(-1,1)表示转换为n行1列的二维数组，n由系统自己推断得出
#fit_transform需要一个二维数组，housing_cate_encoded是一维数组，需要重塑为二维数组
#housing_cate_1hot是一个稀疏矩阵，不是Numpy数组。稀疏矩阵仅存储非零元素的位置，而且可以像使用一个普通二位数组一样使用它。可以使用toarray方法将其转换为二维数组
housing_cate_1hot.toarray()

输出：

array([[1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.]])

可以使用LabelBinarizer一次性完成两个转换，将属性的文本值转换为整数类别再转换为独热向量：

from sklearn.preprocessing import LabelBinarizer
#该类也应用于标签列的转换。正确做法是使用sklearn即将提供的CategoricalEncoder类,下面自定义了这个类。
encoder=LabelBinarizer()
housing_cate_1hot=encoder.fit_transform(housing_cate) 
#housing_cate是属性的文本值，LabelBinarizer默认返回的就是Numpy数组。可以通过设置sparse_output=True得到稀疏矩阵

自定义转换器：保持与sklearn有一样的接口（fit,transform,fit_transform）

#自定义转换器,添加新的属性
from sklearn.base import BaseEstimator,TransformerMixin
rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6
class CombinedAttributesAdder(BaseEstimator,TransformerMixin):
    def __init__(self,add_bedrooms_per_room=True):
        self.add_bedrooms_per_room=add_bedrooms_per_room
    def fit(self,X,y=None):
        return self
    def transform(self,X,y=None):
        rooms_per_household=X[:,rooms_ix]/X[:,household_ix]
        population_per_household=X[:,population_ix]/X[:,household_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room=X[:,bedrooms_ix]/X[:,rooms_ix]
            return np.c_[X,rooms_per_household,population_per_household,bedrooms_per_room]
        else:
            return np.c_[X,rooms_per_household,population_per_household]
attr_adder=CombinedAttributesAdder(add_bedrooms_per_room=True)
housing_extra_attribs=attr_adder.transform(housing.values)
# housing.head()
# pd.DataFrame(housing_extra_attribs,columns=housing.columns)#报错，housing.columns只有9列，新得到的housing_extra_attribs有12列
# pd.DataFrame(housing_extra_attribs,columns=['longitude', 'latitude', 'housing_median_age', 'total_rooms',
#        'total_bedrooms', 'population', 'households', 'median_income',
#        'ocean_proximity','rooms_per_household','population_per_household','bedrooms_per_room']).head()

特征缩放：最小最大缩放（MinMaxScaler）和标准化缩放（StandardScaler）。

标准化缩放：减去平均值然后除以方差。受异常值影响小。

转换流水线

数据转换大多需要正确的执行顺序，sklearn提供了Pipeline来支持这样的转换。

#转换流水线 sklearn.pipeline
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline=Pipeline([('imputer',Imputer(strategy='median')),
                       ('attribs_addr',CombinedAttributesAdder()),
                       ('std_scaler',StandardScaler()),
                       ])
housing_num_tr=num_pipeline.fit_transform(housing_num)

Pipeline构造函数会通过一系列名字/估算器的配对来定义步骤的序列。除了最后一个是估算器之外，前面都必须是转换器（也就是说，必须要有fit_transform方法）。

当调用流水线的fit()方法时，会在所有转换器上按照顺序依次调用fit_transform方法，将一个调用的输出作为参数传递给下一个调用方法，直到传递到最终的估算器，则只会调用fit()方法。

流水线的方法与最终的估算器的方法相同。本例中，最后一个估算器是StandardScaler，这是个转换器，因此Pipeline有transform方法可以按照顺序将所有的转换应用到数据中。

#自定义转换器DataFrameSelector
from sklearn.base import BaseEstimator,TransformerMixin
class DataFrameSelector(BaseEstimator,TransformerMixin):
    def __init__(self,attribute_names):
        self.attribute_names=attribute_names
    def fit(self,X,y=None):
        return self
    def transform(self,X):
        return X[self.attribute_names].values

一个完整的处理数值属性和分类属性的流水线如下：

#一个完整的处理数值属性和分类属性的流水线 
from sklearn.pipeline import FeatureUnion
num_attribs=list(housing_num) #返回的是housing_num的属性名称列表
cate_attribs=["ocean_proximity"]
num_pipeline=Pipeline([
    ('selector',DataFrameSelector(num_attribs)),
    ('imputer',Imputer(strategy='median')),
    ('attribs_adder',CombinedAttributesAdder()),
    ('std_scaler',StandardScaler()),
])
cate_pipeline=Pipeline([
    ('selector',DataFrameSelector(cate_attribs)),
    ('label_binarizer',CategoricalEncoder(encoding="onehot-dense"))
    ])
full_pipeline=FeatureUnion(transformer_list=[
    ('num_pipeline',num_pipeline),
    ('cate_pipeline',cate_pipeline)
])
housing_prepared=full_pipeline.fit_transform(housing)
# housing_prepared.shape

输出：

(16512, 16)

原书中有错误：参考链接

选择和训练模型

模型一：线性回归模型

from sklearn.linear_model import LinearRegression

lin_reg=LinearRegression()
lin_reg.fit(housing_prepared,housing_labels)
some_data=housing.iloc[:5]
some_labels=housing_labels.iloc[:5]
some_data_prepared=full_pipeline.transform(some_data)
print("预测：\t",lin_reg.predict(some_data_prepared))
print(list(some_labels))

输出为：

[210644.60459286 317768.80697211 210956.43331178  59218.98886849 189747.55849879]

[286600.0, 340600.0, 196900.0, 46300.0, 254500.0]

预测结果误差较大。

#使用mean_squared_error函数来测量整个训练集上回归模型的均方误差
from sklearn.metrics import mean_squared_error
housing_preditions=lin_reg.predict(housing_prepared)
lin_mse=mean_squared_error(housing_labels,housing_preditions)
lin_rmse=np.sqrt(lin_mse)
lin_rmse
#误差大概68628，太大，表明模型对训练数据的拟合不足。拟合不足的原因：特征无法提供足够的信息；模型本身不够强大

输出：

68628.19819848923

模型二：决策树回归模型

#使用决策树回归模型
from sklearn.tree import DecisionTreeRegressor
tree_reg=DecisionTreeRegressor()
tree_reg.fit(housing_prepared,housing_labels)
#模型已经训练好了，用训练集来评估
housing_predictions=tree_reg.predict(housing_prepared)
tree_mse=mean_squared_error(housing_labels,housing_predictions)
tree_rmse=np.sqrt(tree_mse)
# tree_rmse
#模型的均方误差为0，说明很可能过拟合了

使用交叉验证来更好地进行评估：sklearn的交叉验证功能。

K-折交叉验证：将训练集随机分割成10个不同的子集，每个子集称为一个折叠（fold），然后对决策树模型进行10次训练和评估——每次选择一个折叠进行评估，使用另外9个折叠进行训练。产生的结果是一个包含十次评估分数的数组：

#拿出训练集中的一部分数据用来训练，另一部分用来模型的验证，不是测试集，测试集到最后才能用
#使用交叉验证来更好的评估模型
from sklearn.model_selection import cross_val_score
tree_scores=cross_val_score(tree_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
tree_rmse_scores=np.sqrt(-tree_scores)

def display_scores(scores):
    print("scores:",scores)
    print("均值:",scores.mean())
    print("标准方差：",scores.std())
display_scores(tree_rmse_scores)

输出：

scores: [68639.12147258 68393.93177789 70347.93898187 69868.17099302 70168.49479261 74439.55860023 70409.44377384 71004.05539331 77484.5192513  69591.386193  ]
均值: 71034.66212296358
标准方差： 2663.896863594895

该决策树得出的评分为71000±2663.

查看线性回归模型的评分：

lin_scores=cross_val_score(lin_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
lin_rmse_scores=np.sqrt(-lin_scores)
display_scores(lin_rmse_scores)
#线性回归模型误差小于决策树，说明决策树过拟合了

输出：

scores: [66782.73843989 66960.118071   70347.95244419 74739.57052552 68031.13388938 71193.84183426 64969.63056405 68281.61137997 71552.91566558 67665.10082067]
均值: 69052.46136345083
标准方差： 2731.6740017983425

模型三：随机森林回归模型：对特征的随机子集进行许多个决策树的训练，然后对其预测取平均值。

#随机森林回归模型：通过对特征的随机子集进行许多个决策树的训练，然后对其预测取平均值。在多个模型的基础上建模，称为集成学习。
from sklearn.ensemble import RandomForestRegressor
forest_reg=RandomForestRegressor()
forest_reg.fit(housing_prepared,housing_labels)
forest_scores=cross_val_score(forest_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=5)
forest_rmse_scores=np.sqrt(-forest_scores)

查看误差：

display_scores(forest_rmse_scores)

输出：

scores: [51734.85224002 53859.50826802 54931.90982477 50658.10686427
 54182.19457144]
均值: 53073.31435370191
标准方差： 1607.9055556878998

误差比前两个模型小很多。但是，训练集上的分数远低于验证集，这意味着该模型仍然过拟合。

微调模型：网格搜索

#网格搜索 寻找最优参数组合
from sklearn.model_selection import GridSearchCV
param_grid=[
    {"n_estimators":[3,10,30],'max_features':[2,4,6,8]},
    {'bootstrap':[False],'n_estimators':[3,10],'max_features':[2,3,4]}
]
forest_reg=RandomForestRegressor()
grid_search=GridSearchCV(forest_reg,param_grid,cv=5,scoring='neg_mean_squared_error')
grid_search.fit(housing_prepared,housing_labels)

模型适配完毕，查看最优参数组合：

grid_search.best_params_

输出：

{'max_features': 8, 'n_estimators': 30}

获得最好的估算器：

grid_search.best_estimator_

输出：

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
                      max_features=8, max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, n_estimators=30,
                      n_jobs=None, oob_score=False, random_state=None,
                      verbose=0, warm_start=False)

GridSearchCV一旦通过交叉验证找到了最好的估算器，它将在整个训练集上重新训练。

评估分数：

cvres=grid_search.cv_results_
for mean_score,params in zip(cvres['mean_test_score'],cvres['params']):
    print(np.sqrt(-mean_score),params)

输出：

64251.94359079724 {'n_estimators': 3, 'max_features': 2}
55246.84266820805 {'n_estimators': 10, 'max_features': 2}
52997.22536220621 {'n_estimators': 30, 'max_features': 2}
59934.06758448799 {'n_estimators': 3, 'max_features': 4}
53171.412586850485 {'n_estimators': 10, 'max_features': 4}
50707.81355194968 {'n_estimators': 30, 'max_features': 4}
58810.88120203619 {'n_estimators': 3, 'max_features': 6}
52224.71183878166 {'n_estimators': 10, 'max_features': 6}
49877.808283830265 {'n_estimators': 30, 'max_features': 6}
58115.427027082165 {'n_estimators': 3, 'max_features': 8}
52403.98104803142 {'n_estimators': 10, 'max_features': 8}
49792.78396154135 {'n_estimators': 30, 'max_features': 8}
63328.03315591807 {'max_features': 2, 'n_estimators': 3, 'bootstrap': False}
54702.422895264855 {'max_features': 2, 'n_estimators': 10, 'bootstrap': False}
59419.64831075833 {'max_features': 3, 'n_estimators': 3, 'bootstrap': False}
52905.06196990888 {'max_features': 3, 'n_estimators': 10, 'bootstrap': False}
58735.75624311694 {'max_features': 4, 'n_estimators': 3, 'bootstrap': False}
52337.45490553392 {'max_features': 4, 'n_estimators': 10, 'bootstrap': False}

最好的估算器是：49792.78396154135 {'n_estimators': 30, 'max_features': 8}。效果比随机森林回归模型（53073）好一些。

分析最佳模型极其误差

在进行准确预估时，随机森林回归模型可以指出每个属性的相对重要程度：

feature_importances=grid_search.best_estimator_.feature_importances_
# feature_importances
extra_attribs=['rooms_per_household','population_per_household','bedrooms_per_room']
cate_one_hot_attribs=list(encoder.classes_)
attributes=num_attribs+extra_attribs+cate_one_hot_attribs
# print(cate_one_hot_attribs) #['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN']
# print(attributes)
sorted(zip(feature_importances,attributes),reverse=True)

输出：

[(0.3480653498042381, 'median_income'),
 (0.15894305983142457, 'INLAND'),
 (0.11635023955219795, 'population_per_household'),
 (0.08957448679100119, 'bedrooms_per_room'),
 (0.06447386079398161, 'longitude'),
 (0.06057574679696584, 'latitude'),
 (0.048903786133097385, 'rooms_per_household'),
 (0.04467593231348087, 'housing_median_age'),
 (0.015739859854289447, 'population'),
 (0.01523307512931314, 'total_bedrooms'),
 (0.01485221274387034, 'total_rooms'),
 (0.013451965675787643, 'households'),
 (0.004103803666271844, '<1H OCEAN'),
 (0.0032723332919900815, 'NEAR OCEAN'),
 (0.0017184589373356314, 'NEAR BAY'),
 (6.58286847544412e-05, 'ISLAND')]

本例中ocean_proximity属性只有INLAND类别是有用的，其他四个类别对预测的贡献很小。

通过测试集评估系统

#使用测试集评估系统
final_models=grid_search.best_estimator_
x_test=strat_test_set.drop('median_house_value',axis=1)
y_test=strat_test_set['median_house_value'].copy()
x_test_prepared=full_pipeline.transform(x_test)
final_predictions=final_models.predict(x_test_prepared)
final_mse=mean_squared_error(y_test,final_predictions)
final_rmse=np.sqrt(final_mse)
final_rmse

输出：

48029.20843002119

系统在测试集上表现良好。

转载于:https://www.cnblogs.com/zhhy236400/p/11111180.html

你可能感兴趣的:(python,人工智能,数据结构与算法)

2024华为OD机试真题-免单统计(C++/Java/Python)-E卷-100分 2024剑指offer 华为od c++python java
2024华为OD机试题库-(E卷+C卷+D卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2用例3考点题目解析代码c++javapython题目描述华为商城举办了一个促销活动，如果某顾客是某一秒内最早时刻下单的顾客（可能是多个人），则可以获取免单。请你编程计算有多少顾客可以获取免单。输入描述输入为n行数据，每一行表示一位顾客的下单时间以（年-月-日时-分-秒.毫秒）形
win11编译llama_cpp_python cuda128 RTX30/40/50版本 System_sleep llama python windows cuda
Geforce50xx系显卡最低支持cuda128，llama_cpp_python官方源只有cpu版本，没有cuda版本，所以自己基于0.3.5版本源码编译一个RTX30xx/40xx/50xx版本。1.前置条件1.访问https://developer.download.nvidia.cn/compute/cuda/12.8.0/local_installers/cuda_12.8.0_571
基于Python的CATIA V5二次开发实战：工程图视图批量重链接技术解析 Python×CATIA工业智造 python 开发语言 pycharm CATIA二次开发
引言在汽车、航空航天等制造领域，CATIAV5作为核心的CAD设计平台，其工程图模块的自动化处理能力直接影响设计效率。本文针对工程图视图与三维模型断链的常见问题，深入解析基于pycatia的二次开发解决方案，提供一套可批量重链接视图的Python实现代码。该方案已通过实际项目验证，支持CATIAR2020x~R2023x版本，可提升85%以上的视图维护效率。功能概述本工具核心功能为工程图视图的批量
CATIA V5 二次开发实战：Python实现零件实体智能转产品装配 Python×CATIA工业智造 python pycharm 自动化 CATIA二次开发
引言在汽车、航空等制造行业中，CATIAV5因其强大的参数化建模能力被广泛应用。当面对包含多个独立几何体的零件文档（.CATPart）时，工程师常需将其转为产品文档（.CATProduct）以实现装配管理。本文将通过Python+pycatia库，实现自动化批量转换，提升10倍工作效率。功能概述核心功能：自动遍历零件文档中的实体，将其转换为产品文档中的独立零件组件技术亮点：基于CATIACOM接口
基于Python的微博舆情分析与可视化系统【附源码】 AI博士小张 python 数据分析数据库
基于Python的微博舆情分析与可视化系统摘要研究背景及意义一、数据流程总体架构二、详细处理流程与代码实现1.数据采集模块2.数据清洗与预处理3.情感分析与特征工程4.舆情分析模型5.可视化呈现三、性能优化要点摘要基于Python的微博舆情分析与可视化系统旨在利用大数据和自然语言处理技术，实时抓取、分析微博平台上的用户言论，并通过可视化手段揭示舆情的动态演变规律。系统采用Python技术栈，结合网
《DeepSeek-V3：动态温度调节算法，开启推理新境界！》人工智能深度学习
在人工智能领域不断探索的征程中，DeepSeek-V3以其卓越的创新技术，尤其是动态温度调节算法，成为了备受瞩目的焦点。这项算法犹如一把神奇的钥匙，巧妙地开启了推理速度与精度动态平衡的大门，为大语言模型的发展开辟了新的道路。温度，在大语言模型的世界里，是一个极为关键的参数，它掌控着模型输出的随机性。这一概念，脱胎于热力学，却在人工智能的领域中被赋予了全新的使命。当温度较低时，模型倾向于选择高概率词
基于PySide6的CATIA零件自动化着色工具开发实践 Python×CATIA工业智造自动化运维 python pycharm
引言在汽车及航空制造领域，CATIA作为核心的CAD设计软件，其二次开发能力对提升设计效率具有重要意义。本文介绍一种基于Python的CATIA零件着色工具开发方案，通过PySide6实现GUI交互，结合COM接口操作实现零件着色自动化。该方案成功解决了传统手动操作效率低下等问题，可提升90%以上的色彩管理效率。一、工具实现原理1.1技术架构本工具采用分层架构设计，包含：交互层：基于PySide6
测试中，哪些地方可以有效的利用deepseek 海姐软件测试测试工具
在软件测试全生命周期中，以下10个关键环节可高效利用DeepSeek实现智能化升级，每个场景均附带典型应用示例：---###一、需求分析阶段1.**需求漏洞挖掘**```python#输入PRD文档检测逻辑漏洞vulnerabilities=deepseek.detect_ambiguity(prd_text)#输出：发现未定义密码复杂度规则、缺少登录会话超时说明```2.**测试点自动提取**`
Python绘制表白代码，又是一个表白神器（赠源码，文章内有效果展示）「已注销」 python python 开发语言
前言嗨呀，又是我，又给你们带来了表白的代码之前发了那些照片里面加文字的…还有烟花…还有跳动爱心…emm你们也可以去看看哦今天带来的这个，也是很不错哦只不过它出来的有些慢，我这里先给你们看看这个效果图吧效果展示这里事先声明一下这里的文字数字还有那个Python都是可以自己改的数字的画，你们是可以改成自己想说的五句话爱心内的就可以是两个人的名字咯代码实现okok。话不多说马上开始导入模块所有源码点击此
Python 中自动打开网页并点击[自动化脚本],Selenium Ben_F Python python 自动化 selenium
要在Python中自动打开网页并点击第一个标签，你需要使用Selenium，它可以控制浏览器并执行像点击这样的操作。requests和BeautifulSoup只能获取并解析网页内容，但不能进行网页交互操作。步骤：安装Selenium安装WebDriver（例如ChromeDriver）编写代码来自动点击网页的第一个标签1.安装Selenium使用pip安装Selenium：pipinstalls
Python 自动化探索性数据分析（EDA）工具东方佑量子变法 python 自动化数据分析
1.PandasProfiling功能特点：自动生成详细的统计报告，包含数据概览、单变量分析、相关性矩阵、缺失值分析等。支持交互式HTML报告，可导出为PDF或其他格式。适合快速生成数据集的全面摘要。使用示例：importpandasaspdfrompandas_profilingimportProfileReportdf=pd.read_csv("data.csv")profile=Profil
chatgpt赋能python：Python生成噪声：让你的声音不再单调无味 test100t ChatGpt python chatgpt numpy 计算机
Python生成噪声：让你的声音不再单调无味如果你的项目需要制作音效或者游戏开发，你可能需要一些噪声来为场景增添真实感。而在Python中，生成各种形态的噪声将会变得非常容易。这篇文章将会探讨Python中如何生成多种类型的噪声，并且如何利用它们来让你的项目变得更加动态和生动。什么是噪声在音效和图形处理中，噪声是一种随机产生的信号，通常被用来模拟自然事件中的随机变化。在图像处理中，噪声常常被用来为
python之匿名函数 mumux183 python python 开发语言
有没有想过定义一个很短的回调函数，但又不想用def的形式去写一个那么长的函数，那么有没有快捷方式呢？答案是有的。python使用lambda来创建匿名函数，也就是不再使用def语句这样标准的形式定义一个函数。匿名函数主要有以下特点：lambda只是一个表达式，函数体比def简单很多。lambda的主体是一个表达式，而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。lambda函数拥
python之迭代 mumux183 python #基础 python 开发语言
什么叫做迭代？比如在Java中，我们通过List集合的下标来遍历List集合中的元素，在Python中，给定一个list或tuple，我们可以通过for循环来遍历这个list或tuple，这种遍历就是迭代。可是，Python的for循环抽象程度要高于Java的for循环的，为什么这么说呢？因为Python的for循环不仅可以用在list或tuple上，还可以作用在其他可迭代对象上。也就是说，只要是
推荐项目：Python中的高性能Perlin噪声库——`noise` 毛彤影
推荐项目：Python中的高性能Perlin噪声库——noise项目地址:https://gitcode.com/gh_mirrors/nois/noise1、项目介绍在Python编程中寻找一种简单且快速的方法来生成Perlin噪声吗？那么noise库就是你的理想之选。这个开源项目由CaseyDuncan开发，提供了一个强大的工具集，用于在Python程序中轻松实现Perlin噪声的生成，适用于
用python实现烟花代码，完整代码拿走不谢 mumux183 知识沉淀 python #基础 python pygame 开发语言
有时候用python实现一些有趣的代码，既有趣，又能提升知识使用Python实现动态烟花代码效果如下：不废话，直接上代码：importpygamefromrandomimportrandint,uniform,choiceimportmathvector=pygame.math.Vector2gravity=vector(0,0.3)DISPLAY_WIDTH=DISPLAY_HEIGHT=800
Python构建基于协同过滤的推荐系统：从理论到实践清水白石008 python Python题库 python 开发语言
构建基于协同过滤的推荐系统：从理论到实践推荐系统在现代应用中无处不在，从电商平台的商品推荐到流媒体服务的内容推荐，推荐系统极大地提升了用户体验。本文将详细介绍如何使用Python构建一个基于协同过滤算法的推荐系统，内容涵盖理论基础、数据处理、算法实现以及实际应用。一、推荐系统概述推荐系统主要分为三类：基于内容的推荐、基于协同过滤的推荐和混合推荐系统。本文重点介绍基于协同过滤的推荐系统。协同过滤（C
#arcGis#、#arcGis Pro# 属性表内保留小数点后2位小数？字段内如何添加字符？云上观景经验分享
保留小数点后几位写几VB脚本：字段计算器内输入round([xxx面积],2)&意思是和、与、and，就是可以把两个字段的内容拼接、或连接起来，比如：hello&穿越机&arcgis=hello穿越机arcgis123&456=123456划重点：随意连接字段内内容使用过程中发现arcgisPro中是python，没有VB脚本，如何解决？？？Python：字段计算器内输入str(round(!字段
C语言基础系列【20】内存管理程序喵大人 C语言基础系列 c语言开发语言 c++后端面试
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列C++大佬养成攻略在C++编程中，内存管理是一个至关重要的概念。要深入理解内存管理，我们肯定要
2024年Python最新Pytorch--3，面试高分实战 m0_60666452 程序员 python 学习面试
（1）Python所有方向的学习路线（新版）这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。（2）Python学习视频包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门
Python Selenium 库：高级自动化测试与网页交互三带俩王 python selenium 交互
在当今的软件开发和网页自动化领域，Python的Selenium库是一个强大的工具。它允许开发者通过编程方式与网页进行交互，实现自动化测试、数据抓取等多种任务。本文将深入探讨PythonSelenium库的高级用法，展示其在不同场景下的强大功能。一、Selenium库简介Selenium是一个用于自动化测试网页的工具集，它支持多种浏览器，包括Chrome、Firefox、Safari等。Selen
Selenium 库的爬虫实现叱咤少帅（少帅） Python从入门到高手 selenium
Selenium是什么？Selenium是一个用于自动化Web应用程序测试的工具。它提供了一个用于测试网站的框架，可以模拟用户在浏览器中的操作，如点击链接、填写表单、提交数据等。Selenium可以在多种浏览器和操作系统上运行，并且支持多种编程语言，如Python、Java、JavaScript等。通过编写测试脚本，开发人员可以使用Selenium来自动化执行各种Web应用程序的测试，以确保它们在
Python-Meteor：Python 编写的Meteor客户端嵇子高Quintessa
Python-Meteor：Python编写的Meteor客户端python-meteorAmeteorclientforpython项目地址:https://gitcode.com/gh_mirrors/py/python-meteor项目基础介绍Python-Meteor是一个开源项目，旨在为Python提供一个Meteor客户端。它允许开发者使用Python语言与Meteor应用程序进行交互
2024年最新PyTorch深度学习项目实战100例数据集_python 深度学习项目演练 2401_84585440 程序员深度学习 python pytorch
前言最近很多订阅了《PyTorch深度学习项目实战100例》的用户私信咨询有些数据集下载不了以及一些文章中没有给出数据集链接，为了解决这个问题，专门开设了本篇文章，提供数据集下载链接，打包100例的所有数据集。本专栏适用人群：深度学习初学者，刚刚接触PyTorch的用户群体，专栏将具体讲解如何快速搭建深度学习模型用自己的数据集实现深度学习小项目，快速让新手小白能够对基于深度学习方法有个基本的框架认
PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
七成月活过亿 APP 已接入人工智能自不量力的A同学人工智能
2025年3月4日，第三方数据机构QuestMobile发布的《2024中国移动互联网年度大报告》显示，截至2024年12月，月活用户过亿的APP中，有超过七成已接入AI123。相关具体情况如下2：整体背景：2024年全网月活用户已达12.57亿，一线、新一线、二线城市用户接近五成，其中一线城市用户同比增长了1.2%。用户对互联网的使用程度加深，整体月人均使用时长达到171.7小时，短视频、即时通
python机试1：读取和输出数据大多_C python 华为od 开发语言
读取和输出数据在LeetCode和机试中也是很重要的基础。你需要掌握文件读取、输入处理、输出优化，才能应对不同类型的题目和考试环境。以下是详细的知识点：1.标准输入与输出✅Python标准输入input()机试中，很多题目要求从标准输入stdin读取数据，通常使用：n=int(input())#读取一个整数s=input().strip()#读取一行字符串arr=list(map(int,inpu
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
dataframe数据常用python操作 shlay 统计分析软件 python 信息可视化数据分析
dataframe数据常用python操作dataframe数据常用知识点1.创建dataframe1.1使用字典创建DataFrame：1.2使用列表创建DataFrame：1.3使用numpy数组创建DataFrame：1.4从TXT文件中创建DataFrame：1.5从CSV文件中创建DataFrame：1.6从Excel文件中创建DataFrame：2.dataframe数据保存3.dat
0基础学python第四天 RUIOU_ python 开发语言
1.for循环：（1）for循环格式：for变量名in可迭代对象：对每个变量做的操作如：可迭代对象为列表，就是对列表中的每个数据操作，字典就是对每个字典中的键或值操作。字典中有几个方法：字典名.keys()——返回所有键；字典名.values()——返回所有值，字典名.items——返回所有键值对。若for后有两个对象且可迭代对象为字典时，第一个对象对应键，第二个对象对应值（2）range：ran
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: ken.wug@gmail.com 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多