张先生-您好

PySpark之电商广告推荐(2)

数据预处理

raw_sample表

表描述

淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志（2600万条记录），构成原始的样本骨架。字段说明如下：
1. user_id：脱敏过的用户ID；
2. adgroup_id：脱敏过的广告单元ID；
3. time_stamp：时间戳；
4. pid：资源位；
5. noclk：为1代表没有点击；为0代表点击；
6. clk：为0代表没有点击；为1代表点击；

数据读取并分析

# 淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志（2600万条记录）构成原始的样本数据
df = spark.read.csv("data/raw_sample.csv", header=True)
df.show(5)

+------+----------+----------+-----------+------+---+
|  user|time_stamp|adgroup_id|        pid|nonclk|clk|
+------+----------+----------+-----------+------+---+
|581738|1494137644|         1|430548_1007|     1|  0|
|449818|1494638778|         3|430548_1007|     1|  0|
|914836|1494650879|         4|430548_1007|     1|  0|
|914836|1494651029|         5|430548_1007|     1|  0|
|399907|1494302958|         8|430548_1007|     1|  0|
+------+----------+----------+-----------+------+---+
only showing top 5 rows

print("总样本数目：", df.count())
print("adgroup_id数目：", df.groupBy("adgroup_id").count().count())
print("广告示位置：", df.groupBy("pid").count().collect())  # 可以考虑热编码onehot
print("用户的点击情况：", df.groupBy("nonclk").count().collect())

总样本数目： 26557961
adgroup_id数目： 846811
广告示位置： [Row(pid='430548_1007', count=16472898), Row(pid='430539_1007', count=10085063)]
用户的点击情况： [Row(nonclk='0', count=1366056), Row(nonclk='1', count=25191905)]

更改数据类型

from pyspark.sql.types import StructType, StructField, IntegerType, FloatType, LongType, StringType

# 打印df结构信息
df.printSchema()   
# 更改df表结构：更改列类型和列名称
raw_sample_df = df.\
    withColumn("user", df.user.cast(IntegerType())).withColumnRenamed("user", "userId").\
    withColumn("time_stamp", df.time_stamp.cast(LongType())).withColumnRenamed("time_stamp", "timestamp").\
    withColumn("adgroup_id", df.adgroup_id.cast(IntegerType())).withColumnRenamed("adgroup_id", "adgroupId").\
    withColumn("pid", df.pid.cast(StringType())).\
    withColumn("nonclk", df.nonclk.cast(IntegerType())).\
    withColumn("clk", df.clk.cast(IntegerType()))

raw_sample_df.printSchema()

root
 |-- user: string (nullable = true)
 |-- time_stamp: string (nullable = true)
 |-- adgroup_id: string (nullable = true)
 |-- pid: string (nullable = true)
 |-- nonclk: string (nullable = true)
 |-- clk: string (nullable = true)

root
 |-- userId: integer (nullable = true)
 |-- timestamp: long (nullable = true)
 |-- adgroupId: integer (nullable = true)
 |-- pid: string (nullable = true)
 |-- nonclk: integer (nullable = true)
 |-- clk: integer (nullable = true)

"pid"字段热编码

Spark中使用热独编码

注意：热编码只能对字符串类型的列数据进行处理

StringIndexer：对指定字符串列数据进行特征处理，如将性别数据“男”、“女”转化为0和1

OneHotEncoder：对特征列数据，进行热编码，通常需结合StringIndexer一起使用

Pipeline：让数据按顺序依次被处理，将前一次的处理结果作为下一次的输入

from pyspark.ml.feature import OneHotEncoder
from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline

stringindexer = StringIndexer(inputCol="pid", outputCol="pid_feature")
onehot = OneHotEncoder(inputCol="pid_feature", outputCol="pid_value", dropLast=False)
pipeline = Pipeline(stages=[stringindexer, onehot])
pipeline_model = pipeline.fit(df)
new_df = pipeline_model.transform(df)
# 查看onehot编码的结果
new_df.groupBy("pid_value").count().show()

+-------------+--------+
|    pid_value|   count|
+-------------+--------+
|(2,[0],[1.0])|16472898|
|(2,[1],[1.0])|10085063|
+-------------+--------+

时间戳字段分析

from datetime import datetime

# 查看时间
new_df.sort("time_stamp", ascending=False).show()
# 留取最后一天为测试集, 前七天为训练集
print("第八天:", datetime.fromtimestamp(1494691186))
print("第七天分割点:", datetime.fromtimestamp(1494691186-24*60*60))

第八天: 2017-05-13 23:59:46
第七天分割点: 2017-05-12 23:59:46

train_sample = new_df.filter(new_df.time_stamp<=(1494691186-24*60*60))
test_sample = new_df.filter(new_df.time_stamp>(1494691186-24*60*60))
# 所占分数
train_sample.count(), test_sample.count()

(23249291, 3308670)

ad_feature表

表描述

本数据集涵盖了raw_sample中全部广告的基本信息(约80万条目)。字段说明如下：
1. adgroup_id：脱敏过的广告ID；
2. cate_id：脱敏过的商品类目ID；
3. campaign_id：脱敏过的广告计划ID；
4. customer_id: 脱敏过的广告主ID；
5. brand_id：脱敏过的品牌ID；
6. price: 宝贝的价格
其中一个广告ID对应一个商品（宝贝），一个宝贝属于一个类目，一个宝贝属于一个品牌。

数据读取并分析

# 广告信息表
adf = spark.read.csv("data/ad_feature.csv", header=True)
adf.show(5)

+----------+-------+-----------+--------+------+-----+
|adgroup_id|cate_id|campaign_id|customer| brand|price|
+----------+-------+-----------+--------+------+-----+
|     63133|   6406|      83237|       1| 95471|170.0|
|    313401|   6406|      83237|       1| 87331|199.0|
|    248909|    392|      83237|       1| 32233| 38.0|
|    208458|    392|      83237|       1|174374|139.0|
|    110847|   7211|     135256|       2|145952|32.99|
+----------+-------+-----------+--------+------+-----+
only showing top 5 rows

adf.printSchema(), adf.count()

root
 |-- adgroup_id: string (nullable = true)
 |-- cate_id: string (nullable = true)
 |-- campaign_id: string (nullable = true)
 |-- customer: string (nullable = true)
 |-- brand: string (nullable = true)
 |-- price: string (nullable = true)

(None, 846811)

更改字段类型

# 首先填补NULL值为-1后，并修改其对应字段的数据类型
adf = adf.replace("NULL", "-1")

# 修改数据类型
ad_feature_df = adf.withColumn("adgroup_id", adf.adgroup_id.cast(IntegerType())).withColumnRenamed("adgroup_id", "adgroupID").\
    withColumn("cate_id", adf.cate_id.cast(IntegerType())).withColumnRenamed("cate_id", "cateId").\
    withColumn("campaign_id", adf.campaign_id.cast(IntegerType())).withColumnRenamed("campaign_id", "campaignId").\
    withColumn("customer", adf.customer.cast(IntegerType())).withColumnRenamed("customer", "customerId").\
    withColumn("brand", adf.brand.cast(IntegerType())).withColumnRenamed("brand", "brandId").\
    withColumn("price", adf.price.cast(FloatType()))

ad_feature_df.printSchema()

root
 |-- adgroupID: integer (nullable = true)
 |-- cateId: integer (nullable = true)
 |-- campaignId: integer (nullable = true)
 |-- customerId: integer (nullable = true)
 |-- brandId: integer (nullable = true)
 |-- price: float (nullable = true)

统计

# 基本数据指标统计
print("总广告条数：",df.count())   # 数据条数
_1 = ad_feature_df.groupBy("cateId").count().count()
print("cateId数值个数：", _1)
_2 = ad_feature_df.groupBy("campaignId").count().count()
print("campaignId数值个数：", _2)
_3 = ad_feature_df.groupBy("customerId").count().count()
print("customerId数值个数：", _3)
_4 = ad_feature_df.groupBy("brandId").count().count()
print("brandId数值个数：", _4)
print("价格高于1w的条目个数:", ad_feature_df.filter(ad_feature_df.price > 10000).count())
print("价格低于1w的条目个数:", ad_feature_df.filter(ad_feature_df.price <= 10000).count())

ad_feature_df.sort("price").show()
ad_feature_df.sort("price", ascending=False).show()
ad_feature_df.describe().show()

总广告条数： 26557961
cateId数值个数： 6769
campaignId数值个数： 423436
customerId数值个数： 255875
brandId数值个数： 99815
价格高于1w的条目个数: 6527
价格低于1w的条目个数: 840284
+---------+------+----------+----------+-------+-----+
|adgroupID|cateId|campaignId|customerId|brandId|price|
+---------+------+----------+----------+-------+-----+
|    92241|  6130|     72781|    149714|     -1| 0.01|
|   149570|  7043|    126746|    176076|     -1| 0.01|
|    71678|  9866|    124203|     91492|  63885| 0.01|
|   345870|  9995|    179595|    191036|  79971| 0.01|
|    41925|  7032|     85373|    114532|     -1| 0.01|
|    88975|  9996|    198424|    182415|     -1| 0.01|
|   485749|  9970|    352666|    140520|     -1| 0.01|
|   494084|  9969|    349384|    154919|     -1| 0.01|
|    49911|  7032|    129079|    172334|     -1| 0.01|
|    42055|  9994|     43866|    113068| 123242| 0.01|
|   692990|  6018|    353223|    223320|     -1| 0.01|
|   348342|  8999|    296966|    158809| 113555| 0.01|
|   288172|  9995|    314179|    230326| 399440| 0.01|
|   620285|  7043|    365821|      1960| 188191| 0.01|
|   174248|  8999|    184344|    196777| 113555| 0.01|
|   290675|  4824|    315371|    240984|     -1| 0.01|
|   598024|  9970|     22467|     59048|  17554| 0.01|
|   517587|  1847|    352238|    158227| 188592| 0.01|
|   182565|  5375|    274375|     16356|     -1| 0.01|
|   169988| 10539|    238823|    221154| 211816| 0.01|
+---------+------+----------+----------+-------+-----+
only showing top 20 rows

+---------+------+----------+----------+-------+-----------+
|adgroupID|cateId|campaignId|customerId|brandId|      price|
+---------+------+----------+----------+-------+-----------+
|   179746|  1093|    270027|    102509| 405447|      1.0E8|
|   658722|  1093|    218101|    207754|     -1|      1.0E8|
|   443295|  1093|     44251|    102509| 300681|      1.0E8|
|   468220|  1093|    270719|    207754|     -1|      1.0E8|
|   243384|   685|    218918|     31239| 278301|      1.0E8|
|    31899|   685|    218918|     31239| 278301|      1.0E8|
|   554311|  1093|    266086|    207754|     -1|      1.0E8|
|   513942|   745|      8401|     86243|     -1|8.8888888E7|
|   201060|   745|      8401|     86243|     -1|5.5555556E7|
|   289563|   685|     37665|    120847| 278301|      1.5E7|
|    35156|   527|    417722|     72273| 278301|      1.0E7|
|    33756|   527|    416333|     70894|     -1|  9900000.0|
|   335495|   739|    170121|    148946| 326126|  9600000.0|
|   218306|   206|    162394|      4339| 221720|  8888888.0|
|   213567|  7213|    239302|    205612| 406125|  5888888.0|
|   375920|   527|    217512|    148946| 326126|  4760000.0|
|   262215|   527|    132721|     11947| 417898|  3980000.0|
|   154623|   739|    170121|    148946| 326126|  3900000.0|
|   152414|   739|    170121|    148946| 326126|  3900000.0|
|   448651|   527|    422260|     41289| 209959|  3800000.0|
+---------+------+----------+----------+-------+-----------+
only showing top 20 rows

+-------+-----------------+------------------+------------------+------------------+------------------+------------------+
|summary|        adgroupID|            cateId|        campaignId|        customerId|           brandId|             price|
+-------+-----------------+------------------+------------------+------------------+------------------+------------------+
|  count|           846811|            846811|            846811|            846811|            846811|            846811|
|   mean|         423406.0| 5868.593464185043|206552.60428005777|113180.40600559038|162566.00186464275| 1838.867108130995|
| stddev|244453.4237388929|2705.1712033181752|125192.34090758236| 73435.83494972308| 152482.7386634471|310887.70017026004|
|    min|                1|                 1|                 1|                 1|                -1|              0.01|
|    max|           846811|             12960|            423436|            255875|            461497|             1.0E8|
+-------+-----------------+------------------+------------------+------------------+------------------+------------------+

user_profile表

表描述

用户基本信息表user_profile

本数据集涵盖了raw_sample中全部用户的基本信息(约100多万用户)。字段说明如下：
1. userid：脱敏过的用户ID；
2. cms_segid：微群ID；
3. cms_group_id：cms_group_id；
4. final_gender_code：性别 1:男,2:女；
5. age_level：年龄层次； 1234
6. pvalue_level：消费档次，1:低档，2:中档，3:高档；
7. shopping_level：购物深度，1:浅层用户,2:中度用户,3:深度用户
8. occupation：是否大学生，1:是,0:否
9. new_user_class_level：城市层级

数据读取并分析

# 用户信息表
upf = spark.read.csv("data/user_profile.csv", header=True)
upf.show(5)

+------+---------+------------+-----------------+---------+------------+--------------+----------+---------------------+
|userid|cms_segid|cms_group_id|final_gender_code|age_level|pvalue_level|shopping_level|occupation|new_user_class_level |
+------+---------+------------+-----------------+---------+------------+--------------+----------+---------------------+
|   234|        0|           5|                2|        5|        null|             3|         0|                    3|
|   523|        5|           2|                2|        2|           1|             3|         1|                    2|
|   612|        0|           8|                1|        2|           2|             3|         0|                 null|
|  1670|        0|           4|                2|        4|        null|             1|         0|                 null|
|  2545|        0|          10|                1|        4|        null|             3|         0|                 null|
+------+---------+------------+-----------------+---------+------------+--------------+----------+---------------------+
only showing top 5 rows

更改字段类型

from pyspark.sql.types import StructType, StructField, IntegerType, FloatType, LongType, StringType

# 构建表结构schema对象
schema = StructType([
    StructField("userId", IntegerType()),
    StructField("cms_segid", IntegerType()),
    StructField("cms_group_id", IntegerType()),
    StructField("final_gender_code", IntegerType()),
    StructField("age_level", IntegerType()),
    StructField("pvalue_level", IntegerType()),
    StructField("shopping_level", IntegerType()),
    StructField("occupation", IntegerType()),
    StructField("new_user_class_level", IntegerType())
])

# 利用schema从hdfs加载
user_profile_df = spark.read.csv("./data/user_profile.csv", header=True, schema=schema)
user_profile_df.printSchema()

root
 |-- userId: integer (nullable = true)
 |-- cms_segid: integer (nullable = true)
 |-- cms_group_id: integer (nullable = true)
 |-- final_gender_code: integer (nullable = true)
 |-- age_level: integer (nullable = true)
 |-- pvalue_level: integer (nullable = true)
 |-- shopping_level: integer (nullable = true)
 |-- occupation: integer (nullable = true)
 |-- new_user_class_level: integer (nullable = true)

统计

print("分类特征值个数情况: ")
print("cms_segid: ", user_profile_df.groupBy("cms_segid").count().count())
print("cms_group_id: ", user_profile_df.groupBy("cms_group_id").count().count())
print("final_gender_code: ", user_profile_df.groupBy("final_gender_code").count().count())
print("age_level: ", user_profile_df.groupBy("age_level").count().count())
print("shopping_level: ", user_profile_df.groupBy("shopping_level").count().count())
print("occupation: ", user_profile_df.groupBy("occupation").count().count())

分类特征值个数情况: 
cms_segid:  97  # 特征取值较多，不宜升高维度
cms_group_id:  13
final_gender_code:  2
age_level:  7  # 七档消费档次
shopping_level:  3  # 三档购物层次
occupation:  2

缺失值

表中的pvalue_level和new_user_class_level字段含有部分缺失值，需要对缺失值进行填补，处理步骤一般如下：
- 缺失值处理
  - 注意，一般情况下：
    - 缺失率低于10%：可直接进行相应的填充，如默认值、均值、算法拟合等等；
    - 高于10%：往往会考虑舍弃该特征
    - 特征处理，如1维转多维
    但根据我们的经验，我们的广告推荐其实和用户的消费水平、用户所在城市等级都有比较大的关联，因此在这里pvalue_level、new_user_class_level都是比较重要的特征，我们不考虑舍弃
- 缺失值处理方案：
  - 填充方案：结合用户的其他特征值，利用随机森林算法进行预测；但产生了大量人为构建的数据，一定程度上增加了数据的噪音
  - 把变量映射到高维空间：如pvalue_level的1维数据，转换成是否1、是否2、是否3、是否缺失的4维数据；这样保证了所有原始数据不变，同时能提高精确度，但这样会导致数据变得比较稀疏，如果样本量很小，反而会导致样本效果较差，因此也不能滥用
- 填充方案
  - 利用随机森林对pvalue_level的缺失值进行预测
缺失情况
```
 print("含缺失值的特征情况: ")
user_profile_df.groupBy("pvalue_level").count().show()
```

user_profile_df.groupBy(“new_user_class_level”).count().show()

含缺失值的特征情况: 
+------------+------+
|pvalue_level| count|
+------------+------+
|        null|575917|
|           1|154436|
|           3| 37759|
|           2|293656|
+------------+------+

+--------------------+------+
|new_user_class_level| count|
+--------------------+------+
|                null|344920|
|                   1| 80548|
|                   3|173047|
|                   4|138833|
|                   2|324420|

缺失比率

t_count = user_profile_df.count()

pl_na_count = t_count - user_profile_df.dropna(subset=["pvalue_level"]).count()
print("pvalue_level空值个数：", pl_na_count, "空占比%0.2f%%"%(pl_na_count/t_count))

# 此时缺失值比重较大, 但由于其自身对最终的预测有决定性的作用,所以可以考虑进行填补
nul_na_count = t_count - user_profile_df.dropna(subset=["new_user_class_level"]).count()
print('nul_na_count空值个数：', nul_na_count, "空占比%0.2f%%"%(nul_na_count/t_count))

pvalue_level空值个数： 575917 空占比0.54%
nul_na_count空值个数： 344920 空占比0.32%

缺失值填补：随机森林(使用mllib,则需要转为与之对应的rdd格式数据类型)

构建训练集（相对应字段不为空）

from pyspark.mllib.linalg import SparseVector
from pyspark.mllib.regression import LabeledPoint
  
  # 构建随机森林填补的训练集和测试集
  # 保证标签从0开始
  train_data = user_profile_df.dropna(subset=["pvalue_level"])\
              .rdd.map(lambda r: LabeledPoint(r.pvalue_level-1, 
                                              [r.cms_segid, r.cms_group_id, r.final_gender_code
                                               , r.age_level, r.shopping_level, r.occupation])
                                              )
  
  # 对城市等级缺失值进行填补
  # 选出new_user_class_level全部的
  train_data2 = user_profile_df.dropna(subset=["new_user_class_level"]).rdd.map(
      lambda r:LabeledPoint(r.new_user_class_level - 1, [r.cms_segid, r.cms_group_id, r.final_gender_code, r.age_level, r.shopping_level, r.occupation])
  )

建模

# model模型
from pyspark.mllib.tree import RandomForest  # RDD数据类型
model = RandomForest().trainClassifier(train_data, numClasses=3, categoricalFeaturesInfo={}, numTrees=5)
model2 = RandomForest().trainClassifier(train_data2, 4, {}, 5)
# 单个样本预测
model.predict([5.0,2.0,2.0,2.0,3.0,1.0])

构建测试集（相对应字段为空）

# 构建测试集
pl_na_df = user_profile_df.na.fill(-1).where("pvalue_level=-1")
nul_na_df = user_profile_df.na.fill(-1).where("new_user_class_level=-1")

# 转换为指定数据类型
def row(r):
    return r.cms_segid, r.cms_group_id, r.final_gender_code, r.age_level, r.shopping_level, r.occupation

rdd2 = nul_na_df.rdd.map(row)
predicts2 = model.predict(rdd2)

rdd = pl_na_df.rdd.map(row) 
# 预测缺失值的数据
predicts = model.predict(rdd)
print(predicts.take(5))
predicts.count()

[1.0, 1.0, 1.0, 1.0, 1.0]
575917

填补字段缺失值

# label 加１,转为pandas进行数据处理
import numpy as np

temp = predicts.map(lambda x:int(x)).collect()
pdf = pl_na_df.toPandas()  # 选择需要填补的空值
pdf["pvalue_level"] = np.array(temp)+1

# 数据填补完成
new_user_profile_df = user_profile_df.dropna(subset=["pvalue_level"]).unionAll(spark.createDataFrame(pdf, schema=schema))
new_user_profile_df.show(5)

+------+---------+------------+-----------------+---------+------------+--------------+----------+--------------------+
|userId|cms_segid|cms_group_id|final_gender_code|age_level|pvalue_level|shopping_level|occupation|new_user_class_level|
+------+---------+------------+-----------------+---------+------------+--------------+----------+--------------------+
|   523|        5|           2|                2|        2|           1|             3|         1|                   2|
|   612|        0|           8|                1|        2|           2|             3|         0|                null|
|  3644|       49|           6|                2|        6|           2|             3|         0|                   2|
|  5777|       44|           5|                2|        5|           2|             3|         0|                   2|
|  6355|        2|           1|                2|        1|           1|             3|         0|                   4|
+------+---------+------------+-----------------+---------+------------+--------------+----------+--------------------+
only showing top 5 row

缺失值填补：低维转高纬方式

目的：我们接下来采用将变量映射到高维空间的方法来处理数据，即将缺失项也当做一个单独的特征来对待，保证数据的原始性，由于该思想正好和热独编码实现方法一样，因此这里直接使用热独编码方式处理数据

from pyspark.ml.feature import OneHotEncoder
from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline
from pyspark.sql.types import StringTyp

# 需要填补空值后才能进行类型字段类型装换
user_profile_df = user_profile_df.na.fill(-1)


# 转变onehot编码,必须将相对应字段的数据进行填补字符串类型
user_profile_df = user_profile_df.withColumn("pvalue_level", user_profile_df.pvalue_level.cast(StringType()))\
                                .withColumn("new_user_class_level", user_profile_df.new_user_class_level.cast(StringType()))

# 1. pvalue_level字段onehot
# onehot编码一般流程　pvalue_level字段
stringindex = StringIndexer(inputCol="pvalue_level", outputCol="pl_onehot_feature")
encoder = OneHotEncoder(inputCol="pl_onehot_feature", outputCol="pl_onehot_value", dropLast=False)
pipeline = Pipeline(stages=[stringindex, encoder])
pipeline_fit = pipeline.fit(user_profile_df)
user_profile_df2 = pipeline_fit.transform(user_profile_df)

# 2.new_user_class_level字段onehot
stringindexer = StringIndexer(inputCol='new_user_class_level', outputCol='nucl_onehot_feature')
encoder = OneHotEncoder(dropLast=False, inputCol='nucl_onehot_feature', outputCol='nucl_onehot_value')
pipeline = Pipeline(stages=[stringindexer, encoder])
pipeline_fit = pipeline.fit(user_profile_df2)
user_profile_df3 = pipeline_fit.transform(user_profile_df2)
user_profile_df3.show(5, truncate=False)

VectorAssembler(ml指定格式类型)

feature_df = VectorAssembler().setInputCols(["age_level", "pl_onehot_value", "nucl_onehot_value"]).setOutputCol("feature").transform(user_profile_df3)
feature_df.select("feature").show(5, truncate=False)

+--------------------------+
|feature                   |
+--------------------------+
|(10,[0,1,7],[5.0,1.0,1.0])|
|(10,[0,3,6],[2.0,1.0,1.0])|
|(10,[0,2,5],[2.0,1.0,1.0])|
|(10,[0,1,5],[4.0,1.0,1.0])|
|(10,[0,1,5],[4.0,1.0,1.0])|
+--------------------------+
only showing top 5 rows

参考

推荐系统

黑马python5.0

推荐系统（一）：个性化电商广告推荐系统介绍、数据集介绍、项目效果展示、项目实现分析、点击率预测(CTR–Click-Through-Rate)概念

你可能感兴趣的:(推荐系统,机器学习,python,数据分析,推荐系统)

同花顺python_【本地直连】同花顺 Python量化交易接口上线 weixin_39938724 同花顺python
来源：雪球App，作者：私募之家THS，（https://xueqiu.com/5808549553/129022113）导读：同花顺智能交易终端MindGo版已上线2年多，凭借着同花顺深厚的技术底蕴，不断地对终端进行优化。至今，已服务近1000位个人客户，超过200家私募机构，市场份额不断扩大。目前终端已实现：支持股票、指数、基金、期货、外汇、黄金T+D等6个品种日/分钟级策略回测投研策略无缝对
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Stack Overflow问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
摘要本文将详细介绍如何使用Python生态中最先进的爬虫技术组合（Scrapy+Selenium+Playwright）来爬取StackOverflow的问答数据。我们将从基础爬虫原理讲起，逐步深入到分布式爬虫、反反爬策略、数据存储等高级话题，并提供完整的可运行代码示例。本文适合有一定Python基础，想要掌握专业级网络爬虫技术的开发者阅读。1.爬虫技术概述1.1为什么选择StackOverflo
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Coursera课程信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
前言在当今信息爆炸的时代，在线教育平台如Coursera提供了海量的高质量课程资源。对于学习者、教育研究者和数据分析师来说，获取这些平台的课程信息具有重要价值。本文将详细介绍如何使用Python爬虫技术高效爬取Coursera课程信息，并分析其中的技术难点与解决方案。1.Coursera网站分析Coursera是一个典型的现代Web应用，具有以下特点：采用React/Vue等前端框架构建，大量内容
Python爬虫实战：借助工具高效采集微信公众号文章 Python爬虫项目 python 爬虫微信 facebook 音视频开发语言
导语微信公众号作为信息传播的重要平台，涵盖了新闻、技术、生活等各个领域的优质内容。对于数据分析师、内容整理者或研究人员而言，系统地采集公众号文章内容具有重要意义。然而，微信公众号对爬虫设置了较强的反爬机制，直接采集存在一定难度。本文将结合实际案例，介绍如何借助工具和Python技术高效采集微信公众号文章。1.项目目标与需求定义目标：采集指定微信公众号的历史文章，包括标题、链接、发布时间等信息；支持
高效主机发现与端口枚举：fscan工具实战指南 Bruce_xiaowei 笔记总结经验网络安全 fscan 信息搜集
高效主机发现与端口枚举：fscan工具实战指南在网络安全领域，主机发现与端口枚举是渗透测试和信息收集的基础环节。本文将深入探讨fscan这一高效工具的核心技术原理与实战应用，帮助你快速掌握网络扫描的核心技能。一、fscan与Nmap工具对比特性fscanNmap开发语言Python3C++主要功能主机探测、端口扫描、漏洞检测主机发现、服务识别、OS检测爆破能力内置弱口令检测需配合其他工具扫描速度极
2025年上半年软考系统架构设计师--案例分析试题与答案不对法计算机软考机考系统架构
必选题一:大模型训练系统某公司开发一个在线大模型训练平台，支持Python代码编写、模型训练和部署,用户通过python编写模型代码,将代码交给系统进行模型代码的解析,最终由系统匹配相应的计算机资源进行输出，用户不需要关心底层硬件平台。a.系统发生错误时，不影响正常运行时发送一个消息给系统管理员(可靠性。ps:可靠性中包括了健壮性:指的是保护应用程序不受错误使用和错误输入的影响，在发生意外错误事件
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
服务器、树莓派/香橙派部署HomeAssistant与小爱音箱联动不对法物联网物联网
HomeAssistant功能介绍与多平台部署实战：CentOS服务器、树莓派、香橙派部署及小爱音箱联动控制一、HomeAssistant简介HomeAssistant是一款基于Python开发的开源智能家居自动化平台，它最大的特点是高度集成和自定义。通过HomeAssistant，用户可以将不同品牌、不同协议的智能家居设备（如空调、电灯、传感器等）整合到一个统一的平台进行管理和控制，同时还支持通
数据分析案例-全球表面温度数据可视化与统计分析艾派森数据分析信息可视化 python 数据分析数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
生信技能16 - 生信分析序列处理常用函数生信与基因组学生信分析项目实战技能合集 python numpy 数据分析
生信分析序列处理常用函数生信分析经常需要对序列进行处理，下面的实现代码可用于个人练习，可以让我们更好地理解序列处理的原理，当然python也有更高效率的包可以实现以下功能。read_seq_file读取序列txt文件函数count_nucletotides计算各核苷酸数量函数dna2rnaDNA序列转RNA序列函数seq_reverseDNA序列转换为互补序列函数count_GC_ratio计算序
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
N-P准则下的多传感器融合(python) 不会打架的锤子机器学习自动化算法算法 python vscode
本文设计了一个主程序：main_sensor_fusion，和一个函数程序：cal_fuse。主程序里面包含主干部分和绘图部分，函数程序包含数据生成函数gen，检测概率计算函数cal，非0逻辑矩阵函数No_zero_value，单传感器判决函数fus_seq，多传感融合函数fusion。需要的点赞私聊if__name__=="__main__":begin_time=time()#Measurep
Python+Vue计算机毕业设计智慧养老院管理系统egn81（源码+程序+LW+部署）心心毕设程序源码 python vue.js 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Python3.7.7+Django+Mysql5.7+piplist+HBuilderX（Vscode也行）+Vue+Pychram社区版。项目技术：Django+Vue+Python+Mysql等等组成，B/S模式等等。环境需要1.运行环境：最好是安装Python3.7.7，我们在这个平台上运行的。其他版本理论上也
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚” Echo_Wish Python！实战！python 自动驾驶汽车
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚”在自动驾驶技术的演进过程中，多传感器融合（Multi-SensorFusion）是不可或缺的一环。单一传感器往往存在局限性，例如摄像头怕光线变化，激光雷达价格昂贵，毫米波雷达分辨率有限，但如果将它们结合起来，就能形成一个更全面、更可靠的环境感知系统。今天，我们就来聊聊如何用Python实现自动驾驶中的多传感器融合，并结合最新技术趋势
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
列表反转：reverse() 方法的深度剖析测试者家园测试开发和测试 Python 零基础学Python 人工智能 Python 零基础学Python 零基础职场和发展软件开发和测试智能化测试
数据结构的基本操作始终是打牢编程基础的关键。而在对列表（list）这一核心数据结构的操作中，反转（reversing）是一项既常用又容易被低估的重要操作。Python提供了原地反转的reverse()方法，与返回新序列的切片[::-1]或内置函数reversed()形成了鲜明对比。本文将全面剖析list.reverse()方法，从其语义、实现机制、适用场景，到其在测试、开发与自动化中的实际运用，力
Python dlib（HOG+SVM）人脸识别总结程序媛一枚~ 人脸识别 python 支持向量机开发语言读书笔记人脸检测识别
Pythondlib（HOG+SVM）人脸识别总结面部标志检测dlib68点（HOG+SVM），194点人脸识别模型，包括口（外嘴唇，内嘴唇），鼻，眉毛（左右眉），眼睛（左右眼），下鄂5点面部标志检测器（左眼2点，右眼2点，鼻子1点）面部对齐更高效眨眼检测ear眨眼瞬间达到0疲劳驾驶检测—连续帧ear面部对齐眼睛连线反正切获取旋转角度，期望图像眼睛横长度计算比率左眼计算右眼相对坐标眼睛横中心点作为
Python开发从新手到专家：第十四章面向对象（ OOP）程序设计 caifox菜狐狸 Python开发从新手到专家 python OOP 面向对象类继承多态静态方法
在Python开发的旅程中，我们已经探索了诸多基础概念与实用技巧，从简单的变量赋值到复杂的函数嵌套，每一步都为构建更强大的程序奠定了坚实的基础。如今，我们即将踏入一个全新的领域——面向对象程序设计（OOP）。这一章将带你领略OOP的独特魅力，它不仅是一种编程范式，更是一种全新的思考问题和解决问题的方式。面向对象程序设计的核心在于“对象”和“类”。通过将数据和操作数据的方法封装在一起，我们可以构建出
用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析 Code_Verse python 科研绘图
在数据可视化的工具箱里，3D图表总能带来眼前一亮的效果——它突破了二维平面的限制，用立体空间展示多维度数据关系，让复杂的数据层级一目了然。今天我们要解锁的「3D堆叠条形图」，就是一种能同时呈现类别、子类别、数值大小的强大可视化工具，特别适合展示具有分层结构的数据。无论是商业报表中的多维度业绩分析，还是科研数据中的多指标对比，它都能让你的数据呈现瞬间高级起来～为什么选择3D堆叠条形图？先聊聊这种图表
python爬取京东图片通信小小白 python 爬虫 python 爬虫图片
网上的淘宝爬取图片的代码一般都已经不能实际运行了，在查看淘宝网源代码是找不到图片源地址，估计采取了反爬技术。又去京东看了下，发现很容易爬取。根据下面网址构建urlhttps://list.jd.com/list.html?cat=670%2C671%2C1105&go=0https://list.jd.com/list.html?cat=670,671,1105&page=2&sort=sort_
数据图的类型以及如何在 Python 中创建和自定义唐城唐城奇妙之旅-GIS python 信息可视化数据分析
有人说：一个人从1岁活到80岁很平凡，但如果从80岁倒着活，那么一半以上的人都可能不凡。生活没有捷径，我们踩过的坑都成为了生活的经验，这些经验越早知道࿰
探索PyRDP：远程桌面协议的瑞士军刀彭宏彬
探索PyRDP：远程桌面协议的瑞士军刀pyrdpRDPmonster-in-the-middle(mitm)andlibraryforPythonwiththeabilitytowatchconnectionsliveorafterthefact项目地址:https://gitcode.com/gh_mirrors/py/pyrdp在网络安全领域，攻防两端的对决不断推动着工具的创新。今天，让我们聚
python采集淘宝评论，API接口丨json数据示例参考 ID_18007905473 API python 大数据 json python
在Python中采集淘宝商品评论数据，通常需要通过淘宝开放平台提供的API接口来实现。然而，淘宝开放平台并没有直接提供公开的评论API接口，因此需要通过其他方式间接获取评论数据。以下是一个使用Python通过网页爬虫技术获取淘宝商品评论数据的示例。请注意，这个示例仅用于学习和研究目的，请确保遵守淘宝的使用条款和相关法律法规。示例代码importrequestsfrombs4importBeauti
Python采集京东商品详情数据API接口概述及JSON数据格式参考 ID_18007905473 API python 前端服务器 json
前言一、京东商品详情API接口概述京东开放平台提供了多种API接口，允许开发者通过编程方式获取商品详情数据。以下是常见的接口类型及功能：商品基础信息接口接口名称：jd.union.open.goods.query功能：获取商品标题、价格、图片、库存等基础信息。适用场景：商品列表展示、价格监控等。商品详情接口接口名称：jd.union.open.goods.detail.query功能：获取商品详细
京东商品详情API接口概述（属性规格详情图价格等json数据返回参考） ID_18007905473 API json 服务器
京东商品详情API接口概述京东商品详情API接口是京东开放平台为开发者提供的核心服务，用于获取商品的详细信息，包括属性、规格、详情图、价格等。开发者可通过该接口实现商品展示、价格监控、数据分析等功能。以下是接口的详细说明及JSON数据返回示例。一、接口功能商品基本信息商品ID、名称、品牌、分类、产地等。价格信息当前价格、原价等。库存信息库存数量、库存状态（有货/无货）、预售信息等。规格参数商品的规
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb