赵小刀的小锦囊

Python 实战之淘宝手机销售分析（数据清洗、可视化、数据建模、文本分析）

文章目录

一、数据介绍
二、数据清洗

导入数据
缺失值处理+合并
清洗时间参数
清洗价格数据
清洗发货城市数据
价格分箱
手机参数信息提取

三、可视化分析

淘宝在售手机价格区间统计
商品现价&原价对比
手机类型分布词云图
绘制手机品牌词云图
不同品牌手机总销量比较
月销量气泡图
收藏量与价格分析
不同价格等级总销量饼图
总销售额构成分析
TOP10 手机价格等级构成
各发货省不同价格等级销售情况

四、数据建模
五、文本分析

SnowNLP 情感分析
LDA 主题模型

一、数据介绍

链接: https://pan.baidu.com/s/1GVQ5rv3ElNDLOkaDzuD6Jw 密码:5h6g

本文数据爬取了淘宝全网手机销售数据，其中包括：

cellphone.csv
该数据集包括淘宝网在售的手机商品信息，包括爬取信息、商品信息、评分收藏信息等；

Index	Column	Non-Null Count	Dtype
0	爬取时间(__time)	1691 non-null	object
1	爬取链接(__url)	1691 non-null	object
2	商品ID(product_id)	1691 non-null	int64
3	商品名称(name)	1691 non-null	object
4	商品描述(description)	1587 non-null	object
5	商品参数(params)	1691 non-null	object
6	商品现价(current_price)	1691 non-null	object
7	商品原价(original_price)	1691 non-null	object
8	月销量(month_sales_count)	1684 non-null	float64
9	库存(stock)	1675 non-null	float64
10	发货地址(shipping_address)	1691 non-null	object
11	商品发布时间(product_publish_time)	1691 non-null	int64
12	店铺ID(shop_id)	1691 non-null	int64
13	店铺名称(shop_name)	1691 non-null	object
14	商品链接URL(url)	1691 non-null	object
15	评分（总分5.0分）(score)	1680 non-null	float64
16	收藏数(stores_count)	1691 non-null	int64
17	累计评价数(comments_count)	1679 non-null	float64
18	商品评价印象标签(impresses)	1691 non-null	object
19	Unnamed: 19	0 non-null	float64

count_add_comments.csv
该数据集包含上述手机商品的评价信息，包含图片的评价条数、追评条数等；

Index	Column	Non-Null Count	Dtype
0	图片(picNum)	1232 non-null	float64
1	追评(used)	1176 non-null	float64
2	ID(id)	1691 non-null	int64
3	Unnamed: 3	0 non-null	float64

comments.csv
该数据集包含上数据手机商品的具体评价，包括评价时间、评价内容等；

Index	Column	Non-Null Count	Dtype
0	商品ID(id)	376760 non-null	int64
1	评价时间(time)	376760 non-null	object
2	评价内容(content)	376759 non-null	object
3	爬取链接(spurl)	376760 non-null	object
4	爬取时间(sptime)	376760 non-null	object
5	Unnamed: 5	0 non-null	float64

二、数据清洗

导入数据

发现商品描述、月销量、库存、评分、累计评价数存在缺失

import pandas as pd
import numpy as np

phone=pd.read_csv('cellphone.csv')

add_comments=pd.read_csv('count_add_comments.csv')

缺失值处理+合并

先对phone 进行处理

#删除空白列
phone=phone.drop(columns=['Unnamed: 19'])

#先获取列名，在此基础上进行更改
phone.columns
phone.columns=['爬取时间', '爬取链接', '商品ID', '商品名称',
       '商品描述', '商品参数', '商品现价',
       '商品原价', '月销量', '库存',
       '发货地址', '商品发布时间',
       '店铺ID', '店铺名称', '商品链接URL', '评分',
       '收藏数' ,'累计评价数', '商品评价印象标签']

#商品描述、月销量、库存、评分、累计评价数存在缺失

#查看月销量为0的商品信息
phone[phone['月销量'].isnull()].info()
#对销量为零的数据进行 0 填充
phone['月销量']=phone['月销量'].fillna(0)

#处理库存（0 填充）、评分（删除空白数据）、累计评价数（0填充）
phone['库存']=phone['库存'].fillna(0)
phone['累计评价数']=phone['累计评价数'].fillna(0)
phone=phone.dropna(subset=['评分'])

#重新梳理 index
phone.index=np.arange(len(phone))

再对add_comments和 phone 进行数据合并

df=pd.merge(phone,add_comments,left_on='商品ID',right_on='ID(id)')

最后对合并后的df进行列名梳理，删去重复的商品 ID

df.columns=['爬取时间', '爬取链接', '商品ID', '商品名称',
       '商品描述', '商品参数', '商品现价',
       '商品原价', '月销量', '库存',
       '发货地址', '商品发布时间',
       '店铺ID', '店铺名称', '商品链接URL', '评分',
       '收藏数' ,'累计评价数', '商品评价印象标签','图片', '追评', 'ID(id)', 'Unnamed: 3']
df=df.drop(columns=['Unnamed: 3'])
df=df.drop(columns=['ID(id)'])

清洗时间参数

time.localtime():能将 int 格式的时间数据转化
如：time.localtime(1548475512)
输出结果：time.struct_time(tm_year=2019, tm_mon=1, tm_mday=26, tm_hour=12, tm_min=5, tm_sec=12, tm_wday=5, tm_yday=26, tm_isdst=0)
time.strftime(’%Y-%m-%d’,time.localtime(1548475512)):输出既定格式的时间信息；
输出结果：‘2019-01-26’

关于时间有关格式化信息
%y 两位数的年份表示（00-99）
%Y 四位数的年份表示（000-9999）
%m 月份（01-12）
%d 月内中的一天（0-31）
%H 24小时制小时数（0-23）
%I 12小时制小时数（01-12）
%M 分钟数（00-59）
%S 秒（00-59）
%a 本地简化星期名称
%A 本地完整星期名称
%b 本地简化的月份名称
%B 本地完整的月份名称
%c 本地相应的日期表示和时间表示
%j 年内的一天（001-366）
%p 本地A.M.或P.M.的等价符
%U 一年中的星期数（00-53）星期天为星期的开始
%w 星期（0-6），星期天为星期的开始
%W 一年中的星期数（00-53）星期一为星期的开始
%x 本地相应的日期表示
%X 本地相应的时间表示
%Z 当前时区的名称
%% %号本身

import time
df['商品发布时间']=df['商品发布时间'].apply(lambda op:time.strftime('%Y-%m-%d',time.localtime(op)))

清洗价格数据

目前得到的‘商品现价’、‘商品原价’两列均为价格区间的表示格式，我们无法获取完整的价格，在此取其均值；

def get_price(s):
    price=s.split('-')
    l=[float(i) for i in price]
    return np.mean(l)
df['商品现价']=df['商品现价'].apply(get_price)
df['商品原价']=df['商品原价'].apply(get_price)

清洗发货城市数据

目前发货城市数据为省+城市名的表示方式，我们要将省份+城市数据提取出来；

#获得中国全部的省级单位名称，找到全部的省级单位
#将每一个地址的省份提取出来，剩下的就是城市
pro_list=['北京',
 '天津',
 '上海',
 '重庆',
 '河北',
 '山西',
 '辽宁',
 '吉林',
 '黑龙江',
 '江苏',
 '浙江',
 '安徽',
 '福建',
 '江西',
 '山东',
 '河南',
 '湖北',
 '湖南',
 '广东',
 '海南',
 '四川',
 '贵州',
 '云南',
 '陕西',
 '甘肃',
 '青海',
 '台湾',
 '内蒙古',
 '广西',
 '西藏',
 '宁夏',
 '新疆',
 '香港',
 '澳门']
def get_city(address):
    for i in pro_list:
        if i in address:
            city=address.replace(i,'')
            if len(city)==0:
                city=i
            return city

def get_province(address):
    for i in pro_list:
        if i in address:
            province=i
            return province

df['发货城市']=df['发货地址'].apply(get_city)
df['发货省份']=df['发货地址'].apply(get_province)

价格分箱

import matplotlib.pyplot as plt
price_=df['商品现价'].value_counts().sort_index()
plt.plot(price_.index,price_)

发现价格大致以 1000 元为一个等级，呈现分区分布；
于是创建价格等级字段，以便后续进行分析；

def get_price_level(p):
    level=p//1000
    if level==0:
        return '0~999'
    if level==1:
        return '1000~1999'
    if level==2:
        return '1999~2999'
    if level==3:
        return '2999~3999'
    if level==4:
        return '3999~4999'
    if level>=5:
        return '5000+'
    else:
        return '计算出错'
df['价格等级']=df['商品现价'].apply(get_price_level)

手机参数信息提取

手机参数信息以字典形式保存，创建一个函数，将每个键值对提取出来，以列的形式呈现；

target=['后置摄像头',
 '摄像头类型',
 '视频显示格式',
 '分辨率',
 '触摸屏类型',
 '屏幕尺寸',
 '网络类型',
 '网络模式',
 '键盘类型',
 '款式',
 '运行内存RAM',
 '存储容量',
 '品牌',
 '华为型号',
 '电池类型',
 '核心数',
 '机身颜色',
 '手机类型',
 '操作系统',
 'CPU品牌',
 '产品名称']
for t in target:
    def get_pram(p):
        for i in eval(p):
            if i['label']==t:
                return i['value']
    df[t]=df['商品参数'].apply(get_pram)

至此，数据清洗过程大致完成，后续借助Matplotlib 和 Tableau 进行简要的可视化分析

三、可视化分析

淘宝在售手机价格区间统计

plt.rcParams['font.family']=['Arial Unicode MS']
plt.figure(figsize=(10,5),dpi=200)

#发现手机原价数据有异常，进行清洗
df=df.drop(df[df['商品原价']>10000].index)

x=df['价格等级']
y=df.groupby('价格等级').count().reset_index

plt.hist(x,bins=12,color='green',align='mid')
plt.title('淘宝在售手机价格区间统计')
plt.xlabel('价格区间')
plt.ylabel('淘宝在售手机数')

plt.savefig('淘宝在售手机价格区间统计')
plt.show()

商品现价&原价对比

#先筛选评分 >4.5的具有分析意义的手机商品
df1=df[df['评分']>4.5]

price1=df1.groupby('品牌')['商品原价'].mean().reset_index()
labels=price1['品牌']

price1=price1['商品原价'].astype(int)
price2=df1.groupby('品牌')['商品现价'].mean().reset_index()
price2=price2['商品现价'].astype(int)

x = np.arange(len(labels))  
width = 0.4

fig, ax = plt.subplots(figsize=(40,20))
rects1 = ax.bar(x - width/2, price1, width, label='商品原价')
rects2 = ax.bar(x + width/2, price2, width, label='商品现价')
ax.set_ylabel('价格',fontsize=30)
ax.set_title('手机现价及原价对比',fontsize=50)
ax.set_xticks(x)
plt.xticks(rotation=90)
ax.set_xticklabels(labels)
ax.legend(fontsize=30)

#数据标签设置
def autolabel(rects):
    for rect in rects:
        height = rect.get_height()
        ax.annotate('{}'.format(height),
                    xy=(rect.get_x() + rect.get_width() / 2, height),
                    xytext=(0, 3),  # 3 points vertical offset
                    textcoords="offset points",
                    ha='center', va='bottom',fontsize=20)


autolabel(rects1)
autolabel(rects2)

plt.tick_params(labelsize=30)
labels = ax.get_xticklabels() + ax.get_yticklabels()

fig.tight_layout()

plt.savefig('手机销售现价&原价对比')
plt.show()

手机类型分布词云图

手机具体参数含有手机类型的参数，针对淘宝全网所有售卖手机的商品信息，提取包含手机类型的字段，对其类型进行清洗及统计，查看在售手机类型情况；

from wordcloud import WordCloud
from imageio import imread
plt.rcParams['font.family']=['Arial Unicode MS']

df=df[df['手机类型'].notnull()]
df['手机类型']=[i.replace('不祥','不详') for i in df['手机类型']]
df['手机类型']=[i.replace('不详4','不详') for i in df['手机类型']]
df['手机类型']=[i.replace('老年机','老人手机') for i in df['手机类型']]
df['手机类型']=[i.replace('老年手机','老人手机') for i in df['手机类型']]
df['手机类型']=[i.replace('功能机','功能手机') for i in df['手机类型']]
df['手机类型']=[i.replace('老人机','老人手机') for i in df['手机类型']]
df['手机类型']=[i.replace('4G+手机','4G手机') for i in df['手机类型']]
get_type=[i.split('\xa0') for i in df['手机类型'].tolist()]
phone_type=[]
for i in get_type:
    phone_type+=i
word_count=pd.Series(phone_type).value_counts()
font='/Users/zhaosiqi/Library/Fonts/simhei.ttf'
wc = WordCloud(max_words=100,
               scale=12,
               max_font_size=200,
               random_state=30,
               background_color='white',
               font_path=font)

wc2 = wc.fit_words(word_count)

plt.figure(figsize=(15,10))
plt.imshow(wc2)
plt.axis("off")
plt.show()
wc.to_file("手机类型词云图.png")

由此发现市面上在售手机大多为智能手机，且其拍照功能炙手可热，也成为商家销售的卖点；

而手机起步时代，对于手机的噱头，包括音乐手机、商务手机，女性手机等等，已不再成为卖点，市面上相关类型手机也逐渐下架；

绘制手机品牌词云图

word_count=pd.Series(df['品牌'].tolist()).value_counts()
font='/Users/zhaosiqi/Library/Fonts/simhei.ttf'
back_pic=imread('pic.jpg')
wc = WordCloud(max_words=100,
               scale=12,
               max_font_size=50,
               random_state=30,
               background_color='white',
               mask=back_pic,
               font_path=font)

wc2 = wc.fit_words(word_count)

plt.figure(figsize=(15,10))
plt.imshow(wc2)
plt.axis("off")
plt.show()
wc.to_file("手机品牌词云图.png")

国内销售市场上，销售量总体维持着以下情况：
华为、荣耀为第一梯队；
三星、小米、OPPO、Vivo、Apple 等品牌为第二梯队；
魅族、美图、飞利浦等品牌为第三梯队；
从第一款 Iphone 发布在国际市场上就保持着良好成绩的 Apple 公司，由于近年产品迭代速度较慢，且价格较贵，在国内销售情况并不十分突出；

--------------------以下图表由 Tableau 绘制-----------------

不同品牌手机总销量比较

此次爬取数据中并未包含总销售量数据，但根据淘宝的系统设置，无论买家是否主动评价，交易成功后将会自动留下评价信息，故在这里可以视‘累计评价数’为总销售量进行分析；

月销量气泡图

数据爬取时间为2019 年2月1日，则月销量代表爬取日期往前推 30 天，即 2019 年1 月全月的销售情况；
整体来看，荣耀、华为、小米、Vivo 占据了当月国内手机市场销售的半壁江山；

收藏量与价格分析

其中圆形图标大小代表该品牌手机的平均价格；
而条形图高低代表该品牌手机的收藏量；

不同价格等级总销量饼图

总销售额构成分析

TOP10 手机价格等级构成

各发货省不同价格等级销售情况

四、数据建模

此处尝试以月销量为目标值，利用各种回归模型进行建模，但预测效果均不太好，后续有其他尝试再进行更新；

#对屏幕尺寸进行处理，转化为浮点型，纳入特征值中
df=df[df['屏幕尺寸'].notnull()]
df['屏幕尺寸']=[float(i.replace('英寸','')) for i in df['屏幕尺寸']]

#绘制热力图
f=df[['商品现价','商品原价','库存','评分','收藏数','累计评价数','追评','屏幕尺寸','累计评价数','图片','月销量']]
target=df['月销量']
df['商品折扣']=df['商品现价']/df['商品原价']

corr=f.corr()
import seaborn as sns
plt.figure(figsize=(12,9))
sns.heatmap(corr,annot=True)
plt.show()

根据热力图相关信息，库存、收藏数、累计评价数、追评数、图片数等都与月销量有较强的相关性，故舍弃其他特征，暂时将这几个数据列为特征值进行建模分析；

features=df[['库存','收藏数','累计评价数','累计评价数','屏幕尺寸','商品折扣']]
from sklearn.preprocessing import StandardScaler,MinMaxScaler
from sklearn.linear_model import LinearRegression,Ridge
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

def model_test(estimators,x_train,x_test,y_train,y_test):
    for key,estimator in estimators.items():
        estimator.fit(x_train,y_train)
        y_predict=estimator.predict(x_test)
        mse=mean_squared_error(y_test,y_predict)
        print('----------------MSE of %s-------------'%(key),mse)
        scores=estimator.score(x_test,y_test)
        print('----------------Score of %s-------------'%(key),scores)
        print('\n')
        
estimators={}
estimators['Linear']=LinearRegression()
estimators['ridge'] = Ridge()
estimators['forest'] = RandomForestRegressor()
estimators['gbdt'] = GradientBoostingRegressor()
estimators['light'] = LGBMRegressor()
estimators['xgb'] = XGBRegressor()

x_train,x_test,y_train,y_test=train_test_split(features,target,test_size=0.25)    

std_x=StandardScaler()
std_y=StandardScaler()
x_train=std_x.fit_transform(x_train)
x_test=std_x.transform(x_test)
    
y_train=std_y.fit_transform(y_train.values.reshape(-1,1))
y_test=std_y.transform(y_test.values.reshape(-1,1))


model_test(estimators,x_train,x_test,y_train,y_test)

最后运行结果：
----------------MSE of Linear------------- 0.2444868135647999
----------------Score of Linear------------- 0.8342966651118264

----------------MSE of ridge------------- 0.2434147057213362
----------------Score of ridge------------- 0.8350232967138806

----------------MSE of forest------------- 0.581285474209155
----------------Score of forest------------- 0.6060280708228011

----------------MSE of gbdt------------- 0.7016777783281599
----------------Score of gbdt------------- 0.5244310063573885

----------------MSE of light------------- 0.745090845811169
----------------Score of light------------- 0.49500737424091323

----------------MSE of xgb------------- 0.7981978840571146
----------------Score of xgb------------- 0.4590135583983481

除线性回归及岭回归拟合效果较好外,其他模型没有比较好的得分,对特征进行多次增删调整后,也无太大变化;

五、文本分析

SnowNLP 情感分析

SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库。

这里主要用到 SnowNLP库中的情绪判断，用与判断买家评论信息的情绪；
该 API 返回值为为正面情绪的概率，越接近1表示正面情绪，越接近0表示负面情绪，例如：

text1 = '这部电影真心棒，全程无尿点'
text2 = '这部电影简直烂到爆'
s1 = SnowNLP(text1)
s2 = SnowNLP(text2)
print(text1, s1.sentiments) # 这部电影真心棒，全程无尿点 
0.9842572323704297
print(text2, s2.sentiments) # 这部电影简直烂到爆 
0.0566960891729531

此外 SnowNLP 还具有分词、词性标注（动词、名词等分类）、断句、拼音、繁转简、关键词抽取等功能；

本文中买家的评论信息可以用作情感分析的数据集，但由于全网评价条目过多，我们创建一个规则：
正面情绪概率>0.6 称之为积极情绪；
正面情绪概率<0.4 称之为消极情绪；
正面情绪概率<0.6 & >0.4 称之为平和情绪；

下面创建了一个函数，对 30 万余条评价，按指定列字段进行分类情感分析：

from snownlp import SnowNLP
cmt=pd.read_csv('comments.csv')
cmt=cmt.dropna(subset=['评价内容(content)'])
cmt.index=np.arange(len(cmt))
#创建分类标签的情感分析函数
def Marks_emotion(column,content):
    def emotion(content):
        s=[np.round(SnowNLP(i).sentiments,2) for i in content]
        positive=0
        negative=0
        smooth=0
        for i in s:
            if i >0.6:
                positive+=1
            elif i<0.4:
                negative+=1
            else:
                smooth+=1
        counts=positive+negative+smooth
        print('积极情绪',str(int(positive/counts*100))+'%')
        print('消极情绪',str(int(negative/counts*100))+'%')
        print('平和情绪',str(int(smooth/counts*100))+'%')   
    
    for i in df[column].unique():
        uid=df[df[column]==i]['商品ID']
        def funci(ID):
            for i in uid:
                if ID==i:
                    return True
            return False
        whether_ture=cmt['商品ID(id)'].apply(funci)
        comments=pd.Series(cmt[whether_ture][content])
        print(i,'情感分析结果：')
        emotion(comments)
        
        
Marks_emotion('品牌','评价内容(content)')

注：由于数据量过于庞大，上述代码需要至少1小时才能跑完，故如果只是用于测试，可以利用随机取数的方法，进行抽样分析，参考代码如下：

from snownlp import SnowNLP
cmt=pd.read_csv('comments.csv')
cmt=cmt.dropna(subset=['评价内容(content)'])
cmt.index=np.arange(len(cmt))
#创建分类标签的情感分析
def Marks_emotion(column,content):
    def emotion(content):
        s=[np.round(SnowNLP(i).sentiments,2) for i in content]
        positive=0
        negative=0
        smooth=0
        for i in s:
            if i >0.6:
                positive+=1
            elif i<0.4:
                negative+=1
            else:
                smooth+=1
        counts=positive+negative+smooth
        print('积极情绪',str(int(positive/counts*100))+'%')
        print('消极情绪',str(int(negative/counts*100))+'%')
        print('平和情绪',str(int(smooth/counts*100))+'%')   
    
    for i in df[column].unique():
        uid=df[df[column]==i]['商品ID']
        def funci(ID):
            for i in uid:
                if ID==i:
                    return True
            return False
        whether_ture=cmt['商品ID(id)'].apply(funci)
        comments=pd.Series(cmt[whether_ture][content])
        if len(comments)>1000:
            index=np.random.randint(1,len(comments),1000)
            comments=comments.iloc[index]
            print(i,'品牌手机情感分析结果：')
            emotion(comments)
                
Marks_emotion('品牌','评价内容(content)')

输出结果如下：
Huawei/华为品牌手机情感分析结果：
积极情绪 75%
消极情绪 17%
平和情绪 6%

纽曼品牌手机情感分析结果：
积极情绪 76%
消极情绪 14%
平和情绪 9%

Meizu/魅族品牌手机情感分析结果：
积极情绪 68%
消极情绪 24%
平和情绪 6%

Samsung/三星品牌手机情感分析结果：
积极情绪 65%
消极情绪 26%
平和情绪 8%

DOOV/朵唯品牌手机情感分析结果：
积极情绪 88%
消极情绪 8%
平和情绪 3%

Philips/飞利浦品牌手机情感分析结果：
积极情绪 78%
消极情绪 14%
平和情绪 7%

OPPO 品牌手机情感分析结果：
积极情绪 76%
消极情绪 17%
平和情绪 6%

honor/荣耀品牌手机情感分析结果：
积极情绪 72%
消极情绪 21%
平和情绪 6%

Xiaomi/小米品牌手机情感分析结果：
积极情绪 71%
消极情绪 21%
平和情绪 7%

Apple/苹果品牌手机情感分析结果：
积极情绪 59%
消极情绪 31%
平和情绪 9%

Nokia/诺基亚品牌手机情感分析结果：
积极情绪 68%
消极情绪 21%
平和情绪 9%

小辣椒品牌手机情感分析结果：
积极情绪 78%
消极情绪 15%
平和情绪 6%

守护宝品牌手机情感分析结果：
积极情绪 78%
消极情绪 14%
平和情绪 7%

Coolpad/酷派品牌手机情感分析结果：
积极情绪 85%
消极情绪 12%
平和情绪 2%

BIRD/波导品牌手机情感分析结果：
积极情绪 79%
消极情绪 13%
平和情绪 6%

K-Touch/天语品牌手机情感分析结果：
积极情绪 81%
消极情绪 13%
平和情绪 4%

vivo 品牌手机情感分析结果：
积极情绪 81%
消极情绪 12%
平和情绪 5%

UniscopE/优思品牌手机情感分析结果：
积极情绪 82%
消极情绪 10%
平和情绪 7%

Meitu/美图品牌手机情感分析结果：
积极情绪 79%
消极情绪 15%
平和情绪 4%

360 品牌手机情感分析结果：
积极情绪 73%
消极情绪 20%
平和情绪 6%

nubia/努比亚品牌手机情感分析结果：
积极情绪 74%
消极情绪 20%
平和情绪 5%

AGM(手机) 品牌手机情感分析结果：
积极情绪 73%
消极情绪 19%
平和情绪 6%

创星（手机）品牌手机情感分析结果：
积极情绪 75%
消极情绪 19%
平和情绪 5%

ZTE/中兴品牌手机情感分析结果：
积极情绪 74%
消极情绪 18%
平和情绪 6%

Konka/康佳品牌手机情感分析结果：
积极情绪 88%
消极情绪 6%
平和情绪 5%

索爱品牌手机情感分析结果：
积极情绪 85%
消极情绪 8%
平和情绪 6%

Haier/海尔品牌手机情感分析结果：
积极情绪 78%
消极情绪 13%
平和情绪 8%

Changhong/长虹品牌手机情感分析结果：
积极情绪 77%
消极情绪 15%
平和情绪 7%

SMARTISAN/锤子品牌手机情感分析结果：
积极情绪 78%
消极情绪 14%
平和情绪 7%

YEPEN/誉品品牌手机情感分析结果：
积极情绪 82%
消极情绪 12%
平和情绪 5%

OnePlus/一加品牌手机情感分析结果：
积极情绪 70%
消极情绪 20%
平和情绪 9%

21KE 品牌手机情感分析结果：
积极情绪 72%
消极情绪 18%
平和情绪 8%

几米品牌手机情感分析结果：
积极情绪 93%
消极情绪 3%
平和情绪 3%

LDA 主题模型

潜在狄利克雷模型（Latent Dirichlet Allocation）是贝叶斯学习的话题模型，是潜在语义分析的扩展，主要用于文本数据挖掘、图像处理等领域。

此处将模型封装为了一个函数，是为一个简单的引用。后续将进行 LDA 模型原理的详细讲解。

import jieba
import lda
from collections import Counter

string=open(r'stopwords.txt',encoding='utf-8').read()
filterwords=string.split('\n')

def word_cut(coms):
    b=[]
    for i in jieba.cut(coms):
        if i not in filterwords:
            b.append(i)
    return b
def get_vector(sentence,vocab):
    temp=[]
    for word in vocab:
        if word in sentence:
            temp.append(1)
        else:
            temp.append(0)
    return temp
def get_lda(params):
    corpora_words=[]
    for i in params:
        ss=word_cut(i)
        corpora_words.append(ss)
    words=[]
    for i in corpora_words:
        words+=i
    word_count=Counter(words)
    vocab=[]
    for word in word_count.keys():
        if word_count[word]>1:
            vocab.append(word)
    X=[]
    for se in corpora_words:
        X.append(get_vector(se,vocab))
    X=np.array(X)
    lda_model=lda.LDA(n_topics=10,n_iter=1500,random_state=1)
    lda_model.fit(X)
    topic_word=lda_model.topic_word_
    for i in range(5):
        index=np.argsort(topic_word[i])[::-1]
        print('主题',i,':',end='')
        for j in np.array(vocab)[index][0:10]:
            print(j,end=' ')
        print()
        
get_lda(pd.Series(cmt['评价内容(content)'].iloc[:1000]))

输出结果：
主题 0 :东西买好评评论特别天猫淘宝老板评价字
主题 1 :苏宁快递物流好手机不错买满意很快快
主题 2 :不错好值得手机质量购买买华为支持正品
主题 3 :买老人喜欢好不错挺声音手机妈妈机
主题 4 :手机送不错客服收到几天好评挺一段时间赞

你可能感兴趣的:(Python,实战分析)

使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
《Python实战进阶》No28: 使用 Paramiko 实现远程服务器管理带娃的IT创业者 Python实战进阶 python 服务器开发语言
No28:使用Paramiko实现远程服务器管理摘要在现代开发与运维中，远程服务器管理是必不可少的一环。通过SSH协议，我们可以安全地连接到远程服务器并执行各种操作。Python的Paramiko模块是一个强大的工具，能够帮助我们实现自动化任务，如代码部署、批量命令执行和文件传输。本集将深入讲解Paramiko的核心功能，并通过实战案例展示如何高效管理远程服务器。核心概念和知识点SSH协议的基本原
.gitlab-ci.yml 配置文件详解程序媛夏天 Git gitlab ci/cd .gitlab-ci.yml
个人主页：不爱吃糖的程序媛‍♂️作者简介：前端领域新星创作者、CSDN内容合伙人，专注于前端各领域技术，成长的路上共同学习共同进步，一起加油呀！✨系列专栏：前端面试宝典、JavaScript进阶、vue实战资料领取：前端进阶资料以及文中源码可以在公众号“不爱吃糖的程序媛”领取git工具文档说明：https://docs.gitlab.com/ee/ci/yaml/gitlab_ci_yaml.ht
python八股（—） --FBV，CBV suohanfjiusbis 数据库 python
引言FBV是面向函数的视图。defFBV(request):ifrequest.method=='GET':returnHttpResponse("GET")elifrequest.method=='POST':returnHttpResponse("POST")CBV是面向类的视图。classCBV(View):defget(self,request):returnHttpResponse("G
新书速览|云原生Kubernetes自动化运维实践全栈开发圈云原生运维 kubernetes
《云原生Kubernetes自动化运维实践》本书内容：《云原生Kubernetes自动化运维实践》以一名大型企业集群运维工程师的实战经验为基础，全面系统地阐述Kubernetes（K8s）在自动化运维领域的技术应用。《云原生Kubernetes自动化运维实践》共16章，内容由浅入深，逐步揭示K8s的原理及实际操作技巧。第1章引领读者踏入Kubernetes的世界，详细介绍其起源、核心组件的概念以及
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
【纯职业小组——思维】 Kent_J_Truman 蓝桥杯算法
题目思路第十五届蓝桥杯省赛PythonB组H题【纯职业小组】题解（AC）_蓝桥杯纯职业小组-CSDN博客代码#includeusingnamespacestd;usingll=longlong;intmain(){ios::sync_with_stdio(0);cin.tie(0);intt;cin>>t;while(t--){intn;llk;cin>>n>>k;unordered_maph;f
第十五届蓝桥杯省赛PythonB组B题【数字串个数】题解（AC）信奥郭老师蓝桥杯职场和发展
设n=10000n=10000n=10000。法一枚举333的个数以及777的个数，假设333的个数为iii，777的个数为jjj，那么非3,73,73,7的个数即为n−i−jn-i-jn−i−j。在长度为nnn的字符串中选取iii的方案数为CniC^i_nCni，在剩余n−in-in−i个位置选取jjj个的方案数为Cn−ijC^j_{n-i}Cn−ij，剩余位置个数为n−i−jn-i-jn−i−
WRF移动嵌套结合伏羲模型与CFD（PALM）高精度多尺度降尺度分析研究 Hardess-god WRF 算法人工智能
随着大气科学与数值模拟技术的发展，高精度多尺度气象模拟日益成为科研与应用的热点问题。本文将详细介绍如何使用WRF移动嵌套技术结合伏羲（Fuxi）模型，并通过CFD模型PALM实现精细化降尺度，以满足城市或区域局地精细化气象预报的需求。1.技术路线概述WRF移动嵌套（MovingNesting）：动态调整高分辨率嵌套网格位置，追踪天气系统（如台风、强对流系统）以提高局地预报精度。伏羲（Fuxi）模型
ModuleNotFoundError: No module named ‘h5py‘ Hardess-god python
到ModuleNotFoundError:Nomodulenamed'h5py'错误表明Python环境中没有安装h5py模块。h5py是一个用于处理HDF5二进制数据格式的Python接口，广泛用于大规模存储和操纵数据。解决方案：安装h5py要解决这个问题，你需要在你的Python环境中安装h5py。以下是如何在不同环境中安装h5py的步骤：使用pip安装如果你使用的是pip包管理器，可以通过以
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
CSP-J备考冲刺必刷题（C++） | AcWing 1253 家谱热爱编程的通信人 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】Acwing：1253.家谱-AcWing题库
“三分钟”带你看懂批次管理!（一） wms系统
一、批次管理的定义与重要性1.批次管理的定义：批次管理是一种针对产品或物料的管理方法，它将同一生产周期或相同条件下生产、具有一致质量特征、生产信息和使用属性的产品组作为一个批次，进行分类、标识、追踪和管理。2.批次管理的重要性：提高可追溯性：精准追踪物料和产品的来源、去向及生命周期，在质量问题或召回需求出现时，能快速锁定问题批次，降低损失。增强质量控制：监控不同批次产品的质量指标，及时发现和分析质
分析K8S中Node状态为`NotReady`问题网络飞鸥 Kubernetes kubernetes 容器云原生
在Kubernetes（k8s）集群中，Node状态为NotReady通常意味着节点上存在某些问题，下面为你分析正常情况下节点应运行的容器以及解决NotReady状态的方法。正常情况下Node节点应运行的容器1.kubeletkubelet是节点上的核心组件，它负责与控制平面通信，管理节点上的容器生命周期。它通常作为系统服务运行，而不是以容器形式存在，但也有使用容器化部署的情况。2.kube-pr
行业分析---小米汽车2024全年财报智能汽车人人工智能行业研究汽车自动驾驶
1背景其实，关于小米汽车，笔者之前已经多次介绍过了，包括小米汽车成功的原因、智驾进展以及雷军个人的魅力，见博客《自动驾驶---小米汽车智驾进展》和《微自传系列---雷军》。小米汽车取得的成绩，出乎很多人的意料，其它新势力车企花了5---10年的时间，小米汽车三年就成功造出了第一辆车，在小米SU7月销2万+的同时，获得了非常不错的口碑。并且在刚刚发布的财报中，小米汽车在第一个完整财年的财务表现也是相
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
蓝桥杯2024年第十五届省赛真题-魔法巡游（Python）罄竹_ python刷题 python 蓝桥杯算法
前言本文参考了FJ_EYoungOneC的文章思路，并且修改了该文章的某些理解上的偏差。一、题目题目来源：dotcpp题目描述在蓝桥王国中，两位魔法使者，小蓝与小桥，肩负着维护时空秩序的使命。他们每人分别持有N个符文石，这些石头被赋予了强大的力量，每一块上都刻有一个介于1到109之间的数字符号。小蓝的符文石集合标记为s1,s2,...,sN，小桥的则为t1,t2,...,tN。两位魔法使者的任务是
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
想使用dify实现docx文档的自动生成？试了一圈，感觉还是根据python-docx更靠谱几道之旅人工智能智能体及数字员工人工智能
前言：文档自动生成的需求痛点在软件开发过程中，需求文档、设计文档等材料的编写是每个开发者都绕不开的工作。最近笔者接到一个需要批量生成标准化需求文档的任务，尝试了目前热门的低代码工具Dify后，发现对于稍微复杂格式的文档生成需求（例如文本居中这么简单的需求），最终还是回归到基于python-docx库的解决方案。本文将分享两种技术路线的对比实践。一、Dify的踩坑经历我尝试了markdown转doc
MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导阿正的梦工坊 Machine Learning Deep Learning 分类人工智能深度学习机器学习
下面是MSE不适合分类任务的解释，包含梯度推导。以及交叉熵的梯度推导。前文请移步笔者的另一篇博客：大模型训练为什么选择交叉熵损失（Cross-EntropyLoss）：均方误差（MSE）和交叉熵损失的深入对比MSE分类时梯度消失的问题详解我们深入探讨MSE（均方误差）的梯度特性，结合公式推导和分析，解释为什么在预测值接近0或1时梯度趋于0，以及这背后的含义。我会尽量保持清晰且严谨，适合高理论水平的
python中列表排序 hedgehog" python python list
Python中列表的排序方法1.sort()方法2.sorted()方法========================================1.sort()函数，无返回值主要参数：（1）key:用来进行比较的元素，指定可迭代对象的一个元素作为参数来进行排序。（2）reverse:排序规则。reverse=True降序排序reverse=False升序排序（默认）示例1：list1=[5
OpenHarmony 开源硬件学习全指南：从入门到实战琢磨先生David 开源 harmonyos
OpenHarmony开源硬件学习全指南：从入门到实战随着万物互联时代的到来，OpenHarmony作为面向全场景的开源分布式操作系统，正逐步成为智能硬件开发的重要技术底座。本文将系统性地解析OpenHarmony开源硬件的学习路径、开发工具链及行业实践方案，为开发者提供从环境搭建到项目落地的完整指引。一、构建开发环境：混合平台的智慧选择OpenHarmony采用Windows与Linux混合开发
python 列表排序 rainynights Python
在我们实际使用中，对于列表的操作是十分常见的。对于列表的数据，在很多特殊的情况下我们需要对列表内的数据进行排列以达到我们特定的显示需求。今天，我们一起看一下python中关于列表排序的一些知识。有些时候我们希望对列表进行排序后，列表可以保存我们排序后的结果，但是很多情况下我们只是希望通过列表的排序，临时的显示排序结果而已。所以对于列表的排序可以分为永久性的排序和临时性的排序。sort()sort(
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
华为OD机试 - 相对开音节 - 正则表达式（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 正则表达式 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述相对开音节构成的结构为辅音+元音（aeiou）+辅音(r除外)+
华为OD机试 - 数列描述 - 动态规划（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 动态规划 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一个数列a[N](N=60)，从a[0]开始，每一项都是一个数
华为OD机试 - 输出单向链表中倒数第k个结点 - 双指针（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 链表 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述输入一个单向链表，输出该链表中倒数第k个结点，链表的倒数第1个结
华为OD机试 - 图片整理（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述Lily上课时使用字母数字图片教小朋友们学习英语单词，每次都需要
华为OD机试 - 宜居星球改造计划 - 图的多源BFS（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述2XXX年，人类通过对火星的大气进行宜居改造分析，使得火星已在理
华为OD机试 - 红黑图（Python/JS/C/C++ 2023 B卷100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述众所周知红黑树是一种平衡树，它最突出的特性就是不能有两个相邻的红
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的