Raymone_

数据分析与挖掘：电子商务网站用户行为分析及服务推荐

电子商务网站用户行为分析及服务推荐

1. 背景与挖掘目标
2. 分析方法与过程

2.1 数据抽取
2.2 数据探索
2.3 数据预处理
2.4 模型构建

1. 背景与挖掘目标

项目为《Python 数据分析与挖掘实战》第 12 章：电子商务网站用户行为分析及服务推荐，内容参考了书中源代码及 u012063773 的博客
项目目标为利用大量的用户访问记录，分析用户访问习惯，对用户进行相关服务页面的推荐

2. 分析方法与过程

2.1 数据抽取

访问 MySQL，分块读取数据

'''访问数据库'''
import pandas as pd
from sqlalchemy import create_engine

# 每次读取数据库都要运行一次
engine = create_engine('mysql+pymysql://root:yeswedid631@localhost:3306/test?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize=10000)
data = pd.concat([i for i in sql])
data.head()

	realIP	realAreacode	userAgent	userOS	userID	clientID	timestamp	timestamp_format	pagePath	ymd	...	fullURLId	hostname	pageTitle	pageTitleCategoryId	pageTitleCategoryName	pageTitleKw	fullReferrer	fullReferrerURL	organicKeyword	source
0	2683657840	140100	Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.3...	Windows XP	785022225.1422973265	785022225.1422973265	1422973268278	2015-02-03 22:21:08	/info/hunyin/hunyinfagui/201404102884290_6.html	20150203	...	107001	www.lawtime.cn	广东省人口与计划生育条例全文2014 - 法律快车婚姻法	31	故意伤害	计划生育	None	None	None	None
1	973705742	140100	Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKi...	Windows 7	2048326726.1422973286	2048326726.1422973286	1422973268308	2015-02-03 22:21:08	/ask/exp/17199.html	20150203	...	1999001	www.lawtime.cn	非广州户籍人员可以在广州申请出入境证件吗？ - 法律快车法律经验	20	劳资纠纷	出入境	baidu	http://www.baidu.com/s?wd=%E9%9D%9E%E5%B9%BF%E...	非广州户籍人员怎么申请预约出入境	baidu
2	3104681075	140100	Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.3...	Windows XP	1639801603.1422973278	1639801603.1422973278	1422973277375	2015-02-03 22:21:17	/ask/question_3893276.html	20150203	...	101003	www.lawtime.cn	汽车碰撞自行车或两轮摩托车精确碰撞点的确定方法 - 法律快车法律咨询	26	定罪量刑	法律咨询	www.haosou.com/s	http://www.haosou.com/s?psid=e79d0155bed18bf4b...	None	www.haosou.com
3	308351962	140106	Mozilla/4.0 (compatible; MSIE 8.0; Windows NT ...	Windows XP	1597050740.1422973305	1597050740.1422973305	1422973282739	2015-02-03 22:21:22	/ask/question_5281741.html	20150203	...	101003	www.lawtime.cn	交通事故销案后不满意赔偿可以重新立案吗 - 法律快车法律咨询	12	伤害赔偿	法律咨询	baidu	http://www.baidu.com/s?word=%E4%BA%A4%E9%80%9A...	交通事故赔偿后交警要销案吗	baidu
4	2683657840	140100	Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.3...	Windows XP	785022225.1422973265	785022225.1422973265	1422973290048	2015-02-03 22:21:30	/info/hunyin/hunyinfagui/201404102884290_5.html	20150203	...	107001	www.lawtime.cn	广东省人口与计划生育条例全文2014 - 法律快车婚姻法	31	故意伤害	计划生育	None	None	None	None

5 rows × 21 columns

2.2 数据探索

1. 网页类型分析：由结果可见最多的为 101 类型（咨询相关），其次为 199 类型（其他），然后为 107（知识相关）

# 定义 DataFrame 索引重建和百分比计算函数
def process(df, col, index):
    df.columns = [col]
    df.index.name = index
    df['percent'] = df[col] / df[col].sum()
    return df

data['type'] = data['fullURLId'].apply(lambda x: x[:3])
counts = pd.DataFrame(data['type'].value_counts())
counts = process(counts, 'num', 'type')
counts

	num	percent
type
101	411665	0.491570
199	201426	0.240523
107	182900	0.218401
301	18430	0.022007
102	17357	0.020726
106	3957	0.004725
103	1715	0.002048

2. 咨询类别内部统计：96% 为 101003（咨询内容页），其次为 101002（咨询列表页）

counts_101 = pd.DataFrame(data['fullURLId'][data['type'] == '101'].value_counts())
counts_101 = process(counts_101, 'num', 'fullURLId')
counts_101

	num	percent
fullURLId
101003	396612	0.963434
101002	7776	0.018889
101001	5603	0.013611
101009	854	0.002075
101008	378	0.000918
101007	147	0.000357
101004	125	0.000304
101006	107	0.000260
101005	63	0.000153

3. 知识类别内部统计：107 内部只有一种类型，需根据网址对其进行分类，共 3 类，知识内容页，知识首页，知识列表页。由结果可知 90% 都是知识内容页

counts_107 = pd.DataFrame(data['fullURLId'][data['type'] == '107'].value_counts())
counts_107 = process(counts_107, 'num', 'fullURLId')
counts_107

	num	percent
fullURLId
107001	182900	1.0

j = data[['fullURL']][data['type'] == '107'].copy()
j['type'] = None
j['type'][j['fullURL'].str.contains('info/.+?/')] = '知识首页'
j['type'][j['fullURL'].str.contains('info/.+?/.+?')] = '知识列表页'
j['type'][j['fullURL'].str.contains('/\d+?_*\d+?\.html')] = '知识内容页'
j['type'].fillna('其他', inplace=True)
c107u = pd.DataFrame(j['type'].value_counts())
c107u = process(c107u, 'num', '网页类型')
c107u

	num	percent
网页类型
知识内容页	164243	0.897993
知识列表页	9656	0.052794
知识首页	9001	0.049213

4. 其他类型统计：包含很多法规专题、咨询类以及带？的内容

j = data[['fullURL']][data['type'] == '199'].copy()
j['type'] = None
j['type'][j['fullURL'].str.contains('\?')] = '带?'
j['type'][j['fullURL'].str.contains('/ask/')] = '其他咨询'
j['type'][j['fullURL'].str.contains('/faguizt/')] = '法规专题'
j['type'][j['fullURL'].str.contains('lawfirm')] = '律师事务所'
j['type'][j['fullURL'].str.contains('midques')] = '中间类型'
j['type'].fillna('其他', inplace=True)
c199u = pd.DataFrame(j['type'].value_counts())
c199u = process(c199u, 'num', '网页类型')
c199u

	num	percent
网页类型
其他	55450	0.275287
带?	53283	0.264529
法规专题	47403	0.235337
其他咨询	39415	0.195680
律师事务所	3839	0.019059
中间类型	2036	0.010108

5. 带？的统计：98% 为 1999001，需进一步分析其类型

# 带 ? 统计
j = data['fullURLId'][data['fullURL'].str.contains('\?')].value_counts()
c_q = pd.DataFrame(j)
c_q = process(c_q, 'num', 'fullURLId')
c_q

	num	percent
fullURLId
1999001	64718	0.988182
301001	356	0.005436
107001	346	0.005283
101003	47	0.000718
102002	25	0.000382

6. 带？的 1999001 统计：主要为律师助手、发布类等内容

# 带 ? 的 1999001 进一步分类
j = data[['pageTitle', 'fullURL']][data['fullURL'].str.contains('\?') & (data['fullURLId'] == '1999001')]
j['type'] = None
j['type'][j['pageTitle'].str.contains('快车-律师助手')] = '快车-律师助手'
j['type'][j['pageTitle'].str.contains('免费发布法律咨询')] = '免费发布法律咨询'
j['type'][j['pageTitle'].str.contains('咨询发布成功')] = '咨询发布成功'
j['type'][j['pageTitle'].str.contains('快搜')] = '快搜'
j['type'].fillna('其他', inplace=True)
c199q = pd.DataFrame(j['type'].value_counts())
c199q = process(c199q, 'num', '网页类型')
c199q

	num	percent
网页类型
快车-律师助手	49894	0.770945
免费发布法律咨询	6166	0.095275
咨询发布成功	5220	0.080658
快搜	1943	0.030023
其他	1495	0.023100

7. 瞎逛用户统计：即网页后缀不包含.html的

# 瞎逛用户（网页后缀不包含.html）
j = data['type'][data['fullURL'].str.contains('\.html') == False].value_counts()
cxg = pd.DataFrame(j)
cxg = process(cxg, 'num', '网页类型')
cxg

	num	percent
网页类型
199	117124	0.712307
107	17843	0.108515
102	17357	0.105559
101	7130	0.043362
106	3957	0.024065
301	1018	0.006191

8. 点击次数分析

各点击次数用户数统计：可以看出来大部分用户只点击 1 次，80% 的用户只贡献了 30% 的浏览量。对 7 次以上的数据进行分析，发现大部分为 8 ～ 100 次。

click = pd.DataFrame(data['realIP'].value_counts())
click.columns = ['点击次数']
click['用户数'] = 1
clcnt = click.groupby('点击次数').sum()
clcnt['用户百分比'] = clcnt['用户数'] / clcnt['用户数'].sum()
clcnt['记录百分比'] = clcnt['用户数'] * clcnt.index / len(data)
clcnt2 = clcnt.iloc[:7,:].T
clcnt2['>7'] = clcnt.iloc[7:,:].apply(sum)
clcnt2 = clcnt2.T
clcnt2

	用户数	用户百分比	记录百分比
点击次数
1	132119.0	0.574059	0.157763
2	44175.0	0.191941	0.105499
3	17573.0	0.076355	0.062952
4	10156.0	0.044128	0.048509
5	5952.0	0.025862	0.035536
6	4132.0	0.017954	0.029604
7	2632.0	0.011436	0.022000
>7	13410.0	0.058267	0.538136

# 7 次以上进一步分析
clcnt3 = pd.DataFrame()
clcnt3['8~100'] = [clcnt[(clcnt.index >=8) & (clcnt.index <= 100)]['用户数'].sum()]
clcnt3['100~1000'] = [clcnt[(clcnt.index > 100) & (clcnt.index <= 1000)]['用户数'].sum()]
clcnt3['>1000'] = [clcnt[clcnt.index > 1000]['用户数'].sum()]
clcnt3 = clcnt3.T
clcnt3.columns = ['用户数']
clcnt3

	用户数
8~100	12952
100~1000	439
>1000	19

浏览一次用户浏览网页类型统计：可以看到浏览 1 次的基本为问题咨询和知识页，这部分为高跳出率的网页，需对这些网页进行个性化推荐。

# 浏览一次用户浏览网页类型
one = click[click['点击次数'] == 1]
one.drop('用户数', inplace=True, axis=1)
one = pd.merge(one, data[['fullURL', 'fullURLId', 'realIP']], left_index=True, right_on='realIP', how='inner')

one['fullURLId'].value_counts()[:10]

101003     102560
107001      19443
1999001      9381
301001        515
102001         70
103003         45
101002         33
101001         28
102002         13
106001         13
Name: fullURLId, dtype: int64

9. 网页排名：统计以 .html 为结尾的网页点击率排名。另还统计了 101/107 网页的点击人数和点击次数，从而对比其平均点击率。

html = data[data['fullURL'].str.contains('\.html')]
html['fullURL'].value_counts()

http://www.lawtime.cn/faguizt/23.html                                 6503
http://www.lawtime.cn/info/hunyin/lhlawlhxy/20110707137693.html       4938
http://www.lawtime.cn/faguizt/9.html                                  4562
http://www.lawtime.cn/info/shuifa/slb/2012111978933.html              4495
http://www.lawtime.cn/faguizt/11.html                                 3976
                                                                      ... 
http://law.lawtime.cn/d383850388944_2_p1.html                            1
http://www.lawtime.cn/ask/question_1090226.html                          1
http://www.lawtime.cn/ask/question_5224562.html                          1
http://www.lawtime.cn/ask/question_8514045.html                          1
http://www.lawtime.cn/info/jiaotong/jtlawjtxgfg/2010122779762.html       1
Name: fullURL, Length: 293562, dtype: int64

# 107/101 点击次数统计
top2 = data[(data['type'] == '107') | (data['type'] == '101')][['type', 'realIP']]
top2.groupby('type').count()

	realIP
type
101	411665
107	182900

# 107/101 点击人数统计
top2.groupby('type')['realIP'].value_counts().unstack().T.count()

type
101    176407
107     56340
dtype: int64

翻页统计

html2 = data[data['fullURL'].str.contains('\d+_\d+\.html')].reset_index()
html2['fullURL'].value_counts()

http://www.lawtime.cn/info/hunyin/lhlawlhxy/20110707137693_2.html         3305
http://www.lawtime.cn/info/shuifa/slb/2012111978933_2.html                2161
http://www.lawtime.cn/info/minshi/fagui/2013051382463_4.html               653
http://www.lawtime.cn/info/hunyin/hunyinfagui/201411053308986_2.html       440
http://www.lawtime.cn/info/jiaotong/jtlawjtxgfg/201411273309942_3.html     377
                                                                          ... 
http://www.lawtime.cn/info/hetong/weiyuezeren/2010111175876_2.html           1
http://www.lawtime.cn/info/laodonghetongfa/jiedu/2008101130835_2.html        1
http://www.lawtime.cn/info/laodong/ldzygjfg/20110518102781_5.html            1
http://www.lawtime.cn/info/hetong/clht/20110302122331_20.html                1
http://www.lawtime.cn/info/laodong/gssgpc/2007020719219_2.html               1
Name: fullURL, Length: 13857, dtype: int64

mainsite = html2['fullURL'].drop_duplicates().apply(lambda x: x.split('_')[0])
mainsite.value_counts()

http://www.lawtime.cn/askzt/listview                                    63
http://www.lawtime.cn/info/hetong/htfalv/201312182875586                31
http://www.lawtime.cn/info/xingshisusongfa/falvfagui/201412113310776    29
http://www.lawtime.cn/info/hehuo/falvguiding/201012243286               25
http://www.lawtime.cn/info/xingfa/xingfaquanwenjiedu/20110408114513     24
                                                                        ..
http://www.lawtime.cn/zhishiku/jingjizhongcai/lvshi/2094                 1
http://www.lawtime.cn/info/xingfa/feifaxingyizui/20150408/3316284        1
http://www.lawtime.cn/info/shipin/info/shipin/dongtai/20110924184481     1
http://www.lawtime.cn/info/jiaotong/jtpcbz/201405072887732               1
http://www.lawtime.cn/info/fangdichan/fangchanshui/201401032876928       1
Name: fullURL, Length: 8841, dtype: int64

2.3 数据预处理

1. 数据清洗：根据上面的数据探索结果，删除无用的数据以及重复的数据

engine = create_engine('mysql+pymysql://root:yeswedid631@localhost:3306/test?charset=utf8mb4')
sql = pd.read_sql('all_gzdata', engine, chunksize=10000)
data = pd.concat([i for i in sql])    # len(data) = 837450

# 删除中间类型网页
rule1 = data['fullURL'].str.contains('midques_') == False
data = data[rule1]    # len(data) = 835414

# 删除律师的浏览信息（标题包含 '快车-律师助手'）
rule2 = data['pageTitle'].str.contains('快车-律师助手') == False
data = data[rule2]    # len(data) = 782535

# 删除咨询发布成功
rule3 = data['pageTitle'].str.contains('咨询发布成功') == False
data = data[rule3]    # len(data) = 777315

# 删除快搜
rule4 = data['pageTitle'].str.contains('快搜') == False
data = data[rule4]    # len(data) = 775302

# 删除免费发布法律咨询
rule5 = data['pageTitle'].str.contains('免费发布法律咨询') == False
data = data[rule5]    # len(data) = 765711

# 删除主网址不包含关键字的网页
data['fullURL'] = data['fullURL'].str.replace('\?.*','')    # 删除 ? 后面的内容，因为大部分 ? 前为原类型
rule6 = data['fullURL'].str.contains('lawtime')
data = data[rule6]    # len(data) = 765610

# 删除后缀不是.html 的
rule7 = data['fullURL'].str.contains('\.html')
data = data[rule7]    # len(data) = 670954

# 删除重复数据
data = data.drop_duplicates()    # len(data) = 669943

# 保存数据至数据库
data.to_sql('cleaned_gzdata', engine, index=False, if_exists='append')

2. 数据变换：去除翻页重复的网页，手动分类咨询与知识类别

import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:yeswedid631@localhost:3306/test?charset=utf8mb4')
sql = pd.read_sql('cleaned_gzdata', engine, chunksize=10000)
data = pd.concat([i for i in sql])    # len(data) = 669943

# 去除翻页重复的网页
data['fullURL'] = data['fullURL'].str.replace('_\d{0,2}.html', '.html')
data = data.drop_duplicates(['fullURL','userID'])    # len(data) = 534713

# 手动分类咨询与知识类别
data = data.copy()
data['type'] = 'else'
data['type'][data['fullURL'].str.contains('(ask)|(askzt)')] = 'ask'
data['type'][data['fullURL'].str.contains('(info)|(zhishi)|(faguizt)')] = 'info'

3. 属性规约：以婚姻数据为例，只保留用户和网页数据，并且删除掉只被点击了 3 次以下的数据

# 提取知识中的婚姻数据，并只保留用户、网页列
data2 = data[data['type'] == 'info']
data2 = data2[data2['fullURL'].str.contains('/hunyin/')]
data2 = data2[['realIP', 'fullURL']]    # len(data2) = 16884

# 提取点击次数 3 次及以上的数据
cnt = data2['fullURL'].value_counts()
data2 = pd.merge(data2, cnt, left_on='fullURL', right_index=True)
data2 = data2[data2['fullURL_y'] >= 3]
data2 = data2.drop('fullURL_x', axis=1)
data2.columns = ['网址', '用户', '点击次数']    # len(data2) = 12737

2.4 模型构建

网站推荐算法分为三种：协同过滤、随机推荐、欢迎度推荐。

1. 协同过滤：计算各网址间的相似度矩阵，使用杰拉德相似系数函数。推荐相似度高的网址给对应的用户

'''定义协同过滤算法模型'''
import numpy as np

def jaccard(a, b):    # 自定义杰拉德相似系数函数，仅对 0-1 矩阵有效
    return 1.0 * (a * b).sum() / (a + b - a * b).sum()

class Recommender():    # 定义推荐模型
    
    sim = None    # 相似度矩阵
    
    def similarity(self, x, distance):    # 计算相似度矩阵方法
        y = np.ones((len(x), len(x)))
        for i in range(len(x)):
            for j in range(len(x)):
                y[i, j] = distance(x[i], x[j])
        return y
        
    def fit(self, x, distance=jaccard):    # 定义训练方法
        self.sim = self.similarity(x, distance)
        return self.sim
        
    def recommend(self, a):    # 推荐方法
        return np.dot(self.sim, a) * (1 - a)    # 1-a 的目的是过滤用户已点击过的内容

# 建立 0-1 矩阵
ones = pd.crosstab(data2['用户'], data2['网址'])    # 使用 pandas 的交叉表函数，默认统计方法为计数
ones[ones > 0] = 1

# 打乱数据，得到训练集和测试集
p = np.random.permutation(len(ones)) 
ones = ones.take(p)# 打乱数据

train = ones.iloc[:int(len(values) * 0.9),:]
test = ones.iloc[int(len(values) * 0.9):,:]
# 根据协同过滤模型，需进行转置
train_d = train.values.T    # train_d.shape = (856, 7882)
test_d = test.values.T    # test_d.shape = (856, 876)

# 训练模型，得到相似度矩阵
rc = Recommender()
sim = rc.fit(train_d)
sim_df = pd.DataFrame(sim)
sim_df.index = train.columns
sim_df.columns = train.columns
sim_df.head()

网址	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/2010091750425.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/2010120179468.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20110607134263.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20110908150795.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20111118161114.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20120112162743.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/201407083018858.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/201503133315426.html	http://www.lawtime.cn/info/hunyin/caichanfengexieyi/201503133315428.html	http://www.lawtime.cn/info/hunyin/caichangongzheng/2010102668596.html	...	http://www.lawtime.cn/info/hunyin/znfylawfyq/20120807164892.html	http://www.lawtime.cn/info/hunyin/znfylawfyq/201401062877110.html	http://www.lawtime.cn/info/hunyin/znfylawfyq/201401062877120.html	http://www.lawtime.cn/info/hunyin/znfylawfyq/201402182880772.html	http://www.lawtime.cn/info/hunyin/znfylawfyq/201402182880784.html	http://www.lawtime.cn/info/hunyin/znfylawfyq/201403312883880.html	http://www.lawtime.cn/zhishiku/hunyin/info/1770.html	http://www.lawtime.cn/zhishiku/hunyin/law/1770.html	http://www.lawtime.cn/zhishiku/hunyin/lvshi/1770.html	http://www.lawtime.cn/zhishiku/hunyin/zixun/1770.html
网址
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/2010091750425.html	1.0	0.0	0.0	0.0	0.0	0.0	0.125	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/2010120179468.html	0.0	1.0	0.0	0.0	0.0	0.0	0.000	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20110607134263.html	0.0	0.0	1.0	0.0	0.0	0.0	0.000	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20110908150795.html	0.0	0.0	0.0	1.0	0.0	0.0	0.000	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20111118161114.html	0.0	0.0	0.0	0.0	1.0	0.0	0.000	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

5 rows × 856 columns

# 计算推荐结果，输入参数为测试集
result = pd.DataFrame(rc.recommend(test_d))
result.index = test.columns
result.columns = test.index
result.head()

用户	1969390199	1925548251	474622523	1301834865	3629127438	2965930871	3947590926	1205624432	3629613687	308839031	...	1996242490	2412541809	4260338190	1734551867	3531176462	1872397175	176046007	1163400658	358904846	1413636208
网址
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/2010091750425.html	0.000000	0.000000	0.000000	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	...	0.0	0.0	0.000000	0.0	0.000000	0.000000	0.0	0.000000	0.000000	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/2010120179468.html	0.000000	0.000000	0.000000	0.0	0.000000	0.002288	0.0	0.0	0.0	0.013514	...	0.0	0.0	0.000000	0.0	0.002288	0.002288	0.0	0.000000	0.000000	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20110607134263.html	0.001624	0.001624	0.000000	0.0	0.001624	0.002217	0.0	0.0	0.0	0.000000	...	0.0	0.0	0.000000	0.0	0.002217	0.002217	0.0	0.001624	0.000000	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20110908150795.html	0.000326	0.000326	0.000000	0.0	0.000326	0.000000	0.0	0.0	0.0	0.000000	...	0.0	0.0	0.000000	0.0	0.000000	0.000000	0.0	0.000326	0.000000	0.0
http://www.lawtime.cn/info/hunyin/caichanfengexieyi/20111118161114.html	0.000324	0.000324	0.002381	0.0	0.000324	0.002212	0.0	0.0	0.0	0.000000	...	0.0	0.0	0.002381	0.0	0.002212	0.002212	0.0	0.000324	0.002381	0.0

5 rows × 876 columns

# 定义协同推荐函数，向用户推荐 K 个网址，这里假定 K=3
def give_result(recom, K=3):
    recom.fillna(0.0, inplace=True)    # 填充缺失值
    recommends = ['推荐'+str(y) for y in range(1, K+1)]    # 推荐列名
    result = pd.DataFrame([],index = recom.columns, columns = recommends)    # 初始化推荐结果
    for i in range(len(recom.columns)):    # i 为第 i 个用户
        temp = recom.sort_values(by = recom.columns[i], ascending = False)
        k = 0 
        while k < K:
            result.iloc[i,k] = temp.index[k]
            if temp.iloc[k,i] == 0.0:    # 推荐度为 0 则从这里开始推荐内容为空
                result.iloc[i,k:K] = np.nan
                break
            k = k+1
 
    return result

recom_result = give_result(result)
recom_result.head()

	推荐1	推荐2	推荐3
用户
1969390199	http://www.lawtime.cn/info/hunyin/lihunshouxu/...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...
1925548251	http://www.lawtime.cn/info/hunyin/lihunshouxu/...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...
474622523	http://www.lawtime.cn/info/hunyin/hunyinfagui/...	http://www.lawtime.cn/info/hunyin/jihuashengyu...	http://www.lawtime.cn/info/hunyin/jihuashengyu...
1301834865	http://www.lawtime.cn/info/hunyin/jiehun/hunji...	http://www.lawtime.cn/info/hunyin/jiehun/hunji...	http://www.lawtime.cn/info/hunyin/jiehun/hunji...
3629127438	http://www.lawtime.cn/info/hunyin/lihunshouxu/...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...

2. 随机推荐算法：从用户未点击的网页中随机推荐

# 定义随机推荐函数，向用户推荐 K 个网址，这里假定 K=3
not_click = 1 - test    # 得到test集中用户未点击df
not_click = not_click.T

def rand_recom(recom, K=3):
    import random
    import numpy as np
    
    recommends = ['推荐'+str(y) for y in range(1, K+1)]
    result = pd.DataFrame([],index = recom.columns, columns = recommends)
    for i in range(len(recom.columns)):    # i 为第 i 个用户
        current_col = recom.iloc[:, i]
        sites = current_col[current_col != 0]
        if len(sites) == 0:    # 用户没有未点击过的网页
            result.iloc[i, :] = None
        elif len(sites) < K:    # 用户未点击过的网页数小于推荐数
            result.iloc[i, :len(sites)] = sites.index
            result.iloc[i, len(sites):] = None
        else:
            result.iloc[i,:] =  random.sample(list(sites.index), K)
    return result

rand_result = rand_recom(not_click)
rand_result.head()

	推荐1	推荐2	推荐3
用户
1969390199	http://www.lawtime.cn/info/hunyin/jiehundengji...	http://www.lawtime.cn/info/hunyin/jclawjicheng...	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...
1925548251	http://www.lawtime.cn/info/hunyin/ccfglhccfg/2...	http://www.lawtime.cn/info/hunyin/jiehun/hunji...	http://www.lawtime.cn/info/hunyin/lhlawlhss/20...
474622523	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...	http://www.lawtime.cn/info/hunyin/xueqin/nizhi...	http://www.lawtime.cn/info/hunyin/jichengquans...
1301834865	http://www.lawtime.cn/info/hunyin/jihuashengyu...	http://www.lawtime.cn/info/hunyin/yichanfenpei...	http://www.lawtime.cn/info/hunyin/hynews/20150...
3629127438	http://www.lawtime.cn/info/hunyin/shanyangyiwu...	http://www.lawtime.cn/info/hunyin/fenji/fenjiz...	http://www.lawtime.cn/info/hunyin/hunyinfagui/...

3. 根据网页的欢迎度进行推荐，即推荐点击次数前 K 的网页。

# 定义欢迎度推荐函数，向用户推荐 K 个网址，这里假定 K=3
def pop_recom(recom, K=3):
    recommends = ['推荐'+str(y) for y in range(1, K+1)]
    result = pd.DataFrame([],index = recom.columns, columns = recommends)
    for i in range(len(recom.columns)):    # i 为第 i 个用户
        current_col = recom.iloc[:, i]
        sites = current_col[current_col != 0]
        if len(sites) == 0:    # 用户没有未点击过的网页
            result.iloc[i, :] = None
        elif len(sites) < K:    # 用户未点击过的网页数小于推荐数
            result.iloc[i, :len(sites)] = sites.index
            result.iloc[i, len(sites):] = None
        else:
            result.iloc[i,:] =  sites.index[:K]
    return result

popular_index = test.apply(lambda x: x.sum()).sort_values(ascending=False).index
popular = 1 - test.T.reindex(popular_index)

pop_result = pop_recom(popular)
pop_result.head()

	推荐1	推荐2	推荐3
用户
1969390199	http://www.lawtime.cn/info/hunyin/hunyinfagui/...	http://www.lawtime.cn/info/hunyin/jihuashengyu...	http://www.lawtime.cn/info/hunyin/jihuashengyu...
1925548251	http://www.lawtime.cn/info/hunyin/hunyinfagui/...	http://www.lawtime.cn/info/hunyin/jihuashengyu...	http://www.lawtime.cn/info/hunyin/jihuashengyu...
474622523	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...	http://www.lawtime.cn/info/hunyin/hunyinfagui/...	http://www.lawtime.cn/info/hunyin/jihuashengyu...
1301834865	http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...	http://www.lawtime.cn/info/hunyin/hunyinfagui/...	http://www.lawtime.cn/info/hunyin/jihuashengyu...
3629127438	http://www.lawtime.cn/info/hunyin/hunyinfagui/...	http://www.lawtime.cn/info/hunyin/jihuashengyu...	http://www.lawtime.cn/info/hunyin/jihuashengyu...

备注：推荐算法中推荐的网址是用户未点击过的网址，因此用户是否喜欢或者说用户是否会浏览该网址不得而知，因此模型评价暂时无法进行，需要得到用户喜好数据集才能进行评价。源代码及数据文件参考：https://github.com/Raymone23/Data-Mining

你可能感兴趣的:(项目)

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
快乐春节 Lilywo
春节肯定是大多小朋友都喜欢的节日吧，因为春节的娱乐项目可多啦，下面我就带大家去看一看某些娱乐项目吧！第一件肯定就是穿新衣啦！因为辞旧迎新，一年过去了，要迎来新的一年。所以过年穿新衣也是一项习俗吧；第二件，收压岁钱。压岁钱大家都知道吧，过年的时候，小朋友们肯定都会受到大人们的压岁钱吧，对啦！大家知道为什么亲人们会给我们压岁钱呢？答案是因为亲人们希望我们在新的一年里可以健健康康、平平安安，幸福福的生活
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
项目：事半功倍的法宝小小效能
行动的三大流程：记录、排程和执行，也讲了易效能的4D原则以及T-step标签法。这些流程和方法能够解决我们眼前的一地鸡毛，让我们有更多时间和精力去关注更为长远的事情，完成工作、生活和人生中重要的项目。项目管理能够让我们围绕结果去做事情，达成事半功倍的效果，也就是做更少的事情，但达成更好的效果。如果我们能够不断地达成一个又一个的项目，那么我们的人生无疑会像滚雪球一样，在长坡道上面不断积累。一、项目的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。