yungaroo

python爬取书籍数据并利用spark进行书籍推荐

abstruct: 作为课程作业，下面的内容是利用爬虫爬取D瓣书籍数据并用spark进行书籍推荐。实际使用了MF(Matrix factorizaion)矩阵分解模型和FM（Factor Machine因子分解机）两个模型进行测试，并给出了他们的关系和区别。

文章目录

套话
算法简介
- 基于矩阵分解的思路：FunkSvd 模型
- - 损失函数
  - 优化
- 基于回归的思路：FM 模型
- - MF与FM的关系
  - 优化
爬虫
- 爬取页面
- 爬虫1的结果
- 爬取页面新书速递
- 爬虫2的结果
- 爬取具体用户评分
- - 去重
  - 爬取评论
- 爬虫3结果
数据清洗和处理
- 制作评分矩阵
使用spark
- 前：安装等等
- 训练：Funksvd（MF）
- 训练：FM
- 评估
- - MF评估
  - FM评估
模型推荐演示

套话

推荐系统也是信息过滤系统，即为用户过滤出个性化的信息搜索结果。从这一领域发展历史而言，可以分为 基于内容推荐以及 协同过滤两大类。基于内容的过滤规则从物体出发，比如说文档的基于内容过滤一般采用匹配关键词方式，视匹配度高的文档内容更加相似。此种种方法属于传统的信息过滤技术。协同过滤则是目前推荐系统中应用较多的技术，皮尔逊相关系数、余弦相似度算法、最近邻算法、贝叶斯算法、K-means 聚类算法等都应用到邮件过滤、电影推荐、电子商务、新闻推荐、文献资料推荐、商场推荐、旅游推荐等相关领域中。

推荐系统的核心是推荐算法。通过分析用户的历史数据信息，去预测用户对未知项目信息的喜好程度，在商品推荐系统中，产品的属性、客户的兴趣和偏好、同类客户对产品的评价等三要素共同决定了客户对产品的喜好程度，最终作为推荐系统考量的重要指标。

本文使用协同过滤的技术。协同过滤（Collabortive Filtering），通过用户和产品以及用户的偏好信息产生推荐产品的策略。基本的有两种：一是找到相同喜好的人所钟爱的产品，即基于用户的推荐。另一种是根据一个人喜欢的产品推荐类似的产品，即基于产品的推荐。利用用户以及物品的信息来预测用户的喜好，并且发觉用户可能会喜欢的类似产品或者是喜欢产品的相关产品，这就是协同过滤的核心思想。

算法简介

基于矩阵分解的思路：FunkSvd 模型

基于矩阵分解的推荐算法的核心假设是用隐语义（隐变量）来表达用户和物品，他们的乘积关系就成为了原始的元素。这种假设之所以成立，是因为我们认为实际的交互数据是由一系列的隐变量的影响下产生的（通常隐变量带有统计分布的假设，就是隐变量之间，或者隐变量和显式变量之间的关系，我们往往认为是由某种分布产生的。），这些隐变量代表了用户和物品一部分共有的特征，在物品身上表现为属性特征，在用户身上表现为偏好特征，只不过这些因子并不具有实际意义，也不一定具有非常好的可解释性、每一个维度也没有确定的标签名字，所以才会叫做“隐变量”。而矩阵分解后得到的两个包含隐变量的小矩阵，一个代表用户的隐含特征，一个代表物品的隐含特征，矩阵的元素值代表着相应用户或物品对各项隐因子的符合程度，有正面的也有负面的。

这种分解的思路我们就能立刻想到SVD，也就是奇异值分解。这样得到的三个矩阵就是物品与物品、用户与用户、用户与物品之间的隐联系。隐语义模型最经典的实现是 FunkSvd，他是在传统 SVD 面临计算效率问题时提出来的，既然将一个矩阵做 SVD 分解成 3 个矩阵很耗时，同时还面临稀疏的问题，FunkSVD 选择只分解成两个矩阵：

$R_{ate} = U_{serfactormatrix}I_{temfactormatrix}$
即用户 i 对 j 的评分被认为是这样得到的：用户因子矩阵 U 的第 i 行（代表第 i 个用户）点乘物体因子矩
阵 I 的第 j 列（代表第 j 个物体）。为了统一行列起见，写作
$R = U^TI$

损失函数

因此，一个迅速的思路是对损失函数
$\mathbb{L} = \sum D_{ij}(R_{ij} - U_i^T I_j)$ 优化。
其中 $D_{ij} = 1$ ,如果 $R_{ij}$ 有评分，否则是0。
现在我们选用所谓RMSE作为最后的评定标准，即
$\mathbb{L} = \sqrt{\frac{\sum_i^m\sum_j^n D_{ij}(R_{ij} - U_i^T I_j)^2}{m*n}}$ 进行评估，也等价于优化
$\mathbb{L} = \sum_i^m\sum_j^n D_{ij} (R_{ij} - U_i^T I_j)^2$
这种选择是基于一下原因做出的。只要假定用户对项目的真实评分和预测评分之间的差服从高斯分布，
即
$p(R_{ij} - U_i^T I_j|\delta) \sim \mathbf{N}(0,\delta^2)$ 等价于
$p(R_{ij}|U,I,\delta)\sim \mathbf{N}(U_i^T I_j,\delta^2)$
而似然函数
$p(R|U,I,\delta) = \prod_i^m\prod_j^n(D_{ij}\mathbf{N}(R_{ij}| U_i^T I_j,\delta^2))$ 最大化等价于最大化

$p(R|U,I,\delta) = -\frac{1}{2\delta^2}\sum_i^m\sum_j^n D_{ij}(R_{ij} - U_i^T I_j)^2 - \frac{1}{2}(\sum_i \sum_j D_{ij}(ln\delta^2 + ln 2\pi))$
最大化等价于最小化
$\mathbb{L} = \sum_i^m\sum_j^n D_{ij}(R_{ij} - U_i^T I_j)^2$
并加入正则项，就得到了我们最常见的损失函数：
$\mathbb{L} = \sum_i^m\sum_j^n D_{ij}(R_{ij} - U_i^T I_j)^2 + \lambda(\sum \Vert U_i\Vert_2^2+\sum \Vert I_j\Vert_2^2)$

优化

优化采用了交叉最小二乘法。在上面的损失函数中分别求偏导有
$\frac{\partial L}{\partial U_i} = -2(\sum_j D_{ij} I_j (R_{ij} - U_i^TI_j)) + 2 \lambda U_i$
$\frac{\partial L}{\partial I_j} = -2(\sum_i D_{ij} U_i (R_{ij} - U_i^TI_j)) + 2 \lambda I_j$
令右边为0分别有
$U_i = \frac{ \sum D_{ij} I_j R_{ij}}{\lambda+\sum I_jI_j^T}$
$I_j = \frac{ \sum D_{ij} U_i R_{ij}}{\lambda+\sum U_iU_i^T}$
选择 $\lambda$ 作为超参数，并在迭代一个超参数次停止。也可以使用GD或者SGD,因为数据量比较大

基于回归的思路：FM 模型

现在工业界常见的模型是FM模型，MF(Matrix factorizaion)，也就是上文提到的矩阵分解，可以看做是FM模型的一个特例。
该模型在2010年被提出，并在最近得到了广泛应用。

FM被视作线性回归的一种扩展。线性回归要求特征由人手动构造，并且没有进行特征的组合。与此对比，为了引入特征组合，对每一维特征 $x_{·,i}$ ，其对应的一个隐向量 $v_i$ ，定义 $w_{ij} =\langle v_i,v_j\rangle$ .FM的公式为：对于某个特征x，估计得到y是 $\hat{y}(x) = w_0+ \sum_i w_ix_i+\sum_i\sum_{j\ge i}w_{ij} x_ix_j$ 这一定义的合理性在于，实对称矩阵 $w_{ij})$ 可以被分解为 $V^TV$ (楚列斯基分解)(上面的公式中也可以加入正则化项以限制参数大小，Spark中的实现据文档应该是没有)。

即只要特征的两个维度 $x_i,x_j$ 同时出现过就能够学习到它的参数v。经过下面的优化，计算被简化到线性的复杂度。
对于 FM 而言，我们可以加任意多的特征，比如 user 的历史购买平均值，item 的历史购买平均值等。

MF与FM的关系

MF被视为是FM的一个特例，这是因为在FM中，将特征定义为User-id 和 Item-id 的 onehot 矩阵之连接，即如果第i个人推荐了第j个商品的话，定义特征是 $x_{i\&j} = [0,...,1,0,...,0,1,0...,0]$ ,其中第i个元素和第m+j个元素是1。因此有|U|+|V| = m+n个隐向量v，但是能学习的隐向量只有当 $x_ix_j\neq 0$ ,也就是|数据个数|个。得到的FM：
$\hat{y}(U = u,I = i) = w_0+w_u+w_{i+m}+\langle v_u,v_{m+i}\rangle$
对于该条特征,y的实际值是评分.而写成矩阵形式：
$\hat{Y} = [v_u]^T[v_{m+i}]+w_0+[w_u]+[w_{i+m}]$
即加入偏置 $w_u,w_{i+m}$ 的Y = UV。

优化

计算时用GD或者SGD进行优化，如果按 $\sum(y-\hat{y})$ 作为LOSS：
$\frac{\partial \hat{y}}{\partial \theta}=\left\{ \begin{aligned} &1,&\theta = w_0\\ &x_i,&\theta = w_i\\ &x_i\sum_j v_{j,f}x_j-v_{j,f}x_i^2, &\theta = v_{j,f}\\ \end{aligned} \right.$

爬虫

代码：主要用lxml库。自从知道lxml后再也不用正则了~ 爬虫需要注意的地方是DBan不允许爬很多，可能需要一些特殊方法。另外很多信息录入有误，格式也不统一（比如【】、[]之类），我们尽量修改，实在不行就unknown。
下文中，？？？？？？请替换为具体某站使用

爬取页面

# -*- coding: utf-8 -*-  
from logging import exception
from tokenize import group
import requests
import re
from lxml import etree
def read():
    list = []
    # 读cate.txt中的作为需要搜索的类别
    # 格式：
    # 小说
	# 历史
	# 文学

    with open("cate.txt",'r',encoding="utf-8") as c:
        while(1):
            line = c.readline()
            if(line==""): break
            line = line.strip("\n")
            list.append(line)
    base = "h t t p s:/ / b o o k.??? ???. c o m /tag/"
    file = open("data.txt","a",encoding="UTF-8")
    for j in range(len(list)):
   		# b:起始，p结束
        b = 1
        p = 100
        cats = list[j]
        url = base+cats
        for i in range(b,p):
            context = getcontext(url+"?start="+str(i*20-20)+"&type=T")
            _ = etree.HTML(context)
            data_list = _.xpath("//li[contains(@class,'subject-item')]")
            if(data_list == []): break;
            for data in data_list:
                #print("-" * 100)
                try:
                    book_link = data.xpath(".//h2/a/@href")[0].strip()
                    
                    book_name = data.xpath(".//h2/a/text()")[0].strip()
                    book_info = data.xpath(".//div[@class='pub']/text()")[0].strip()
                    score,score_numbers = readScore(data)
                    file.write( book_name+"\t"+
                    modifyInfo(book_info)+"\t"+
                    str(score)+"\t" +
                    str(score_numbers)+"\t" +
                    book_link+"\t"+cats+"\n")
                except:
                    print(i,book_name,book_info)
                    raise


    return 
# 在这里，防止@reply
# 读取评分
def readScore(data):
    score = data.xpath(".//div[@class='star clearfix']/span[1]/text()")
    if(score != []):
        # 那就一定是少于10
        if("少于" in score[0]): 
            score_numbers = 5
            score = -1
            
        elif ("无" in score[0]):
            score_numbers = 0
            score = 0
        return score,score_numbers  

    else :
        score = data.xpath(".//div[@class='star clearfix']/span[2]/text()")
        if(score != []):
            score = score[0].strip()
        else : 
            score = -1
        score_numbers = data.xpath(".//div[@class='star clearfix']/span[3]/text()")[0]
        score_numbers = re.findall("\d+",score_numbers)[0]
        
    return score,score_numbers

def getcontext(url):

    headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115'}
    pages =requests.get(url,headers = headers)

    print("Now,checking:"+url)
    pages.encoding = "utf-8"
    context = pages.text
    return context
# 修改info到合适的形式: 如果是 zh (en) .. ，删除en
def filtername(name:str)->str:
    _ = re.match("([\u0000-\uffff ]+)[绘编著主翻译注者]{1,2}",name)
    if(_ is not None):
        name = _.group(1)
    _ = re.match("([\u4e00-\u9fff •·]+)([ ]?[（(]?[^\u4e00-\u9fff]*)$",name)
    if(_ is not None):return _.group(1)
    return name
def modifyInfo(info:str):
    try:
        _ = info.replace("、"," / ").strip().split(" / ")
        nations = []
        names = []
        time = ""
        flag = 0
        if( _ ==[""]):return "unknown|unknown"+"\t"+"unknown"+"\t"
        elif(len(_)>3 and _[-2][0].isdigit()):
            flag = 1
            _[-3] = _[-2]
            _ = _[:-2]
            

        for entry in _:
            if(entry!="" and entry!=" "):

                if(entry[0].isdigit()): 
                    time = entry
                    break;

                if(entry[0] in "[{【（［("):
                    if("无" not in entry):
                        reg = "[\[（(［【{]([\u0000-\uffff_a-zA-Z0-9·]+)[\]}］)）】]+[ ]?([\u0000-\uffff _a-zA-Z0-9·]+)"
                        match = re.match(reg,entry)
                        name = filtername(match.group(2))
                        if(name not in names):
                            nations.append(match.group(1))
                            names.append(name)
                else : 
                    reg = "([\u0000-\uffff_a-zA-Z0-9· ]+)"
                    match = re.match(reg,entry)
                    name = filtername(match.group(1))
                    if(name not in names):
                        names.append(name)
                        
                        nations.append("中")   
        
        info = ""
        for k,v in zip(nations,names):
            info += k+"|"+v+"\t"
        if(flag == 0):
            time ="unknown"
        info += time
        #print(info)
        return info
    except:
        return ""
if __name__ == "__main__":
    #print(n)
    read()
    #n = filtername("中|拱玉书 译")
    #print(n)

爬虫1的结果

数据用\t分割，分别是名-作者-译者-时间-评分-评分人数-链接-分类。爬取了 77260 本。
[这里是一张具体的截图]
这些数据可以用来构造一些手工特征，FM算法等等可以用到。就MF算法的使用来看并不需要这么详细的数据（只要一个评分矩阵就可以）。
比如说“经典著作”“拉美文学”等等tag。

爬取页面新书速递

# -*- coding: utf-8 -*-  
import requests
import re
from lxml import etree
def read():
    list = ['全部','文学','小说','历史文化','社会纪实','科学新知']
    base = "ht t p s:/ / b o o k.？？？ ？？？. c o m/latest?subcat="
    file = open("newbook.txt","w+",encoding="UTF-8")
    for cats in list:
        url = base+cats
        for i in range(1,2):
            context = getcontext(url+"&p="+str(i))
            _ = etree.HTML(context)
            data_list = _.xpath("//li[contains(@class,'media clearfix')]")
            for data in data_list:
                #print("-" * 100)
                book_link = data.xpath(".//h2/a/@href")[0].strip()
                
                book_name = data.xpath(".//h2/a/text()")[0].strip()
                book_info = data.xpath(".//p[@class='subject-abstract color-gray']/text()")[0].strip()
                score = data.xpath(".//p[@class='clearfix w250']/span[2]/text()")
                if(score == []): score = -1
                else: score = score[0].strip()
                score_numbers = data.xpath(".//p[@class='clearfix w250']/span[3]/text()")[0]
                score_numbers = re.findall("\d+",score_numbers)[0]
                file.write( book_name+"\t"+
                 modifyInfo(book_info)+"\t"+
                 str(score)+"\t" +
                 score_numbers+"\t" +
                 book_link+"\n")


    return 
# 在这里，防止@reply
def getcontext(url):

    headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115'}
    pages =requests.get(url,headers = headers)

    print("Now,checking:"+url)
    pages.encoding = "utf-8"
    context = pages.text
    return context
# 修改info到合适的形式
def filtername(name:str)->str:
    _ = re.match("([\u4e00-\u9fff •·]+)[ ]?[（(]?[^\u4e00-\u9fff]+",name)
    if(_ is not None):return _.group(1)
    return name
def modifyInfo(info):
    _ = info.split(" / ")[:-2]
    nations = []
    names = []
    time = ""
    for entry in _:
        if(entry[0].isdigit()): 
            time = entry
            break;
        if(entry[0] in "[{【（［("):
            reg = "[\[（(［【{]([\u0000-\uffff_a-zA-Z0-9·]+)[\]}］)）】]+[ ]?([\u0000-\uffff _a-zA-Z0-9·]+)"
            match = re.match(reg,entry)
            name = filtername(match.group(2))
            if(name not in names):
                nations.append(match.group(1))
                names.append(name)
        else : 
            reg = "([\u0000-\uffff_a-zA-Z0-9· ]+)"
            match = re.match(reg,entry)
            name = filtername(match.group(1))
            if(name not in names):
                names.append(name)
                
                if(len(nations)>=1):
                        nations.append(nations[-1])    
                else:
                    nations.append("unknown")
        
    info = ""
    for k,v in zip(nations,names):
        info += k+"|"+v+"\t"
    info += time
    return info
if __name__ == "__main__":
	# 得到的格式如下
    a = "摄影:张靖 / / 东方出版社 / 2018-01-01 / 99.8 "
    read()

爬虫2的结果

这个数据比较少，因为他是新书。评分的人很少就难以开展协同过滤，只能使用基于内容的推荐等等。推荐的时候可以直接tag里面随机一些推荐。另外个人观点来看，新书这种东西就是用来随机的（笑）。

爬取具体用户评分

协同过滤还需要加入用户的评分。首先，我们需要去重。其次，选一些书作为总的推荐池子来爬取（全部也行，如果你有希望的话）。

去重


def makePoints():
    # 选择评分人>1000的书来做实验
    p = open("data.txt","w+",encoding="utf-8")
    
    with open("data_filtered.txt","r",encoding="utf-8") as f:
        count = 0
        while(1):
            count+=1
            line = f.readline()
            if(line == ""): break;
            linedata = line.split("\t")
            number = linedata[-3]
            if(int(number)>1000):
                p.write(line)

def filtersame():
# 如果书名和出版日期都一样就是一本书
    p = open("data_filtered.txt","r",encoding="utf-8")  
    f = open("newdata.txt","w+",encoding="utf-8")
    booklist = []  
    while(1):
        line = p.readline()
        if(line == ""): break;   
        linedata = line.split("\t")
        if(linedata[0]+linedata[-5] not in booklist):
            booklist.append(linedata[0]+linedata[-5])
            f.write(line)
filtersame()

爬取评论

#coding=utf-8
import requests
from lxml import etree
def get():
    rank = {"力荐":"5","推荐":"4","还行":"3","较差":"2","很差":"1"}
    dic = {}
    list = []
    # newdata.txt里存着链接书名
    with open("newdata.txt","r",encoding= "utf-8") as f:
        count = 0
        while(1):
            count += 1
            line = f.readline()
            if(line == ""): break;
            l = line.split("\t")[-2]
            list.append(l)
            dic[count] = l.split("/")[-2]
    people_id = 0
    dic_pname_id ={}
    allName = []
    book_id = 0
    p = open("user.txt","a",encoding="utf-8")
    try:
        for link in list:
            book_id+=1
            for i in range(0,30):
                url = "?start=%d&limit=20&status=P&sort=new_score"%(i*20)
                context = getcontext(link+"comments"+url)
                _ = etree.HTML(context)
                data_list = _.xpath("//li[contains(@class,'comment-item')]")
                if(data_list == []): break;
                for data in data_list:  
                    rate = data.xpath(".//div[@class='comment']/h3/span[2]/span[1]/@title")
                    if rate != []:
                        vote = data.xpath(".//div[@class='comment']/h3/span[1]/span[1]/text()")[0].strip()
                        rate = rate[0].strip()
                        name = data.xpath(".//div/a/@href")[0].strip().split("/")[-2]
                        time = data.xpath(".//div[@class='comment']/h3/span[2]/a[@class='comment-time']/text()")[0].strip()
                        this_id = 0
                        if(name not in allName): 
                            this_id = people_id
                            dic_pname_id[name] = people_id
                            allName.append(name)
                            people_id+=1 #下一个人的id
                        else: 
                            this_id = dic_pname_id.get(name)
                        
                        p.write(str(this_id)+"\t"+
                        dic.get(book_id)+"\t"
                        + rank.get(rate) + "\t"+ vote+"\t"+time+"\n")
    except:
        with open("10.txt","w+") as new_file:
            for k,v in dic_pname_id.item():
                new_file.write(k+"\t"+str(v)+"\n")
        p.flush()
        raise
    p.close()
def getcontext(url):
    headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115'}
    pages =requests.get(url,headers = headers)

    print("Now,checking:"+url)
    pages.encoding = "utf-8"
    context = pages.text
    return context
get()

爬虫3结果

用户 id 书籍 id 评分点赞人数时间
书籍id就是链接里的那个

数据清洗和处理

需要做两件事：

图书数据清理（我们已经做过了）
由于正则表达式的限制，在姓名一栏还有许多问题。例如跟着出版社信息、出现”… 译” 字样、国籍时有时无、【[]（混用）, 后两者是D瓣没有校验的缘故，这导致正则表达式再复杂也不能进行一次全部过滤。为了修正姓名，采用如下策略：
1. 过滤掉错误信息，如把出版社加入到作者
2. 将书名相同的多本书标识为同一实体，并按照投票方法得到这本书的作者、出版日期信息。投票方
  法指认为对同一实体（书名 + 作者 1）的某个属性，更多数据中记录的一个值是正确的。这有利于我们选
  出更经典的版本（尤其是译者不同时）。
  使用 python 再过滤一次并只要评价人数 >1000 的，并去重复实体（这已经在上一步中完成），得到了 8283 本。然后，再进行数据获取的 [评论爬取] 部分。
评论数据清理对只有一次评分的读者进行清理。他们对于模型具有不良影响，这点主要体现在这些人的
产生很有可能是因为对一本书爬取了太多数据，或者某本书有大量的只评价一次的“水军”。这些数据的
价值是不大的，并导致模型更愿意推荐这本书。
清理之后，剩下 285842 条评论。还剩下 58661 个用户（他们评论了两条及以上）。

制作评分矩阵

def makeFactor():
    bid_n = {}
    user = []
    book = []
    uid_n = {}
    num = 0
    with open("user.txt","r") as f:
        while(1):
            line= f.readline()
            if(line == ""): break;
            line = line.strip().split("\t")[0:3]
            if(bid_n.get(line[1]) is None):
               bid_n[line[1]] = num
               num+=1
            
            user.append(line[0])
            book.append(bid_n.get(line[1]))
    
    d = {}
    count = 0
    for key in user:
        d[key] = d.get(key, 0) + 1
    for k,v in d.items():
        if(v>1): 
            uid_n[k] = count
            count+=1;
    print(len(bid_n.keys()))
    with open("user.txt","r") as f:
    # user_i book_j rate
        p = open("rate.txt","w+")
        while(1):
            line= f.readline()
            if(line == ""): break;
            lined = line.strip().split("\t")[0:3]
            lined[2] =  str(float(lined[2])/5.0)
            if(d.get(lined[0])>1): 
                p.write(str(uid_n.get(lined[0]))+"\t"+str(bid_n.get(lined[1]))+"\t"+lined[2]+"\n")
    with open("book_dict.txt","w+") as f:
   	# book oldname \t  newname
        for k,v in bid_n.items():
            f.write(k+"\t"+str(v)+"\n")
    with open("user_dict.txt","w+") as f:
    # user oldname \t  newname
        for k,v in uid_n.items():
            f.write(k+"\t"+str(v)+"\n")
    print(count)

makeFactor()

使用spark

前：安装等等

apache的文档一直很优秀，直接看观网下载和使用spark和hadoop。spark使用scala语言编写并支持scala脚本，当然我们还是用python的库pyspark。spark的具体使用请参考一般的教程，非常简单~

需要配置一些环境。打开spark并

import os,sys
os.environ['SPARK_HOME'] = "D:/spark-3.0.3-bin-hadoop3.2/" # 安装目录
sys.path.append("C:/Program Files/Java/jdk1.8.0_333") # jdk
sys.path.append("D:/spark-3.0.3-bin-hadoop3.2/bin") # 库
sys.path.append("D:/spark-3.0.3-bin-hadoop3.2/python")
sys.path.append("D:/spark-3.0.3-bin-hadoop3.2/python/lib")
sys.path.append("D:/spark-3.0.3-bin-hadoop3.2/python/lib/py4j-0.10.9-src")
from pyspark import SparkContext
# 测试：单词计数
sc = SparkContext("local","test")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
counts = words.count()
print("Number of elements in RDD -> %i" % counts)

这个简单的测试跑出来就说明都正常运行。而且这个实验比较简单，代码也直接用库就好了。spark专门提供了Rating数据结构，格式是(user, item, rate)，正好对应我们的格式。

sqark 的机器学习库 MLlib提供了ALS（交替最小二乘）库可以进行 MF(Funksvd) 的训练。同样的，MLlib 也提供了 FM 的实现。实际上 MLlib 还包括 GBDT 等等，出于数据的形式是评分不是点击率的考虑选择了前文所述的两个模型。另一方面前文的两个模型训练是比较简单，并且每次迭代都能在一轮 MapReduce 中实现，方便模型的实践与拓展。下文中将直接使用 ASL 库进行训练。

训练：Funksvd（MF）

user_data = sc.textFile("rate.txt").map(lambda x: x.split("\t")[0:3])
from pyspark.mllib.recommendation import Rating
data = user_data.map(lambda x: (Rating(int(x[0]),int(x[1]),int(x[2]) )) )

(trainingData, testData) = data.randomSplit([0.9, 0.1])
# 训练集上的损失
from  pyspark.mllib.recommendation import ALS
from pyspark.mllib.recommendation import MatrixFactorizationModel
# funksvd
model = ALS.train(ratings=trainingData, rank=10, iterations=10, lambda_ =0.02,)

predicttest = model.predictAll(testData.map(lambda x:(x[0],x[1]))).map(lambda x:((x[0],x[1]),x[2]))
predict1_result = predicttest.join(testData.map(lambda x:((x[0],x[1]),x[2]))).map(lambda x:((x[1][1]-x[1][0])*(x[1][1]-x[1][0])))
# 计算RMSE
import math
print(math.sqrt(predict1_result.reduce(lambda x,y :x+y)/predict1_result.count()))
predicttrain = model.predictAll(trainingData.map(lambda x:(x[0],x[1]))).map(lambda x:((x[0],x[1]),x[2]))
predict2_result = predicttrain.join(trainingData.map(lambda x:((x[0],x[1]),x[2]))).map(lambda x:((x[1][1]-x[1][0])*(x[1][1]-x[1][0])))
print(math.sqrt(predict2_result.reduce(lambda x,y:x+y)/predict2_result.count()))

爬虫写了几百行，模型却只有简单的几行（悲）。

训练：FM

我是用jupyter notebook写的，所以格式上空格很多就是新的格。由于缺少点击率等数据，而且这个实验比较简单，就直接使用 onehot 编码作为特征输入了，因此，FM 模型退化为带偏置的 MF模型，公式如前所述。
实际上，由于我们有标签、时间戳、书名、作者等信息，可以尽可能地拓展特征，即使是使用 onehot，也足够加入标签。很早之前我们把user和bookid都置1开始就是为了在这里变onehot。

from pyspark.ml.linalg import Vectors
from pyspark.sql.types import IntegerType,StructField,StructType
from pyspark.sql import SparkSession
user_data = sc.textFile("rate.txt").map(lambda x: x.split("\t")[0:3]).map(lambda x: [int(x[0]),int(x[1]),float(x[2])])
spark = SparkSession(sc)
df = spark.createDataFrame(user_data,["uid","bid", "rate"])



from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import OneHotEncoder

encoder = OneHotEncoder(inputCols=["uid", "bid"],
                        outputCols=["uid_out", "bid1_out"])
model = encoder.fit(df)
encoded = model.transform(df)
encoded.show()



from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(
    inputCols=["uid_out", "bid1_out"],
    outputCol="features")
output = assembler.transform(encoded)



df1 = output['rate', 'features']
(trainingData,testData) = df1.randomSplit([0.9,0.1])
df1.show()

from pyspark.ml.regression import FMRegressor
fm = FMRegressor( featuresCol='features', labelCol='rate', stepSize=0.05,factorSize=10)
model = fm.fit(trainingData)

还是使用rmse衡量

from pyspark.ml.evaluation import RegressionEvaluator
evaluator = RegressionEvaluator(predictionCol='prediction', labelCol='rate',metricName='rmse')
evaluator.evaluate(model.transform(trainingData))


evaluator.evaluate(model.transform(testData))

评估

MF评估

在对评分进行归一化后 (0.2,…,1)，使用 Spark 进行学习，得到的实验结果如下表所示。其中超参数迭代次数、rank（两个分解的小矩阵的秩）、正则化系数 λ. 首先进行的实验是验证正则化系数和迭代次数的影响。

表一分析：正则化项的增大使得训练集上的得分下降，但是在测试集上得分能够达到小的正则化的水平。并且，只需要 5 轮迭代就能够完成其他正则化系数 20 轮左右的水平。从表能够看出，随着正则化系数的增大，相同轮次的训练效果变好直到 0.21 为止。下面分析设置两个小矩阵的秩对实验结果的影响。现在已经知道，对于正则项设置为 0.1，迭代次数 5 轮基本可以得到最好效果。

表二分析：从实验结果中不难看出，对这个数据集而言，设置的 rank>10 基本不改变在两个数据集上的
得分。

这个RMSE能达到0.2，也就是5分制1分左右的偏差。

FM评估

将特征写成 onehot 矩阵连接的形式，如前所述，这个 FM 等价于 MF。因此，实验实际是验证 bias项的意义。这个模型是比较占用内存的，因为每条记录对应一个隐变量；与之相比，MF 模型隐变量一共只有 rank*2 个。在单机上，如果设置 dim 在 100 左右，每次训练都要100M 内存。因此实验收到了较大的限制。但是从结果看，这一种特征的选取并不能带来多么好的效果！但已经可以验证 FM 的下界几乎和
MF 的上界是一致的。使用梯度下降法（实际使用了 Adam），需要设置的超参是：step（步长）、隐变量维度（rank）

表三分析：能看出对实验结果影响比较大的因素是 Step。在同样 step 的情况下，rank=10 或 rank=30 都不会对结果造成特别大的影响。rank 增大虽然能够改善模型的输出，但是也会造成训练时间的加长和内存的占用增大。从结果看来，随着 step 增大，RMSE 先上升后下降。其中，step=0.05 是比较合适的。

似乎出现了过拟合现象。如果读者有兴趣可以自己加一些手工特征看看能不能提升一些表现~

模型推荐演示

最后，选用 Rank=10，step=0.05 的模型结果来推荐。这里由于版权考虑隐去了具体书名，读者可以自行实验。
–实际上感觉这些书随便一本我都很喜欢XD–

你可能感兴趣的:(python,spark,数据分析,大数据,爬虫)

Python Requests 与 RESTful API 的交互实践 AI天才研究院 AI人工智能与大数据 python restful 交互 ai
PythonRequests与RESTfulAPI的交互实践关键词：PythonRequests、RESTfulAPI、HTTP请求、API交互、JSON数据处理摘要：本文将带你从“零基础”到“实战高手”，用通俗易懂的语言和生活案例，拆解PythonRequests库与RESTfulAPI交互的核心逻辑。我们将学习如何用Requests发送GET/POST/PUT/DELETE等常见HTTP请求，
场景题：有40亿个QQ号如何去重？仅1GB内存卷福同学社招面试面试阿里云京东云 java
场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？仅1GB内存参考链接：https://juejin.cn/post/7396332696660131849介绍2种方法：Bitmap和布隆过滤器方法一：Bitmap首先介绍下什么是位图Bitmap位图是使用bit数组表示的，它只存储0或者1，因此我们可以把全部的QQ号放到位图中，当index
使用 Spread.net将 Excel 中的文本拆分为多段 .net
引言：在.NET应用程序中处理Excel数据时，常常会碰到需要把文本拆分成多段的情况。例如在数据清洗、数据分析等场景下，将长文本按照特定规则拆分为多段能让数据更便于处理和分析。Spread.NET作为一款强大的.NET电子表格组件，为我们提供了有效的解决方案。本文将详细介绍如何使用Spread.net将Excel中的文本拆分为多段，涵盖多种实现方式，帮助开发者在.NET应用程序中高效地管理数据。在
15. 条件语句 if_elif_else 丰收连山 python 数据库开发语言
一、基础语法结构if语句的基本格式概念定义if语句是Python中的条件控制语句，用于根据条件的真假执行不同的代码块。其基本结构如下：if条件:代码块使用场景if语句适用于需要根据条件决定是否执行某段代码的情况，例如：检查用户输入是否合法判断变量是否符合预期值根据计算结果选择不同的处理方式常见误区或注意事项条件表达式后必须加冒号（:）代码块必须缩进（通常4个空格或1个制表符）条件表达式的结果应为布
Python中if及else使用 moclocd Python编程 python
if、else使用{Python的if判断语句可以单独使用，也可搭配else使用：如：if(变量名运算符数值或另一个变量名)://括号可加可不加，如果不加，第一个变量名前就需要加一个空格。语句组1//语句组可多写，但是!!!语句组一定要和if的判断条件对齐!!!不然会报错!!!{例：if(a>=0):print(a)}或：if(变量名运算符数值或另一个变量名):语句组1else:语句组2//els
Python的判断语言if/elif/else Star___J python 开发语言后端
Python的判断语句分为"单分支"、"二分之"、"多分支"。Python判断语言"单分支"语句:if:if条件:代码块它包含这样几个部分:if关键字，表示这是一条判断语句；表示判断的条件，当这个条件被满足(即条件为真)时，执行中的代码，条件不满足时，中的代码不会被执行；冒号表示判断代码的开始；表示条件满足时，执行代码块。例如:x=5ifx>1:#if后面跟的就是条件，如果x大于1代码就会继续执行
【GitHub开源项目实战】高频交易系统实战解析：基于 Nautilus Trader 的策略回测与事件驱动架构优化观熵 GitHub开源项目实战 github 开源架构
高频交易系统实战解析：基于NautilusTrader的策略回测与事件驱动架构优化关键词：高频交易、事件驱动架构、NautilusTrader、量化回测、算法交易、PythonCython、交易引擎、回测系统、交易策略框架、实战优化摘要：本篇博客围绕GitHub上高质量的开源项目nautechsystems/nautilus_trader展开系统性实战解析。NautilusTrader是一套为专业
Python 中 if 和 else 基础知识的详解和使用点云SLAM Python python 开发语言 python基础学习 Python中流程控制语法 if和else语法人工智能基础计算机语言
一、基本语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件1不成立，条件2成立时执行else:#所有条件都不成立时执行注意：elif是“elseif”的缩写，可以有多个；else可省略；条件表达式必须是可以返回布尔值的语句（True或False）；Python使用缩进表示代码块，通常是4个空格。二、常见条件表达式表达式含义x==y等于x!=y不等于x>y,x=y,x0:print
python多线程：自定义线程类实现线程体、多线程锁机制、死锁问题的解决网小鱼的学习笔记 Python python 开发语言
自定义线程类实现线程体其实threading.Thread是threading模块内的一个类，我们可以自行设计一个类，让这个类继承threading.Thread类，接着在def_init_()内调用threading_Thread_init()方法，然后再所设计的类类别设计run方法，这个概念就称为自定义线程。自定义线程类实现线程体importthreadingimporttime#自定义子线程
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
DOCKER教程 weixin_34388207 运维操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>注意事项1.官方申明docker还是在开发完善中，不建议在运营的产品中使用它，但是现在离正式版越来越接近了，请关注我们的博客http://blog.docker.io/2013/08/getting-to-docker-1-0/2.系统注意事项-由于现在的docker的局限性，现在只能使用在64位的服务器上边安装教程ubntu安装教程（12.0
Python简单理解1-10阶乘和运算小张不嚣张꒰ঌ(˚ᆺ˚)໒꒱ Python爬虫基础集合 python 后端
简单理解for循环实现1-10的阶乘运算基本思路;首先分析阶乘的关系如1!=12!=2*1=23!=3*2*1=64!=4*3*2*1=245!=5*4*3*2*1=120....10!=10*9*8*7*6*5*4*3*2*1=3628800自2以后的阶乘都是前面数的阶乘再乘以本身的数。如4的阶乘4!=43!(32*1),因此我们可以使用for循环来执行代码，定义一个变量啊a和一个总和sum然后
python实现回文数的判断简单理解
回文数的判断及解析第一种方法：第二种方法：回文数：简单来说就是，无论是从前往后读还是从后往前读，都是一样的第一种方法：通过字符串的一些特定的功能来判断是不是回文数a=str(input("请输入你要输入的数字:"))#输入字符串b=a[::-1]#倒序输出ifa==b:#判断是否相等print(f'{a}是回文数')else:print('{}不是回文数'.format(a))#format方法输
使用Python加载SubRip (.srt)字幕文件进行文本处理 zbb258 python 开发语言
SubRip文件格式是一种非常基础的字幕文件格式，通常使用扩展名.srt。这种格式的字幕文件是由一组组格式化的纯文本行组成，每组之间由一个空行分隔。字幕通常从1开始按顺序编号。时间码格式为小时:分钟:秒,毫秒，且时间单位固定为两个零填充的数字，分数固定为三个零填充的数字(例如00:00:00,000)。由于该程序是在法国编写的，分数分隔符使用逗号。在这篇文章中，我们将演示如何使用Python库加载
Flask + GPT 实践红鼻子时代 flask项目 flask gpt python
一、前言本篇文章会介绍从零开始构建一个基于Flask+GPT的小项目的过程。总共有四个版本的迭代，包括：1、调用GPT接口并渲染到前端页面；2、使用Flask提供的session来实现登录和登出功能；3、用SQLAlchemy管理数据库，实现用户注册和登录；4、记录和分页查看用户与GPT的对话历史。二、项目环境与依赖Python版本：建议3.7+Flask：最常用的PythonWeb框架之一ope
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
使用Chaindesk进行简单高效的文档检索 2501_92325368 langchain
##技术背景介绍Chaindesk是一个开源的文档检索平台，它帮助将个人数据与大型语言模型结合起来，实现高效的信息搜索和数据分析。Chaindesk的核心功能是通过创建数据存储库(datastore)并与大型语言模型进行交互，以提供快捷准确的文档检索能力。##核心原理解析Chaindesk通过一种称为Retriever的组件实现数据检索。Retriever可以与不同的数据存储库进行交互，拉取相关文
python初学者编程指南源码_Python可以这样学 PDF 带讲义代码版 weixin_39980917 python初学者编程指南源码
给大家带来的一篇关于Python编程相关的电子书资源，介绍了关于学Python方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小22MB，董付国编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.9。内容介绍读者评价已刷完，重点看前面部分基础知识，后面的挑着感兴趣的领域看。前面基础知识讲得不够系统，如果不是刷过别的python书的话单靠本书不一定能吃透。后半应用领域讲得较散，既不
Python的GUI库选择指南（深度拓展）
前文我们分析了python的GUI库，有很多，面向应用场景也不尽相同，如何在使用过程中，选择合适的GUI库呢？可以查看：python有哪些常用的GUI（图形用户界面）库及选择指南-CSDN博客初学者推荐：Tkinter或PySimpleGUI，简单易学，文档丰富。复杂应用：PyQt5或WxPython，提供完整的功能集和高级组件。移动应用：Kivy或BeeWare（Toga），支持跨平台部署到iO
Python小游戏（井字棋）毛大猫（蓉火科技） python 开发语言数据库
Python的井字棋小游戏：方法一：初始化一个3x3的空棋盘（用数字1-9表示位置）board=[“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”]defprint_board():“”“打印当前棋盘”“”print(“\n”)print(f"{board[0]}|{board[1]}|{board[2]}“)print(”—|—|—“)print(f”{board[3]}|
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
使用matplotlib绘制散点图、柱状图和饼状图-学习篇 Zorione Python matplotlib 学习 python
一、散点图Python代码如下：num_points=100x=np.random.rand(num_points)#x点位随机y=np.random.rand(num_points)#y点位随机colors=np.random.rand(num_points)#颜色随机sizes=1000*np.random.rand(num_points)#大小随机alphas=np.random.rand(
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
AccuFace 在 iClone/Character Creator 导出 ARKit 52 子燕若水 iclone 3D daz3d 服务器 linux 运维
方案概览AccuFace在iClone/CharacterCreator里写入的是Reallusion60标准BlendShape曲线。要把它们导出为ARKit52并写入文本文件，可采用「iClone→FBX(ARKit52命名)→Blender→Python脚本→JSON/CSV」这一条相对稳妥的管线。关键步骤下面分拆说明，并给出可直接运行的脚本示例。步骤1：把Reallusion60映射到AR
Python 3 中tkinter 里的滚动文本框（ScrolledText）彭啊彭
最近在写一个模拟做题系统，里面有一个输出错题的功能，设置的文本框只有输出一道错题的大小，但是不能就一道题吧，就想到了平时页面里的滚动文本框，上网搜了搜，查到了ScrolledText，但是没找到实现我所需要功能的具体方法，没办法，我就自己研究了研究，好在最后实现了，现在就附上我的实现代码：defcuotiwin():globalscore#分数globallist2#存放错题var1=String
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
Django 4.x Models App settings 模型应用设置 Mr数据杨 Python Web开发 python django 模型 model 配置
在Django框架中，模型（Model）是用于定义和操作数据库表结构的核心组件。模型通过使用Python类的形式，帮助简化数据库操作，自动生成SQL语句，使得开发者能够专注于业务逻辑的实现，而无需直接编写复杂的SQL代码。Django的ORM（对象关系映射）提供了一种便捷的方式，将Python对象与数据库记录进行映射操作，从而有效地管理数据交互。对于那些想要在项目中使用Django构建数据库应用的
OpenGauss数据库-L.应用开发(Python)-选做 lovane_630 数据库 python oracle
第1关：简单查询#加载数据库模块importpsycopg2#连接数据库,创建连接并返回连接对象defconnect():conn=psycopg2.connect(database="finance",user="gaussdb",password="Passwd123@123",host="localhost")returnconn#建立与数据库连接mydb=connect()#获取游标#执行
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla