livan1234

数据挖掘学习（四）——常见案例总结

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。

我的公众号为：livandata

1、K-meaning算法实战

主要是通过均值来聚类的一个方法。

步骤为：

1）随机选择k个点作为聚类中心；

2）计算各个点到这k个点的距离，将距离相近的点聚集在一起，行程k个类；

3）将对应的点聚到与他最近的聚类中心；

4）分成k个聚类之后，重新计算聚类中心；

5）比较当前聚类中心与前一次聚类中心，如果是同一个点，则聚类收敛，得到聚类结果；如果为不同的点，则重复第二到五步。

#!/usr/bin/env python

# _*_ UTF-8 _*_
import numpy as npy
import pandas as pda
import matplotlib.pylab as pyl
# 通过程序实现录取学生的聚类；
fname = "F:/python_workspace/file/collection_method/luqu.csv"
dataf = pda.read_csv(fname)
x = dataf.iloc[:, 1:4].as_matrix()

from sklearn.cluster import Birch
from sklearn.cluster import KMeans
# 调用kmeans方法，指定聚4类。
kms = KMeans(n_clusters=4)
y = kms.fit_predict(x)
# 一个y代表一个点，数字表示属于第几类。
print(y)
print(x)
# x代表学生
s = npy.arange(0, len(y))
pyl.plot(s, y, "o")
pyl.show()
# 通过聚类实现商品的聚类：
# 淘宝商品的聚类：
import matplotlib.pylab as pyl
import pymysql
conn = pymysql.connect(host="localhost",
                       user="root",
                       password="123456",
                       db="livan",
                       port=3306,
                       charset='utf8')
sql="select price, comments from goods"
dataf2 = pda.read_sql(sql, conn)
x = dataf2.iloc[:,:].as_matrix()
from sklearn.cluster import Birch
from sklearn.cluster import KMeans
# 调用kmeans方法，指定聚3类。
kms = KMeans(n_clusters=3)
y = kms.fit_predict(x)
print(y)
for i in range(0, len(y)):
    if(y[i]==0):
        pyl.plot(dataf2.iloc[i:i+1, 0:1].as_matrix(),
                 dataf2.iloc[i:i+1, 1:2].as_matrix(),
                 "*r")
    elif(y[i]==1):
        pyl.plot(dataf2.iloc[i:i+1, 0:1].as_matrix(),
                 dataf2.iloc[i:i+1, 1:2].as_matrix(),
                 "sy")
    elif(y[i]==2):
        pyl.plot(dataf2.iloc[i:i+1, 0:1].as_matrix(),
                 dataf2.iloc[i:i+1, 1:2].as_matrix(),
                 "pk")
pyl.show()

2、决策树：

#!/usr/bin/env python
# _*_ UTF-8 _*_
import pandas as pda
# 信息熵：信源的不确定度。

fname = "F:/python_workspace/file/lessons.csv"
dataf = pda.read_csv(fname)

# 提取某行列，然后转换成矩阵[行，列]
x = dataf.iloc[:, 1:5].as_matrix()
y = dataf.iloc[:, 5].as_matrix()

# x为二维数组，可以对其进行遍历，遇到是、多等字段变为1
# 遇到否、少等字段变为0；
for i in range(0, len(x)):
    for j in range(0, len(x[i])):
        thisdata = x[i][j]
        if(thisdata =="是" or thisdata=="多" or thisdata=="高"):
            x[i][j] = int(1)
        else:
            x[i][j] = -1

for i in range(0, len(y)):
    thisdata = y[i]
    if(thisdata=="高"):
        y[i] = 1
    else:
        y[i] = -1

# 容易错的地方：
# 正确的做法为：转化好格式，将xy转化为数据框，然后再转化为数组并制定格式。
xf = pda.DataFrame(x)
yf = pda.DataFrame(y)
x2 = xf.as_matrix().astype(int)
y2 = yf.as_matrix().astype(int)

# 建立决策树：
from sklearn.tree import DecisionTreeClassifier as DTC
# 信息熵的模式entropy
dtc = DTC(criterion="entropy")
dtc.fit(x2, y2)
# 直接预测销量高低：
import numpy as npy
x3 = npy.array([[1, -1, -1, 1], [1, 1, 1, 1], [-1, 1, -1, 1]])
rst = dtc.predict(x3)
print(rst)

# 可视化决策树：
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
with open("F:/python_workspace/file/decision_tree/dtc.dot", "w") as file:
# 参数为：模式、特征值（实战、课时数、是否促销、是否提供配套资料）
export_graphviz(dtc, feature_names=["combat", "num", "promotion", "datum"], out_file=file)
# 此时已经生成决策树，但是dot的文件打不开，此时需要使用graph的软件打开。

Dot的使用方法：

可以得到决策树：

决策树往左看——负能量；往右看——正能量；

Entropy是信息熵，value是销量高地的统计情况【14,15】：即14是销量低的，15是销量高的。决策树会通过一层层的使用特征值，来划分数据。

3、逻辑回归：

求解逻辑回归参数的传统方法是梯度下降，构造为凸函数的代价函数后，每次沿着偏导方向(下降速度最快方向)迈进一小部分，直至N次迭代后到达最低点。

#!/usr/bin/env python
# _*_ UTF-8 _*_

import pandas as pda

fname = "F:/python_workspace/file/logic/luqu.csv"
dataf = pda.read_csv(fname)

# [行,列]
x = dataf.iloc[:, 1:4].as_matrix()
y = dataf.iloc[:, 0:1].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR

# 建立一个逻辑回归模型
r1 = RLR()
# 训练模型
r1.fit(x, y)
# 特征值筛选，获取有效特征。
r1.get_support()
# print(dataf.columns[r1.get_support()])
# 将可用的特征值参数转换成数组，用来预测y值。
t = dataf[dataf.columns[r1.get_support()]].as_matrix()

r2 = LR()
# 建立xy之间的关系并进行训练。
r2.fit(t, y)
print("训练结束")
print("模型正确率为："+str(r2.score(x, y)))

4、贝叶斯分类器：

思路为：

1、给定一个训练集、一个对应的标签集，训练集中的每一个数据点x（对应有多个维度(a1,a2,a3,a4））对应有一个标签A，即该训练集已经做好分类。

2、对给定的标签集进行计算，各个标签A在标签集中占的比例即为训练集中某一类A出现的出现概率。

3、在训练集中，某一类别中的数据有多个维度(a1,a2,a3,a4），各个维度值在这一类别A中的比例可以计算得出。

4、然后再使用贝叶斯公式计算新出现的数据的概率。

#!/usr/bin/env python
# _*_ UTF-8 _*_

import numpy as npy

# 贝叶斯分类：

class Bayes:
    def __init__(self):
        # -1表示测试方法没有做，表示没有进行训练。
       self.length = -1
        # 分类的类别标签
        self.labelcount = dict()
        self.vectorcount = dict()
    # 训练函数：(dataSet:list 训练集指定为list类型)
    def fit(self, dataSet:list, labels:list):
        if(len(dataSet)!=len(labels)):
            raise ValueError("您输入的测试数组跟类别数组长度不一致~")
        self.length = len(dataSet[0]) # 测试数据特征值的长度。
        # 所有类别的数据
        labelsnum = len(labels)
        # 不重复的类别的数量
        norepeatlabel = set(labels)
        # 以此遍历各个类别
        for item in norepeatlabel:
            # 计算当前类别占总类别的比例：
            # thislabel为当前类别
            thislabel = item
            # 当前类别在总类别中的比例;
            labelcount[thislabel]= labels.count(thislabel)/labelsnum
        for vector, label in zip(dataSet, labels):
            if(label not in vectorcount):
                self.vectorcount[label]= []
            self.vectorcount[label].append(vector)
        print("训练结束~")
        return self
    # 测试数据：
    def btest(self, TestData, labelsSet):
        if(self, length==-1):
            raise ValueError("您还没有进行训练，请先训练~~")
        # 计算testdata分别为各个类别的概率：
        lbDict = dict()
        for thislb in labelsSet:
            p = 1
            # 当前类别占总类别的比例：
            alllabel = self.labelcount[thislb]
            # 当前类别中的所有向量：
            allvector = self.vectorcount[thislb]
            # 当前类别一共有多少个向量：
            vnum = len(allvector)
            # 数组转置
            allvector =npy.array(allvector).T
            for index in range(0, len(TestData)):
                vector = list(allvector[index])
                p* = vector.count(TestData[index])/vnum
            lbDict[thislb] = p*alllabel
        thislabel = sorted(lbDict, key=lambda x:lbDict[x], reverse=True)[0]
        return thislabel

5、KNN手写体数字识别：

此处使用画图工具，建立一个含手写体数字的图片文件，然后找一些训练数据：

1）训练数据：

0、1、2、3、4、5、6、7、8、9，共十种手写体数据，用来训练程序，此处使用trainDigits；

2）测试数据：

即将之前的图片转换成的txt文件作为测试文件，此处使用testDigits；

3）图片处理：

在进行二维码或者图片数字识别时，需要将图片转换成txt的二进制文件，行程一个文件流。

KNN算法的主要思路为：

1）计算输入点与训练集中点的位置（欧式距离算法）；

2）对计算出来的数据按照从小到大排序，最前面的为输入点到训练集中点的最短距离；

3）取出前k个距离值，并对距离值进行分组；

4）标记各组数据的多少，最多的标签值即为输入点的所在类别。

#!/usr/bin/env python

# _*_ UTF-8 _*_

from PIL import Image
from numpy import *
import operator
from os import listdir

# # 图片处理
# # 先将所有图片转换为固定宽高，比如：32*32，然后再转换成文本。
# im = Image.open("F:/python_workspace/file/hand_write/hand_write.png")
# # 另存为图片：
# #im.save("F:/python_workspace/file/hand_write/hand_write.jpg")
# fh =open("F:/python_workspace/file/hand_write/hand_write.txt","a")
# # 获取图片的长宽高: 0:宽；1：高；
# width = im.size[0]
# height = im.size[1]
# # 获取像素(宽为1，高为9的像素)：
# # (255, 255, 255)：白色
# # (0,0,0)：黑色
# for i in range(0, width):
#     for j in range(0, height):
#         cl = im.getpixel((i, j))
#         clall = cl[0]+cl[1]+cl[2]
#         if(clall == 0):
#             # 黑色;
#             fh.write("1")
#         else:
#             fh.write("0")
#     fh.write("\n")
# fh.close()

# 运算knn函数：
def knn(k, testdata, traindata, labels):
    traindatasize = traindata.shape[0]
    dif = tile(testdata, (traindatasize, 1))-traindata
    sqdif = dif**2
    sumsqdif =sqdif.sum(axis=1)
    distance = sumsqdif**0.5
    sortdistance =distance.argsort()
    count = {}
    for i in range(0, k):
        vote = labels[sortdistance[i]]
        count[vote] = count.get(vote, 0)+1
    sortcount = sorted(count.items(), key=operator.itemgetter(1), reverse=True)
    return sortcount[0][0]

# 手写体数字的识别：
# 1.加载数据
def datatoarray(fname):
    arr = []
    fh = open(fname)
    for i in range(0, 32):
        thisline = fh.readline()
        for j in range(0, 32):
            arr.append(int(thisline[j]))
    return arr
# arr1 = datatoarray("F:/python_workspace/file/hand_write/trainingDigits/0_10.txt")
# print(arr1)

# 建立一个函数取文件的前缀：
def seplabel(fname):
    filestr = fname.split(".")[0]
    label = int(filestr.split("_")[0])
    return label

# 2.建立训练数据：
def traindata():
    labels = []
    # 加载当前目录下的所有文件名：
    trainfile =listdir("F:/python_workspace/file/hand_write/trainingDigits")
    num = len(trainfile)
    # 长度为1024，即为1024列，每一行存储一个文件。
    # 用一个数组存储所有训练数据，行：文件总数；列：1024
    # 用zeros建立一个数组：
    trainarr =zeros((num, 1024))
    for i in range(0, num):
        thisfname = trainfile[i]
        # 返回的是训练数字labels(0--9)
        thislabel =seplabel(thisfname)
        labels.append(thislabel)
        # 将所有文件的训练集数据内容加载到trainarr中。
        trainarr[i, :] =datatoarray("F:/python_workspace/file/hand_write/trainingDigits/"+thisfname)
    return trainarr, labels

# 3.用测试数据调用knn算法测试，看是否能够准确识别：
def datatest():
    trainarr, labels =traindata()
    testlist = listdir("F:/python_workspace/file/hand_write/testDigits")
    tnum = len(testlist)
    for i in range(0, tnum):
        thistestfile = testlist[i]
        testarr = datatoarray("F:/python_workspace/file/hand_write/testDigits/"+thistestfile)
        rknn = knn(3, testarr, trainarr, labels)
        print(rknn)

datatest()

# 4.抽某一个测试文件出来进行试验：
trainarr, labels = traindata()
thistestfile = "6_6.txt"
testarr = datatoarray("F:/python_workspace/file/hand_write/testDigits/"+thistestfile)
rknn = knn(3, testarr, trainarr, labels)
print(rknn)

6、贝叶斯手写体数字识别：

#!/usr/bin/env python

# _*_ UTF-8 _*_
import numpy as npy
from numpy import *
from os import listdir
# 贝叶斯算法的应用：

class Bayes:
    def __init__(self):
        # -1表示测试方法没有做，表示没有进行训练。
        self.length = -1
        # 分类的类别标签
        self.labelcount = dict()
        self.vectorcount = dict()
    # 训练函数：(dataSet:list 训练集指定为list类型)
    def fit(self, dataSet:list, labels:list):
        if(len(dataSet)!=len(labels)):
            raise ValueError("您输入的测试数组跟类别数组长度不一致~")
        self.length = len(dataSet[0]) # 测试数据特征值的长度。
        # 所有类别的数据
        labelsnum = len(labels)
        # 不重复的类别的数量
        norepeatlabel = set(labels)
        # 以此遍历各个类别
        for item in norepeatlabel:
            # 计算当前类别占总类别的比例：
            # thislabel为当前类别
            thislabel = item
            # 当前类别在总类别中的比例;
            self.labelcount[thislabel]= labels.count(thislabel)/labelsnum
        for vector, label in zip(dataSet, labels):
            if(label not in self.vectorcount):
                self.vectorcount[label]= []
            self.vectorcount[label].append(vector)
        print("训练结束~")
        return self
    # 测试数据：
    def btest(self, TestData, labelsSet):
        if(self.length==-1):
            raise ValueError("您还没有进行训练，请先训练~~")
        # 计算testdata分别为各个类别的概率：
        lbDict = dict()
        for thislb in labelsSet:
            p = 1
            # 当前类别占总类别的比例：
            alllabel = self.labelcount[thislb]
            # 当前类别中的所有向量：
            allvector = self.vectorcount[thislb]
            # 当前类别一共有多少个向量：
            vnum = len(allvector)
            # 数组转置
            allvector =npy.array(allvector).T
            for index in range(0, len(TestData)):
                vector = list(allvector[index])
                p = vector.count(TestData[index])/vnum
            lbDict[thislb] = p*alllabel
        thislabel = sorted(lbDict, key=lambda x:lbDict[x], reverse=True)[0]
        return thislabel

# 手写体数字的识别：
# 1.加载数据
def datatoarray(fname):
    arr = []
    fh = open(fname)
    for i in range(0, 32):
        thisline = fh.readline()
        for j in range(0, 32):
            arr.append(int(thisline[j]))
    return arr

# 建立一个函数取文件的前缀：
def seplabel(fname):
    filestr = fname.split(".")[0]
    label = int(filestr.split("_")[0])
    return label

# 2.建立训练数据：
def traindata():
    labels = []
    # 加载当前目录下的所有文件名：
    trainfile =listdir("F:/python_workspace/file/hand_write/trainingDigits")
    num = len(trainfile)
    # 长度为1024，即为1024列，每一行存储一个文件。
    # 用一个数组存储所有训练数据，行：文件总数；列：1024
    # 用zeros建立一个数组：
    trainarr =zeros((num, 1024))
    for i in range(0, num):
        thisfname = trainfile[i]
        # 返回的是训练数字labels(0--9)
        thislabel =seplabel(thisfname)
        labels.append(thislabel)
        # 将所有文件的训练集数据内容加载到trainarr中。
        trainarr[i, :] =datatoarray("F:/python_workspace/file/hand_write/trainingDigits/"+thisfname)
    return trainarr, labels

bys = Bayes()
# 训练数据：
train_data, labels =traindata()
bys.fit(train_data, labels)
# 测试：
thisdata = datatoarray("F:/python_workspace/file/hand_write/trainingDigits/8_90.txt")
labelsall = [0,1,2,3,4,5,6,7,8,9]
# 识别单个手写体数字：
# rst = bys.btest(thisdata, labelsall)
# print(rst)

# 识别多个手写体数字（批量测试）：
testfileall = listdir("F:/python_workspace/file/hand_write/trainingDigits")
num = len(testfileall)
for i in range(0, num):
    thisfilename = testfileall[i]
    thislabel = seplabel(thisfilename)
    thisdataarray = datatoarray("F:/python_workspace/file/hand_write/testDigits/"+thisfilename)
    label = bys.btest(thisdataarray, labelsall)
    print("该数字正确的是："+str(thislabel)+",识别出来的数字是："+str(label))
    if(label!=thislabel):
        x+=1
print(x)
print("错误率是："+str(x/num))

7、神经网络课程销量识别：

#!/usr/bin/env python
# _*_ UTF-8 _*_
import pandas as pda
# BP人工神经网络的实现
# 1、读取数据；
# 2、keras.models 下面有：Sequential：建立模型使用
#   keras.layers.core下面有以下两个函数：
#                Dense:建立层（输入层、输出层）
#                Activation：添加函数（激活函数）
# 3、建立神经网络模型，通过sequential建立
# 4、建立层，通过Dense建立。
# 5、设置激活函数：Activation。
# 6、模型编译，使用compile
# 7、训练：fit（），即学习的过程。
# 8、验证：测试阶段，分类预测等。

# 1\数据的读取与整理：
fname = "F:/python_workspace/file/BP_nets/lessons.csv"
dataf = pda.read_csv(fname, encoding='utf-8')
x = dataf.iloc[:, 1:5].as_matrix()
y = dataf.iloc[:, 5].as_matrix()
for i in range(0, len(x)):
    for j in range(0, len(x[i])):
        thisdata = x[i][j]
        if(thisdata=="是" or thisdata=="多" or thisdata=="高"):
            x[i][j] = int(1)
        else:
            x[i][j] = -1
for i in range(0, len(y)):
    thisdata = y[i]
    if(thisdata=="高"):
        y[i] = 1
    else:
        y[i] = -1
xf = pda.DataFrame(x)
yf = pda.DataFrame(y)
x2 = xf.as_matrix().astype(int)
y2 = yf.as_matrix().astype(int)
# 使用人工神经网络模型：
from keras.models import Sequential
from keras.layers.core import Dense, Activation
# 构建人工神经网络：
model = Sequential()
# 建立输入层：
model.add(Dense(10, input_dim=len(x2[0])))
# 建立输入层激活函数：
model.add(Activation("relu"))
# 建立输出层：
model.add(Dense(1, input_dim=1))
# 建立输出层激活函数：
model.add(Activation("sigmoid"))
# 模型的编译,参数为(损失函数，求解方法, 模式)：,class_mode="binary"
model.compile(loss="binary_crossentropy", optimizer="adam")
# 训练nb_epoch:制定学习的次数;batch_size:批大小
model.fit(x2, y2, nb_epoch=100, batch_size=100)
# 预测分类：预测x所有数组的各个特征的y值
rst = model.predict_classes(x).reshape(len(x))
# print(rst)
x = 0
for i in range(0, len(x2)):
    if(rst[i]!=y[i]):
        x+=1
# 准确率：
print(1-x/len(x2))

# 课程销量预测：
import numpy as npy
x3 = npy.array([[1,-1,-1,1],[1,1,1,1],[-1,1,-1,1]])
rst2 = model.predict_classes(x3).reshape(len(x3))
print("预测结果为："+str(rst2))

8、神经网络手写体数字识别：

#!/usr/bin/env python
# _*_ UTF-8 _*_

from numpy import *
import operator
from os import listdir
import numpy as npy
import numpy
import pandas as pda

def datatoarray(fname):
    arr = []
    fh = open(fname)
    for i in range(0, 32):
        thisline = fh.readline()
        for j in range(0, 32):
            arr.append(int(thisline[j]))
    return arr

# 建立一个函数用来取文件名前缀：
def seplabel(fname):
    filestr = fname.split(":")[0]
    label = int(filestr.split("_")[0])
    return label

# 2.建立训练数据：
def traindata():
    labels = []
    # 加载当前目录下的所有文件名：
    trainfile =listdir("F:/python_workspace/file/hand_write/trainingDigits")
    num = len(trainfile)
    # 长度为1024，即为1024列，每一行存储一个文件。
    # 用一个数组存储所有训练数据，行：文件总数；列：1024
    # 用zeros建立一个数组：
    trainarr =zeros((num, 1024))
    for i in range(0, num):
        thisfname = trainfile[i]
        # 返回的是训练数字labels(0--9)
        thislabel = seplabel(thisfname)
        labels.append(thislabel)
        # 将所有文件的训练集数据内容加载到trainarr中。
        trainarr[i, :] =datatoarray("F:/python_workspace/file/hand_write/trainingDigits/"+thisfname)
    return trainarr, labels
trainarr, labels = traindata()
# 传数据框：
xf = pda.DataFrame(trainarr)
yf = pda.DataFrame(labels)
# 转为数组：
tx2 = xf.as_matrix().astype(int)
ty2 = yf.as_matrix().astype(int)
# 以上为数据读取部分，下面构建人工神经网络模型:

# 使用人工神经网络模型：
from keras.models import Sequential
from keras.layers.core import Dense, Activation
# 构建人工神经网络：
model = Sequential()
# 建立输入层：
model.add(Dense(10, input_dim=len(tx2[0])))
# 建立输入层激活函数：
model.add(Activation("relu"))
# 建立输出层：
model.add(Dense(1, input_dim=1))
# 建立输出层激活函数：
model.add(Activation("sigmoid"))
# 模型的编译,参数为(损失函数，求解方法, 模式)：,class_mode="binary"
model.compile(loss="mean_squared_error", optimizer="adam")
# 训练nb_epoch:制定学习的次数;batch_size:批大小
model.fit(tx2, ty2, nb_epoch=1000, batch_size=6)
# 预测分类：预测x所有数组的各个特征的y值
rst = model.predict_classes(x).reshape(len(x))
# print(rst)
x = 0
for i in range(0, len(x2)):
    if(rst[i]!=y[i]):
        x+=1
# 准确率：
print(1-x/len(x2))

# 课程销量预测：
import numpy as npy
tx3 = npy.array([[1,-1,-1,1],[1,1,1,1],[-1,1,-1,1]])
rst2 = model.predict_classes(tx2).reshape(len(tx2))
print("预测结果为："+str(rst2))

9、Apriori算法实现：

支持度：A、B同时发生的概率。Support ===P(AB)

置信度：若A发生，B发生的概率。Confidence=== P(B/A)

1. 设定阈值：即最小支持度、最小置信度。

2. 计算置信度和支持度。

Support=（AB同时发生的数量）/事件总数量；

= support_Count(A and B)/total_Count(A)

Confidence(AàB) = p(B/A)=support(A andB)/support(A)

= support_count(A andB)/support(A)

#!/usr/bin/env python
# _*_ UTF-8 _*_

from __future__ import print_function
import pandas as pda

# 自定义连接函数，用于实现L_[k-1]到C_k的连接
def connect_string(x, ms):
    # 对传进来的数据进行排序
    x = list(map(lambda i:sorted(i.split(ms)), x))
    l = len(x[0])
    r = []
    # 剪枝叶的过程：
    for i in range(len(x)):
        for j in range(i, len(x)):
            if x[i][:l-1]==x[j][:l-1] and x[i][l-1] != x[j][l-1]
                r.append(x[i][:l-1]+sorted([x[j][l-1], x[i][l-1]]))
    return r

# 寻找关联规则的函数：
def find_rule(d, support, confidence, ms=u'--'):
    # 定义输出结果
    result = pda.DataFrame(index=['support','confidence'])
    # 支持度序列
    support_series = 1.0 * d.sum()/len(d)
    # 初步根据支持的筛选。
    column = list(support_series[support_series>support].index)
    k=0

    while len(column)>1:
        k=k+1
        print(u'\n正在进行第 %s 次搜索' % k)
        column = connect_string(column, ms)
        print(u'数目：%s ...' % len(column))
        # 新一批支持度计算
        sf = lambda i:d[i].prod(axis=1, numeric_only=True)

        # 创建连接数据，这一步耗时、耗内存严重，当数据量较大时，可以
        # 考虑并行运算
        d_2 = pda.DataFrame(list(map(sf, column)), index=[ms.join(i) for i in column]).T
        support_series_2 = 1.0 * d_2[[ms.join(i) for i in column]].sum()/len(d)
        column = list(support_series_2[support_series_2>support].index)# 新一轮支持度筛选
        support_series = support_series.append(support_series_2)
        column2 = []

        # 遍历可能的推理，如[A,B,C]究竟是A+B-->C还是B+C-->还是A+C-->B
        for i in column:
            i = i.split(ms)
            for j in range(len(i)):
                column2.append(i[:j]+i[j+1:]+i[j:j+1])
        cofidence_series = pda.Series(index=[ms.join(i) for i in column2])

        for i in column2:
            # 计算置信度序列：
            cofidence_series[ms.join(i)]=support_series[ms.join(sorted(i))]/support_series

        for i in cofidence_series[cofidence_series>confidence].index:
            result[i] = 0.0
            result[i]['confidence'] = confidence_series[i]
            result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))]

    # 结果整合
    result = result.T.sort(['confidence','support'], ascending=False)
    print(u'/n结果为：')
    print(result)

    return result

比如：

十个学员课程购买的情况：

#!/usr/bin/env python
# _*_ UTF-8 _*_
from Apriori import *
import pandas as pda

filename = "F:/python_workspace/file/Apriori/lesson_buy.xls"
dataframe = pda.read_excel(filename, header=None)

# 转化一下数据：
change = lambda x:pda.Series(1, index=x[pda.notnull(x)])
map_Ok = map(change, dataframe.as_matrix())
# 将对应的数据转化为数组，并将nan转化为0
data = pda.DataFrame(list(map_Ok)).fillna(0)
print(data)

# 临界支持度
spt = 0.1
# 置信度设置
cfd = 0.3

# 使用apriori算法计算结果（数据，支持度， 置信度， 连接符）
find_rule(data, spt, cfd, "&&")

10、微博数据情感分析：

----即词语是正面的还是负面的，使用聚类分析、结巴分词、文本相似度等。

爬虫的几种方式：

1.使用scrapy爬取；

2.使用接口去取。

此次重点将如何通过接口方式获取微博的数据：

在微博中使用开发模式：

微博开发接口即可使用接口了。

微博接口开发上：

App Key：2282143806

App Secret：bae8982e5539f7426ef2f71f553b514e

然后阅读接口文档，寻找相应的接口信息。

#!/usr/bin/env python

# _*_ UTF-8 _*_

import weibo
import urllib
import urllib2
import re
import time

def weibo():
    APP_KEY = "2282143806"
    APP_SECRET = "bae8982e5539f7426ef2f71f553b514e"
    CALLBACK_URL = "http://api.weibo.com/livan/default.html"
    AUTH_URL = "http://api.weibo.com/livan/default.html"
    USERID = "2577633693"
    PASSWD = "xujingboyy123"

    client =weibo.APIClient(app_key=APP_KEY,
                             app_secret=APP_SECRET,
                             redirect_uri=CALLBACK_URL)

    referer_url =client.get_authorize_url()
    print "refererurl is: %s" % refer_url

    cookies =urllib2.HTTPCookieProcessor()
    opener =urllib2.build_opener(cookies)
    urllib2.install_opener(opener)
    postdata = {
        "client_id":APP_KEY,
        "userId":USERID,
        "passwd":PASSWD,
        "isLoginSina":"0",
        "action":"submit",
        "response_type":"code",
    }

    headers = {
        "User-Agent":"",
        "Host":"api.weibo.com",
        "Referer":referer_url
    }

    req = urllib2.Request(
        url = AUTH_URL,
        data = urllib.urlencode(postdata),
        headers = headers
    )

    try:
        resp = urllib2.urlopen(req)
        print "callbackurl is: %s" % resp.geturl()
        pat = "code=(.*?)$"
        print(resp.geturl())
        code = input()
        print "code is :%s" % code
    except Exception, e:
        print e

    r = client.request_access_token(code)
    access_token1 = r.access_token
    expires_in = r.expires_in

    print "access_token=", access_token1
    print "expires_in=", expires_in
    client.set_access_token(access_token1, expires_in)
    return client, access_token1

# 定义确定转发页面数量的函数：
def getPageNum(mid):
    count = client.get.statuses__,count(ids = mid)
    repostNum = count[0]['reposts']
    if repostNum%200 ==0:
        pages = repostNum/200
    else:
        pages = int(repostNum/200)+1
    return pages

# 定义抓取转发的函数：
def getReposts(mid, page):
    r =client.get.statuses__profile_list(access_token=mid, uid = , capital="A")
    print("r:"+str(r))
    if len(r) == 0:
        pass
    else:
        m = int(len(r['reposts'])) # 该页面里的微博转发数量
    try:
        for i in range(0, m): # 使用for循环遍历该页面里的所有转发微博
            #转发微博的属性
            mid = r['reposts'][i].id
            text = r['reposts'][i].text.replace(",","")
            created = r['reposts'][i].created_at
            reposts_count = r['reposts'][i].comments_count

            # 微博转发者的属性
            user = r['reposts'][i].user
            user_id = user.id
            user_name = user.name
            user_province = user.province
            user_city = user.city
            user_gender = user.gender
            user_url = user.url
            user_followers =user.followers_count
            user_friends =user.friends_count
            user_statuses = user.statuses_count
            user_created =user.created_at
            user_verified = user.verfied

            # 原微博的属性
            rts = r['reposts'][i].retweeted_status
            rts_mid = rts.id
            rts_created = rts.created_at
            rts_reposts_count =rts.reposts_count
            rts_comments_count =rts.comments_count

            # 原微博发出者的属性
            rtsuser_id = rts.user.id
            rtsuser_name = rts.user.name
            rtsuser_province =rts.user.province
            rtsuser_city = rts.user.city
            rtsuser_gender =rts.user.gender
            rtsuser_url = rts.user.url
            rtsuser_followers =rts.user.followers_count
            rtsuser_friends =rts.user.friends_count
            rtsuser_statuses = rts.user.statuses_count
            rtsuser_created =rts.user.created_at
            rtsuser_verfied =rts.user.verfied
            timePass = clock()-start
            if round(timePass) % 2 == 0:
                print mid, rts_mid, "I havebeen working for %s seconds" % round(timePass)
               time.sleep(random.randrange(3, 9, 1))
            print >>dataFile, "%s, '%s',%s" % (mid, created, text)

    except Exception, e:
        print >>sys.stderr, 'EncounteredException:', e, page
        time.sleep(120)
        pass

client, access_token1 = weiboClient() # 连接到API接口
# mid为微博的mid，即在转发——私信中确定的路径后几位。
mid = client.get.statuses__queryid(mid = 'EqXcf9AyW', isBase62 = 1, type = 1)['id']
mid = "EqXKmhj85"
# 定义存储文档地址
dataFile = open("F:/python_workspace/file/weibo/weibo_repost_all.csv", "wb")
pageNum = 10
for page in range(1, pageNum+1):
    thisdata = getReposts(access_token1, page)
    print(thisdata)
dataFile.close()

其中statuses/user_timeline为可调用函数：

调用时改成statuses__user_timeline()即可，对应的参数为：

上面为常用的几个案例，可以作为练习。

你可能感兴趣的:(数据挖掘)

【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
满血DeepSeek加持的AlphaGPT，助力高文律师事务所全面拥抱AI
2025年初,中国团队精心雕琢的通用大模型DeepSeek凭借其创新的架构优化以及深入的数据挖掘技术,在逻辑推理、多轮对话和知识搜索等关键领域大放异彩,其为诸多垂直领域,特别是法律行业的智能化转型,开拓了全新的方向。2月8日,法律科技领域的领军者iCourt将旗下的AlphaGPT与DeepSeek深度融合,重磅推出业内首款“DeepSeek+法律专业”AI大模型。这一创举彻底打破了传统法律智能工
量化策略进阶：事件驱动与另类数据挖掘实战
前面的章节，我们已经详细探讨了量化系统的基础架构：从数据的获取与管理（数据层），到策略的研发与验证（回测层），再到指令的高速执行（交易执行层），以及确保资金安全的防线（风控与监控运维层），我们共同构建了一套完整的量化交易体系。今天，我们将深入探讨量化策略的更高维度：事件驱动型策略和另类数据挖掘。这不仅仅是技术栈的扩展，更是对市场洞察力和信息处理能力的全面提升，旨在帮助您的策略在传统量价数据之外，捕
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
【力扣（LeetCode）】数据挖掘面试题0013：1264. 页面推荐（泛化后，基于MySQL题解）言析数智数据挖掘常见面试题 leetcode 数据挖掘 mysql 笔试笔试题
文章大纲一、题目要求：二、模拟数据构建三、题解参考方案朋友关系列表：Friendship+---------------+---------+|ColumnName|Type|+---------------+---------+|user1_id|int||user2_id|int|+---------------+---------+(user1_id,user2_id)是这张表具有唯一值的列
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
推荐算法化身 “购物读心术”！ZKmall开源商城如何让用户消费激增 30%？ zkmall ZMkall B2C商城 B2B2C商城推荐算法算法机器学习
在电商竞争白热化的当下，如何精准把握用户需求、提升消费转化，成为企业突围的关键。ZKmall开源商城以推荐算法为核心驱动力，通过深度数据挖掘与智能策略优化，实现用户平均消费金额提升30%，复购率增长25%。这套被称为“购物读心术”的技术，究竟如何颠覆传统电商的人货匹配模式？一、传统推荐的痛点：“猜不准”导致用户流失传统电商平台的推荐功能往往依赖简单的“热销商品”“同类推荐”逻辑，无法满足用户个性化
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
Python入门Day1 Zonda要好好学习 Python python 开发语言
Python介绍Python的发展历程为什么叫PythonPython本来是蟒蛇的意思，用来象征写代码的程序员。因为相对于Java、C++等程序，Python非常简单，所以写Python也的程序员也象征“玩蛇”的程序员。Python的由来Python的历史也相对比较悠久，可以追溯到1990年，有数十年的发展历程，随着今年人工智能和数据挖掘的发展，Python飞速发展。ABC语言是一种语言和编程环境
基于Python的气象数据分析及可视化研究
气象数据作为地球系统科学的核心要素，其分析与可视化在气候研究、灾害预警、农业生产等领域具有战略性意义。本文以Python技术栈为基座，系统探讨气象数据的采集预处理、多维度分析模型及可视化表达范式，通过3000+字深度研究揭示Pandas时序处理、Xarray多维计算、Cartopy地理可视化等工具的核心方法论。内容涵盖全球再分析数据挖掘、极端天气模式识别、动态热力图构建等实战场景，并引入机器学习预
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
【字节跳动】数据挖掘面试题0004：一个随机整数产生器产生[1，5]，如何设计一个产生[1，7]的随机整数产生器。言析数智数据挖掘常见面试题 python 随机数算法面试题
文章大纲题目描述方法思路具体实现方法解释数学原理通俗类比解释第一步：从1-5到0-4第二步：创造"更大的骰子"第三步：给棋盘编号第四步：压缩到1-7第五步：处理"无效数字"总结：`完成解决方案流程`题目描述要基于一个生成范围在[1,5]的随机整数生成器来设计出能生成[1,7]随机整数的生成器，可按以下步骤操作：方法思路借助原有的生成器生成两个相互独立的随机数，范围都是[1,5]。把这两个随机数组合
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【字节跳动】数据挖掘面试题0002：从转发数据中求原视频用户以及转发的最长深度和二叉排序树指定值言析数智数据挖掘常见面试题数据挖掘面试题
文章大纲题目一：从转发数据中求原视频用户以及转发的最长深度问题分析解题思路寻找原视频用户计算转发最长深度题目二：在一棵二叉排序树中，找到比给定数值小的最大节点方法思路题目一：从转发数据中求原视频用户以及转发的最长深度在数据处理和算法面试中，常常会遇到一些基于实际业务场景的题目，比如根据用户转发数据来分析原视频用户以及转发深度。今天就来探讨一道这样的面试题：给定被转发用户和转发用户两组数据，求原视频
【字节跳动】数据挖掘面试题0001：打车场景下POI与ODR空间关联查询言析数智数据挖掘常见面试题数据挖掘人工智能面试题
题目描述打车的场景下，poi记录了建筑物的坐标：poi(pid,x,y)，odr记录的是乘客上车点的坐标：odr(oid,x,y)；希望对所有的poi，获得其周围的100m的odr：结果(pid,oid)打车场景下POI与ODR空间关联查询在打车场景中，我们经常需要将建筑物坐标(POI)与乘客上车点(ODR)进行空间关联分析。这个问题本质上是一个空间连接(SpatialJoin)问题，需要找到距离
Python爬虫实战：如何爬取雪球网的股票数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言自动化区块链
引言雪球网（Xueqiu）是中国知名的股票投资社交平台，它提供了丰富的股票数据、投资者的评论和分析，并允许用户进行股票交易的模拟。雪球平台集成了大量的股市数据，包括个股的实时行情、财务数据、投资者分析以及论坛社区内容。许多投资者和金融分析师都在该平台上进行股票研究、讨论和数据挖掘。在本文中，我们将介绍如何通过Python爬虫抓取雪球网的股票数据。通过分析雪球网提供的API和网页结构，获取个股的实时
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR