Huranqingqing

推荐系统--基于用户的协同过滤算法（UserCF）

推荐系统–基于用户的协同过滤算法（UserCF）

基本概念

基本思想：向用户 $u$ 推荐时，我们可以先找到和 $u$ 相似的用户集合 $N_u$ ，然后把这些用户喜欢的物品，但 $u$ 没有看过的物品推荐给他。

步骤：

找到和目标用户相似的用户集合。
找到这个集合中的用户喜欢的，且目标用户还没有听说过的物品，然后推荐给目标用户。

步骤1 - - 找相似用户

为了找到目标用户的相似用户，我们需要计算不同用户之间的相似度。协同过滤算法主要利用行为的相似度计算兴趣的相似度。对于用户 $u$ 和 $v$ ， $N_u, N_v$ 分别表示他们有交互的物品集合。我们通过 Jaccard 公式计算用户之间的相似度：
$sim_{(u,v)}=\frac{\vert N_u \cap N_v \vert}{\vert N_u \cup N_v \vert}$
同样，我们也可以利用余弦相似度、皮尔逊系数来计算用户之间的相似度。具体可见推荐系统–协同过滤（Collaborative Filtering）

具体案例

我们以电影评分预测为例，数据集为 MovieLens-1M，有关数据集详情，可见推荐系统–MovieLens数据集。

读取数据集

def get_data(data_path):
    # 重新定义列名
    col_names = ["user_id", "movie_id", "rating", "timestamp"]
	# 加载评分数据
    ratings = pd.read_csv(os.path.join(data_path, "ratings.dat"), sep="::", engine="python", names=col_names)
    """
    ratings 的格式为
    
		   user_id  movie_id  rating  timestamp
		0        1      1193       5  978300760
		1        1       661       3  978302109
		2        1       914       3  978301968
		3        1      3408       4  978300275
		4        1      2355       5  978824291
	"""
    # 划分训练集和测试集
    train_data, val_data, _, _ = train_test_split(ratings, ratings, test_size=0.2)
    
    # 将数据按照用户进行分组
    train_data = train_data.groupby("user_id")["movie_id"].apply(list).reset_index()
    """
	train_data 的格式为 

		 	user_id                                           movie_id
		0        1  [1097, 1566, 3114, 2797, 48, 661, 1197, 2687, ...
		1        2  [1954, 1217, 1265, 498, 1196, 3256, 434, 2002,...
		2        3  [3534, 2167, 2871, 648, 2081, 1197, 1580, 1379...
		3        4  [2947, 1214, 1387, 3418, 1210, 1198, 1201, 346...
		4        5  [3260, 1610, 2952, 1268, 202, 2384, 3624, 3418...
"""
    val_data = val_data.groupby("user_id")["movie_id"].apply(list).reset_index()
    
    # 将数组构造成字典的形式{user_id:[item1, item2,...], user_id2:{item1,item2,....},...}
    train_user_item = {}
    val_user_item = {}
    
    for user_id, movie in zip(*(list(train_data["user_id"]), list(train_data["movie_id"]))):
        train_user_item[user_id] = set(movie)
    """
	转为字典格式之后，就是我们需要的输入格式
	
	{
	1:{1, 1028, 1029, 1287, 1545, 1035, 783, 527, 914, 531, 661, 150, 919, 1566, 3105, 
    2340, 1961, 3114, 1193, 1962, 1197, 2355, 1721, 1097, 2762, 588, 720, 3408, 595, 
    1246, 2398, 608, 2018, 2918, 2791, 745, 2028, 2797, 3186, 1907, 2804, 1270, 2294}
    2:{...},
    ...
    }
	
"""
    for user_id, movie in zip(*(list(val_data["user_id"]), list(val_data["movie_id"]))):
        val_user_item[user_id] = set(movie)
    return train_user_item, val_user_item

建立倒查表 items–>users

我们根据训练集合中用户和物品的交互信息建立倒查表 items_users。

倒排表的格式为：{item_id1:{user_id1, user_id2,…}, item_id2:{user_id1,…},…} ，它表示每个物品都与哪些用户有交互，建立倒排表的目的是为了更好的统计用户之间的共同交互的物品数量。

def item_user_list(train_user_item):
    print("建立倒排表....")
    items_users = {}
	# 遍历训练集中的每个用户以及他们所交互过的物品
    for user_id, items in tqdm(train_user_item.items()):
        for item in items: # 遍历出现过的物品
            if item not in items_users:
                items_users[item] = set() # 采用 set() 是可以自动去除重复
            items_users[item].add(user_id) # 将与这个物品有交互的用户添加到集合中
    return items_users

建立协同过滤矩阵

根据倒排表 items_users 来统计用户之间共同交互的物品数量。

协同过滤矩阵的形式为： {user_id1:{user_id2:num1, user_id3:num2}, user_id2:{user_id1:num1, user_id3:num2},…}，它是一个双层字典，表示不同用户之间共同交互的物品数量。

在计算协同过滤矩阵的同时，还要记录每个用户所交互的物品数量，形式为：num = {user_id1:num1, user_id2:num2,…}

def CollaborativeFilterMatrix(train_user_item, items_users):
	#  {user_id1:{user_id2:num1, user_id3:num2}, user_id2:{user_id1:num1, user_id3:num2},…}
    CFMatrix = {}
    
    # {user_id1:num1, user_id2:num2,…}
    num = {}
    print("构建协同过滤矩阵....")
    # 遍历所有的物品，统计用户两两之间交互的物品数
    for item, users in tqdm(items_users.items()):
        # 首先统计每个用户交互的物品个数
        for u in users:
            if u not in num:
                num[u] = 0
            num[u] += 1
            # 统计每个用户与其它用户共同交互的物品个数
            if u not in CFMatrix:
                CFMatrix[u] = {}
            for v in users:
                if v != u:
                    if v not in CFMatrix[u]:
                        CFMatrix[u][v] = 0
                    CFMatrix[u][v] += 1
    return CFMatrix, num
    """
		CFMatrix[1] = {6:8, 8:7, ....} 表示用户 1 与用户 6 有8个共同交互物品
	
		num[1] = 43 表示用户 1 共与 43 个物品有交互
	"""

计算相似度矩阵

我们使用余弦相似度来计算用户之间的相似度。用户的协同过滤矩阵可以看作余弦相似度的分子部分，还需要处理分母，分母就是两个用户分别交互物品数量的乘积，每个用户所交互物品的个数在num字典中保存。

def ComputeSimilarity(CFMatrix, num):
    sim = CFMatrix
    print("构建用户相似度矩阵....")
    for u, other_user in tqdm(CFMatrix.items()):
        for v, score in other_user.items():
            sim[u][v] = sim[u][v] / np.sqrt(num[u] * num[v]) # 分子 / 分母
    return sim
    """
		sim[1] = {6: 0.14333552726125529, 8: 0.07106690545187015,...} 表示用户 1 与用户 6 的相似度为 0.14333552726125529
	"""

步骤2 - - 进行 Top-N 推荐

根据与用户 $u$ 相似的前 $K$ 个用户的喜好为 $u$ 进行 Top-N 推荐

首先，需要根据用户相似度矩阵得到与当前用户最相似的前 K 个用户，然后对这 K 个用户所交互物品集中但当前用户并未交互过的物品计算相似度分数，最终推荐的候选物品的相似度分数是由多个用户对该物品分数的一个累加和。

def RecForUser(sim, train_user_item, val_user_item, K, N):
    print("给测试用户进行推荐....")
    items_rank = {}
    for u, _ in tqdm(val_user_item.items()):
        items_rank[u] = {}
        # sim[u] 的格式为 {user_id: similarity,....} 
        # 按照相似度进行排序，然后取前 K 个
        for v, score in sorted(sim[u].items(), key=lambda x:x[1], reverse=True)[:K]:
			# 找出相似用户中有交互的物品，但当前用户并未交互过的物品进行推荐
            for item in train_user_item[v]:
                if item in train_user_item[u]:
                    continue
                else:
                    if item not in items_rank[u]:
                        items_rank[u][item] = 0
                    # 其实就是相似度的累加和
                    items_rank[u][item] += score
    """
		items_rank 的格式为 {user_id:{item1:score1, item2:score2,...},...}
	"""
    print("为每个用户进行Top-N推荐....")
	
	# 将每个用户的推荐列表进行重排序，按照物品得分排序并取前 N 个
    items_rank = {k: sorted(v.items(), key=lambda x: x[1], reverse=True)[:N] for k, v in items_rank.items()}

	# 将格式转换为和训练集一样的，{user_id:{item1,...},...}
    items_rank = {k: set([x[0] for x in v]) for k, v in items_rank.items()} # 将输出整合成合适的格式输出
    return items_rank

评测指标

我们一般使用 Precision@N、Recall@N等指标来衡量推荐系统的性能。有关评测指标的内容可以参考推荐系统–评估方法和评估指标。

def Precision(rec_dict, val_dict):
    """
    rec_dict: 推荐列表或评分列表，形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    val_dict: 用户实际的点击列表或评分列表（测试集），形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    """
    hit_items = 0
    all_items = 0
    for user_id, items in val_dict.items():
        real_set = items
        rec_set = rec_dict[user_id]
        for item in rec_set:
            if item in real_set:
                hit_items += 1
        # 注意这里和 Recall 的区别，Recall 统计测试集里的样本，Precision 统计推荐列表中的样本
        all_items += len(rec_set)
    return round(hit_items / all_items * 100, 2)

def Recall(rec_dict, val_dict):
    """
        rec_dict: 推荐列表或评分列表，形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
        val_dict: 用户实际的点击列表或评分列表（测试集），形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    """
    # 推荐列表中用户点击的项目数
    hit_items = 0
    # 所有的项目
    all_items = 0
    for user_id, items in val_dict.items():
        # 测试集中真实的点击列表
        real_set = items
        # 推荐算法返回的推荐列表
        rec_set = rec_dict[user_id]
        # 当前用户推荐列表中有多少是实际点击的
        for item in rec_set:
            if item in real_set:
                hit_items += 1
        all_items += len(real_set)
    return round(hit_items / all_items * 100, 2)

案例–基于用户的协同过滤（电影评分预测）

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import os
from tqdm import tqdm

def Recall(rec_dict, val_dict):
    """
        rec_dict: 推荐列表或评分列表，形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
        val_dict: 用户实际的点击列表或评分列表（测试集），形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    """
    # 推荐列表中用户点击的项目数
    hit_items = 0
    # 所有的项目
    all_items = 0
    for user_id, items in val_dict.items():
        # 测试集中真实的点击列表
        real_set = items
        # 推荐算法返回的推荐列表
        rec_set = rec_dict[user_id]
        # 当前用户推荐列表中有多少是实际点击的
        for item in rec_set:
            if item in real_set:
                hit_items += 1
        all_items += len(real_set)
    return round(hit_items / all_items * 100, 2)
    
def Precision(rec_dict, val_dict):
    """
    rec_dict: 推荐列表或评分列表，形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    val_dict: 用户实际的点击列表或评分列表（集），形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    """
    hit_items = 0
    all_items = 0

    for user_id, items in val_dict.items():

        real_set = items
        rec_set = rec_dict[user_id]
        for item in rec_set:
            if item in real_set:
                hit_items += 1
        # 注意这里和 Recall 的区别，Recall 统计测试集里的样本，Precision 统计推荐列表中的样本
        all_items += len(rec_set)
    return round(hit_items / all_items * 100, 2)

def Coverage(rec_dict, train_dict):
    """
    rec_dict: 推荐列表或评分列表，形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    train_dict: 用户实际的点击列表或评分列表（训练集），形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    """
    hit_items = set()
    all_items = set()
    for user_id in rec_dict:
        for item in train_dict[user_id]:
            all_items.add(item)
        for item in rec_dict[user_id]:
            hit_items.add(item)
    return round(len(hit_items) / len(all_items) * 100, 2)

def Popularity(rec_dict, train_dict):
    """
    rec_dict: 推荐列表或评分列表，形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    train_dict: 用户实际的点击列表或评分列表（训练集），形式为：{user_id:{item1, item2,....}, user_id:{item1, item2,....}}
    """
    pos_item = {}
    for user_id in train_dict:
        for item in train_dict[user_id]:
            if item not in pos_item:
                pos_item[item] = 0
            pos_item[item] += 1
    
    pop, num = 0, 0
    for user_id in rec_dict:
        for item in rec_dict[user_id]:
            pop += math.log(pos_item[item] + 1) # 由于物品流行度满足长尾分布，取对数可以使得平均值更加稳定
            num += 1
    return round(pop / num, 3)

def rec_eval(val_rec_items, val_user_items, trn_user_items):
    print('Recall:',Recall(val_rec_items, val_user_items))
    print('Precision',Precision(val_rec_items, val_user_items))
    print('Coverage',Coverage(val_rec_items, trn_user_items))
    print('Popularity',Popularity(val_rec_items, trn_user_items))

def get_data(data_path):
    
    col_names = ["user_id", "movie_id", "rating", "timestamp"]
    ratings = pd.read_csv(os.path.join(data_path, "ratings.dat"), sep="::", engine="python", names=col_names)
    
    # 划分训练集和测试集
    train_data, val_data, _, _ = train_test_split(ratings, ratings, test_size=0.2)
    
    train_data = train_data.groupby("user_id")["movie_id"].apply(list).reset_index()
    
    val_data = val_data.groupby("user_id")["movie_id"].apply(list).reset_index()
    
    # 将数组构造成字典的形式{user_id: [item_id1, item_id2,...,item_idn]}
    train_user_item = {}
    val_user_item = {}
    
    for user_id, movie in zip(*(list(train_data["user_id"]), list(train_data["movie_id"]))):
        train_user_item[user_id] = set(movie)
    
    for user_id, movie in zip(*(list(val_data["user_id"]), list(val_data["movie_id"]))):
        val_user_item[user_id] = set(movie)
    return train_user_item, val_user_item

def item_user_list(train_user_item):
    print("建立倒排表....")
    items_users = {}
    for user_id, items in tqdm(train_user_item.items()):
        for item in items:
            if item not in items_users:
                items_users[item] = set()
            items_users[item].add(user_id)
    return items_users

def CollaborativeFilterMatrix(train_user_item, items_users):
    CFMatrix = {}
    num = {}
    print("构建协同过滤矩阵....")
    # 遍历所有的项目，统计用户两两之间交互的项目数
    for item, users in tqdm(items_users.items()):
        
        # 首先统计每个用户交互的项目个数
        for u in users:
            if u not in num:
                num[u] = 0
            num[u] += 1
            
            # 统计每个用户与其它用户共同交互的项目个数
            if u not in CFMatrix:
                CFMatrix[u] = {}
            for v in users:
                if v != u:
                    if v not in CFMatrix[u]:
                        CFMatrix[u][v] = 0
                    CFMatrix[u][v] += 1
                    
    return CFMatrix, num

def ComputeSimilarity(CFMatrix, num):
    sim = CFMatrix
    print("构建用户相似度矩阵....")
    for u, other_user in tqdm(CFMatrix.items()):
        for v, score in other_user.items():
            sim[u][v] = sim[u][v] / np.sqrt(num[u] * num[v])
    return sim
                   
def RecForUser(sim, train_user_item, val_user_item, K, N):
    print("给测试用户进行推荐....")
    items_rank = {}
    for u, _ in tqdm(val_user_item.items()):
        items_rank[u] = {}
        for v, score in sorted(sim[u].items(), key=lambda x:x[1], reverse=True)[:K]:
            for item in train_user_item[v]:
                if item in train_user_item[u]:
                    continue
                else:
                    if item not in items_rank[u]:
                        items_rank[u][item] = 0
                    items_rank[u][item] += score
    print("为每个用户进行Top-N推荐....")
    items_rank = {k: sorted(v.items(), key=lambda x: x[1], reverse=True)[:N] for k, v in items_rank.items()}
    items_rank = {k: set([x[0] for x in v]) for k, v in items_rank.items()} # 将输出整合成合适的格式输出
    return items_rank 

if __name__ == "__main__":
    root_path = './data/ml-1m/'
    train_user_item, val_user_item = get_data(root_path)
    items_users = item_user_list(train_user_item)
    CFMatrix, num = CollaborativeFilterMatrix(train_user_item, items_users)
    sim = ComputeSimilarity(CFMatrix, num)
    rec_items = RecForUser(sim, train_user_item, val_user_item, K=80,N=10)
    rec_eval(rec_items, val_user_item, train_user_item)
	
	"""
		推荐模型评估：
		Recall: 10.26
		Precision 33.99
		Coverage 19.41
		Popularity 7.228
	"""

代码参考了 https://github.com/datawhalechina/fun-rec?spm=5176.21852664.0.0.7c1147a9gwgeMq

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，