likika2012

阿里云大数据推荐系统

同学们：
随着比赛的进行，第二季比赛很快就要来临了。在第二季的比赛中，参赛者需登录阿里巴巴ODPS平台，访问海量天猫数据。利用ODPS平台的集成工具与算法，建模与提交结果。目前ODPS提供了一些基础的算法包和工具，可能不能完全满足大家需要。希望能够同学们可以通过回帖的方式反馈给我们，我们将视情况加入大家共同需要算法包，比如BP 神经网络。当然深度学习之类的估计就很难支持了。

ODPS目前提供的算法列表如下：

分类预测	随机森林
	逻辑回归
	支持向量机
	朴素贝叶斯
回归分析	线性回归
回归分析	GBDT
聚类分析	Kmeans
关联分析	关联规则
矩阵计算	SVD
矩阵计算	PCA

支持的语言：sql 、java/pythonudf、ruby
希望大家踊跃提出自己的建议，谢谢！

天猫推荐算法团队
请关注微博：2014阿里大数据竞赛技术交流

http://bbs.aliyun.com/read/153103.html?spm=5176.7189909.0.0.JotHfl

鉴于本小弱非数据挖掘出身，只是在coursera上跟过Ng的机器学习，估计最后做一个regression再上一个协同过滤就到极限了，就不去争名次了。写一些step by step 的入门东西，帮助感兴趣的新手快速入手，希望大家可以快速的参与进比赛来，如果真的有帮助到某个同学的话，那就苟富贵勿相忘了。

首先扫一眼数据发现时间那一列居然是中文，先转成可处理的日期格式，就假设数据是13年的好了。

def parse_date(raw_date):
    entry_date = raw_date.decode("gbk")
    month = int(entry_date[0])
    if len(entry_date) == 5:
        day = 10 * int(entry_date[2]) + int(entry_date[3])
    else:
        day = int(entry_date[2])
    return 2013, month, day

由于不能实时的去测试算法的效果，现阶段只能将给的数据分成训练集和验证集，我的策略是前三个月当训练集，最后一个月当验证集。这里好像吐槽一下阿里，你好歹弄个一天一测试也好啊，你一周给一次测试机会让我们怎么持续优化算法啊？一天跑一次测试对你们有什么难度么？这种东西你让我们事实测试也不是什么技术难题啊！

尽管对基于时间序列的分析半点经验都没有，但是还是知道越靠后的内容权重应该越大，于是以4月15号为零点，在把数据分成两个集合的同时把时间部分重新处理一遍。同时验证集合只需要购买的记录就可以了，就把没用的记录过滤掉。

def split_file(raw_file, seperate_day, begin_date):
    train = open("train.csv", "w")
    validation = open("validation.csv", "w")
    raw_file.readline()
    for line in raw_file.readlines():
        entry = line.split(",")
        entry_date = date(*parse_date(entry[3]))
        date_delta = (entry_date - begin_date).days
        if date_delta < seperate_day:
            train.write(",".join(entry[:3]) + "," + str(date_delta) + "\n")
        elif int(entry[2]) == 1:
            validation.write(",".join(entry[:2]) + "\n")
            print ",".join(entry[:2])
    train.close()
    validation.close()

生成了验证集合后，需要将结果归并一下，估计阿里那边的测试也就是个文本对比，所以把验证集合的结果也归并成提交格式要求的那个样子。

def generate_result(validation):
    entrys = validation.readlines()
    entrys.sort(key=lambda x: x.split(",")[0])
    result = open("result.txt", "w")
    for index, entry in enumerate(entrys):
        uid, tid = entry.strip().split(",")
        if index == 0:
            cur_id = uid
            cur_result = [tid]
        elif uid == cur_id:
            cur_result.append(tid)
        else:
            result.write(cur_id + "\t" + ",".join(set(cur_result)) + "\n")
            cur_id = uid
            cur_result = [tid]
    result.close()

然后就是把这几个函数都整合起来，就可以省成初步的训练集，验证集，和最终结果了

SEPERATEDAY = date(2013, 7, 15)
BEGINDAY = date(2013, 4, 15)
raw_file = open("t_alibaba_data.csv")
split_file(raw_file, (SEPERATEDAY - BEGINDAY).days, BEGINDAY)
raw_file.close()
validation = open("validation.csv")
generate_result(validation)

由于官方一周才能跑一次测试（再次强烈吐槽）我们本地也要自己完成在验证集合上的测试，需要对比算法预测出来的结果和验证集上的结果：

from collections import defaultdict

predict_num = 0
hit_num = 0
brand = 0
result = defaultdict(set)
f = open("result")
for line in f.readlines():
    uid, bid = line.split("\t")
    result[uid] = bid.split(",")
    brand += len(result[uid])
f.close()


f = open("predict.txt")
for line in f.readlines():
    uid, bid = line.split("\t")
    bid = bid.split(",")
    predict_num += len(bid)
    if uid not in result:
        continue
    else:
        for i in bid:
            if i in result[uid]:
                hit_num += 1

print "predict num is ", predict_num
print "hit num is ", hit_num
print "total brand is ", brand

precision = float(hit_num)/predict_num
callrate = float(hit_num)/brand
print "precision is ", precision
print "call rate is ", callrate

print "F1 is ", 2*precision*callrate/(precision+callrate)

剩下的要做的就是不断的改进算法然后用上面的程序来测试效果了。不过我在本机的验证集合上测试出来的结果和官方数据测试的结果还是有些出入的，不过现阶段貌似也只能这么做了。

为了奖励看到最后的人，透漏一点小秘密，直接预测最后一个月买过东西的人再重新买一次也能获得9%的准确率，当然召回率很低了，不过至少应该比盲狙的结果好。

再说的直白点，即使你啥都不做就是把我的程序跑通了，那么你直接把前面验证集的结果提上去就能获得一个还算体面的准确率，多的我就不说了嗯。

阿里最近搞了个大数据竞赛，赛题在这里：
http://102.alibaba.com/competition/addDiscovery/gameTopic.htm
阿里提供了4个月的用户数据，格式是这样的一个EXCEL表：
11158000 5043 0 5月9日
11158000 5043 0 7月22日
11158000 5043 0 7月14日
11158000 5043 0 5月11日
11158000 5043 1 5月5日
第一列是用户ID，第二列是商品品牌ID，第三列是用户行为（0,1，2,3分别代表点击，购买，收藏，购物车）。需要我们预测下个月的用户购买行为，评价标准是准确率和召回率以及两者的调和平均值。
我试了几个方案，发现直接将收藏和购物车作为用户购买行为的依据却是最好的方法，简单粗暴，难道这就是所谓的奥卡姆剃刀？不过，也有可能是我另外的方案设计得不好。
熟悉推荐算法的同学给点建议吧，最好要简单点，实现起来比较方便，代码量在几百行级别最好，毕竟只是个竞赛呢。谢过啦。

用户

23 回复 | 直到 2014-03-23 10:52:05

casparchen 23 天前

我觉得还是综合几种建模方式的结果比较靠谱。比如
建模1：针对每个品牌，该品牌的不同用户点击/收藏/购买肯定是有规律的
建模2：针对每个用户，该用户对品牌的购买情况是有规律的。
比如以上两种建模方式，1的效果我猜是大于2的，因此可以取｛建模1结果：建模2结果｝＝｛2：1｝

webjin 23 天前

http://gtms02.alicdn.com/tps/i2/T11omZFu0XXXaTF0MH-435-146.png 知道这是什么编辑器吗？那中间的->线是什么弄出来的

yelite 23 天前 ♥ 1

@ webjin 那个是制表符
编辑器目测是notepad++

ihacku 23 天前

@ webjin 这不是notepad++么

ljcarsenal 23 天前

@ webjin notepad++吧

vbs 23 天前

这比赛挺好的，可惜只许在校生参加

sobigfish 23 天前

只有报名了才下载的到数据么？

ericls 23 天前

数学建模上吧

webjin 23 天前

@ yelite 哦我也感觉是notepad++ 但是那制表符是怎么弄出来的

yangff 23 天前

看起来像马尔科夫链……假如上个月对品牌A做了操作B导致下个月对品牌C操作D的概率啥的。。

66beta 22 天前

@ webjin 觉得是gedit

66beta 22 天前

@ 66beta gedit无疑
http://static.alanedwardes.com/truth-gedit.png

delo 22 天前

@ webjin

npp里有个显示所有字符的功能

Lucius 22 天前

@ 66beta notepad++无疑而且是默认配色

ericls 22 天前 via Android

这就是一个不折不扣的数学建模题啊

armysheng 22 天前

@ buptlee 直接将收藏和购物车作为用户购买行为的依据却是最好么？
如果用前三个月做测试，后1个月做校验，按照你说的直接选有收藏和购物车我算的结果是
predict num is 2858
hit num is 185
total brand is 18537
precision is 0.0647305808258
call rate is 0.00998003992016
F1 is 0.0172937602244
F1才1.7%啊？

buptlee 21 天前

@ armysheng 要不show me your code？

armysheng 21 天前

@ buptlee 额，上面说的好像搞错了。上午改了一下，但是如果纯按是否有收藏和购物车来判的话，F1貌似还是不高啊
predict num is 491
hit num is 2
total brand is 1377
precision is 0.0040733197556
call rate is 0.00145243282498
F1 is 0.00214132762313
判断条件的代码是这样的：
if int(op3[2])|int(op3[3]) |int(op2[2])|int(op2[3])|int(op1[2])|int(op1[3]):
predict_temp.write(uid +"," + bid + "\n")

armysheng 20 天前

@ buptlee 方便私底下交流么，没人可以讨论真是尴尬

lj 20 天前

@ armysheng 官方论坛里还是蛮多人在讨论的，看了一圈清晰了很多。P.S. 我也觉得2、3效果有限而且毕竟数据量太小，0和1的correlation比2、3的大多了。

heliumhgy 18 天前 via Android

协同过滤算法

heliumhgy 18 天前 via Android

据说效果不好

buptlee 17 天前

@ heliumhgy 恩，我们就用简单的打分办法，效果却还可以，F1值有接近6%吧，打算调调参数，等到season2再上算法了，。

一、同为推荐，大不同！

不知道同学们是否经常在天猫购物，但是相信大家一定听过音乐，看过电影，读过新闻和小说。大家在享受各种娱乐信息的时候，正在被网站的后台悄悄地记录着你的信息，分析着你的偏好，然后向你推荐越来越喜欢的内容。整个过程也许你并没有明显的感知，但是你会慢慢上瘾，喜欢上它，比如爱上虾米。这其实都是推荐算法的功劳。现在，你们也有机会用自己的算法让大家爱上购物。但是，音乐推荐、视频推荐、新闻推荐和品牌推荐的不同之处还是要注意的，要去思考的。

不都是推荐么？有什么不同的呢？其实，还是有很多不同点的，我觉得没有一个人能把所有的不同点罗列清楚，暂且和大家分享一下我想到的一些点，没有什么逻辑，主要是抛砖引玉，希望大家能跟帖谈谈你们认为的不同点。

1、代价不同。你推荐给我一首歌，不好听，大不了换一首，不好听，再换，最后总能找到自己喜欢的歌。可是购物呢，你推荐我一个服装品牌，我花了半个月的伙食费买了，等待了几天，到货后发现不满意，怎么办？扔掉？太可惜了！穿在身上？天天别扭！退掉？还要再花点邮费！不管结局怎们样，总之不爽。如果是买个家居什么的，不喜欢的话，可能后悔一辈子。所以购物的用户体验周期要远长于音乐、影视推荐。推荐的试错成本很大。

2、需求的单一性与喜好的相似性。喜欢看动作片，那么相似的动作片我都能看一遍。但是购物就不同了，购物更多的是刚需，喜欢可爱的衣服，一般人也不会把所有喜欢的可爱的衣服都买下来，更多的是每个季节只买一件。家居类的频次就低了，可能一辈子就买一次。不同的类目的需求频率是不一样的。

还有很多不同的点，这里不再赘述。找不同有什么用？当然是算法选择了，通过上面的2个不同的点，你还会用协同过滤么？

二、活用数据，不要被数据绑架！

大家一谈到大数据就兴奋，数据就是资产，数据就是财富。

其实，大就是少，越是真实的业务数据，数据量就越大，可用的信息比例就越少，更多的是噪音数据。

玩大数据和玩实验室数据有啥不同？夸张点，就是大海捞针和试管捉鱼的不同！如果没有找到适合的信号探测方法，很难找到那根你要的针。

如果你拟合了噪音数据，那就被数据绑架了，所以不要只看数据，更多地从思考一下业务。

相关与因果

最近有本书很火，里面提到一个论点，大概意思是：大数据更重视相关，不关心因果。大家不要迷信这些话。我举几个例子：1）你如果看数据，手机和手机配件的相关性一定很大，如果一个人买了手机，你推荐手机配件是合理的，但是如果一个人买了手机配件，你去推荐手机就有点弱智了。2）孕妇装和奶粉的相关性也许很大，但是买了奶粉的人，推孕妇装就不合适了。所以买了又买的又字不是同时的意思，是条件的意思。

人的消费行为是有规律的，比如：随着收入的增加会越来越重视品牌，在人生的不同阶段会买不同类目的商品等等；人的消费有心理学现象的，比如：从众购买，容易受限时秒杀等活动影响等。

信号与噪声

信息就像能量一样，总会衰减，最终退化成毫无意义的噪声。我昨天点击了某个品牌，说明可能想买，但是如果是上个月点击的，和现在会不会买基本上没有多大关系了。

对品牌A点击了1次，对品牌B点击了10次，是更喜欢品牌B，还是犹豫不决？需要通过数据去分析，要结合其它指标对判定。

点击了某个品牌是想买，还是过来看看卖家是否发货？或者没到货前，再品味一下？

所以，真实的业务数据处处都是噪声。

活用数据，设计有业务含义的特征体系，是构造鲁棒模型的基础！

自我介绍：

算者：ADD大赛内部赛冠军拓扑队队长。阿里巴巴商务智能部数据分析专家。曾就职于中科院自动化所复杂系统与智能科学实验室、光大银行总行、百度；

冠军队其它成员：

楚蛮：学习于中科院计算所感知课题组，曾就职于雅虎北京研究院，百度等公司，现在在阿里巴巴聚划算数据挖掘岗位；

小法：曾就职神州数码、百度、现就职于阿里妈妈事业部，从事项目工程相关工作，平时喜欢打球、dota。

feature不但重要而且很关键，模型或者算法的作用在于如何更好组合这些feature。举个例子，就像玩乐高积木，feature就像各种组件，如果你想做一个汽车积木，首先要凑够车轮、车轴等零件和组件（feature），模型或者算法就是你的设计，通过你的设计用你自己选择的零部件组装一辆汽车。然后看谁的车跑的远，或者做的像。如果测评的是谁的车跑的远，就要重点选择车轮、车轴，如果考虑看谁的车做的像，就要考虑车灯，车窗，车架。首先看你要比什么，这是优化目标，然后看需要什么特征（零部件）和算法（设计）。

请关注“天池”平台支持的脚本和已有的算法，在Season 1可以使用自己熟悉的，但是Season 2数据是不可下载的，只能在“天池”平台上操作。
Season 2：2014年4月25日至7月30日，参赛者须使用“天池”平台（阿里巴巴自主研发的分布式计算平台），访问海量的天猫数据，并利用Map&Reduce、SQL及各种平台集成的机器学习算法包调试模型、提交结果。

F1-score只是衡量模型和算法效果的多种方式中的一种，评分标准的制定是主办方权衡各种利弊制定出来的。同学们要从解决真实业务问题的目的出发，不要刻意去找所谓的漏洞。相信一点，相对于高分，大家更希望看到高分背后的好思路、好算法和好特征。我们要做的是找到业务背后的规律，不是对数据的拟合，也只有前者才可以取得最后的好成绩。

楼主体会很多，相信在建模的过程中，考虑到了很多实际情况，这一点就是做实际工作和搞研究的不一样。最近参加大数据竞赛，看了国内很多写个性化推荐算法的论文，品质不算太高（只是觉得对竞赛的帮助不是特别大，个人鄙见，看的数量不是太多）。具体问题确实需要具体分析，越真实的环境，越需要贯彻：实事求是、求真务实的精神。
至于“天池”平台，希望他能够提供更多的数据工具箱，比如ARMA的时间序列分析，更多的回归方法~~~
建模的魅力是无限的，建立模型量化消费者的购物欲望，进而进行预测推荐，可能是需要我们仔细思考的。

Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
上万个Map运行时链接ApplicationMaster超时FAILED 500佰大数据云计算 big data mapreduce
#MapReduce业务常见故障#大数据#生产环境真实案例#MapReduce#批计算#离线业务#整理#经验总结说明：此篇总结MapReduce业务常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言更多专题(详见)：MapReduce计算引擎详解--项目优化(指导书)上万个Map运行时链接ApplicationMaster超时FAILED症状Mapreduce任务会并发起几万个map,会
Python爬虫实战：抓取电子图书平台图书信息与下载数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化
前言电子图书平台汇集了海量的图书资源和丰富的信息，抓取这些数据可用于研究图书销售趋势、阅读偏好分析，甚至为书籍推荐系统提供数据支持。本文将详细介绍如何使用Python爬虫技术抓取电子图书平台的图书信息和下载数据。我们会涵盖从需求分析到代码实现的完整流程，探讨如何应对复杂的反爬机制，并使用最新的技术工具优化抓取过程。目录前言一、需求分析与目标1.1抓取目标1.2难点与挑战二、技术选型与工具2.1使用
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
pandas常用数据格式IO性能对比 lining808 Python pandas python 数据分析
前言本文对pandas支持的一些数据格式进行IO（读写）的性能测试，大数据时代以数据为基础，经常会遇到操作大量数据的情景，数据的IO性能尤为重要，本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。csvCSV（Comma-SeparatedValues）是一种用于存储表格数据的简单文件格式。在CSV文件中，每一行通常代表一条记录，字段（列）由逗
Spring Boot项目中集成阿里云短信服务山高自有客行路 #Springboot spring boot 阿里云后端
1.导入阿里云依赖首先，在你的pom.xml文件中添加阿里云短信服务的Maven依赖：com.aliyundysmsapi201705252.0.24确保你已经包含了其他必要的依赖，如MySQL驱动和MyBatis：mysqlmysql-connector-javaruntimeorg.mybatis.spring.bootmybatis-spring-boot-starter2.2.0org.p
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
2024年上半年系统架构设计师论文真题任铄软考2024年上半年真题系统架构设计师架构设计软考 2024 论文范文真题
一、论大数据lambda架构大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理系统架构，其核心思想是将批处理作业和实时流处理作业分离，各自独立运行，资源互相隔离，解决传统批处理架构的延迟问题和流
2024年5月份架构师考试论文真题完整版 Zoi Gil(学习) 大数据 flink hdfs hadoop python
三、论文1.关于大数据的，Lambda架构文老师押中了原题，几乎描述一致撰写关于Lambda架构的软考论文时，一个清晰且结构化的大纲是成功的关键。以下是一个简单的论文大纲示例，旨在覆盖Lambda架构的核心概念、设计原则、优缺点、实际应用案例以及对比其他架构（如Kappa架构）的分析：大纲简要介绍Lambda架构的基本概念及其在大数据处理领域的地位。概述论文的主要研究内容、目的及预期贡献。背景介绍
2024架构设计师论文题目数字化信息化智能化解决方案 2024架构
论文1大数据lamda架构1、简要说明你参开发的软件项目,吸你所承担的主要作2、lamada体系架构将数据流分为批处理层(对应的英文、加速层文、服务层。简要叙这三个层次的用途和特点3、详细阐述你参与开发的软件项目如何基于lamada体系架构进行大数据处理的架构论文2模型驱动架构设计方法及其用1、简要说明你参与分析和研发的软件项目,吸你所承担的要工作2、简要阐述采用模型驱动架构思想进行软件开发的全过
【系统架构设计师】2024年上半年真题论文: 论大数据lambda架构（包括解题思路和素材）数据知道系统架构架构系统架构设计师软考高级论文
更多内容请见：备考系统架构设计师-专栏介绍和目录文章目录真题题目（2024年上半年试题1）解题思路论文素材参考真题题目（2024年上半年试题1）大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理
Java 大视界 -- Java 大数据中的数据可视化大屏设计与开发实战（127）青云交大数据新视界 Java 大视界 java 大数据信息可视化数据可视化大屏跨平台性类库设计流程
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
从零开始搭建搜索推荐系统（五十四）多路召回之万剑归宗 hanyi_ 搜索推荐 java java 搜索系统
聊的不止技术。跟着小帅写代码，还原和技术大牛一对一真实对话，剖析真实项目筑成的一砖一瓦，了解最新最及时的资讯信息，还可以学到日常撩妹小技巧哦，让我们开始探索主人公小帅的职场生涯吧！（PS：本系列文章以幽默风趣风格为主，较真侠和杠精请绕道~）一、奶茶引发的血案（会议室里，行服小姐姐把笔记本往桌上一拍，屏幕上是密密麻麻的搜索日志）行服姐姐："小帅！你自己看看！用户搜'朝阳区低糖芝士草莓冰沙'，你家系统
【C#】VS2019怎么能无论是Debug还是Release模式，生成路径都在Release文件夹下？ JosieBook #C#语言 vs
文章目录⭐问题⭐解决标题详情作者JosieBook头衔CSDN博客专家资格、阿里云社区专家博主、软件设计工程师博客内容开源、框架、软件工程、全栈（,NET/Java/Python/C++）、数据库、操作系统、大数据、人工智能、工控、网络、程序人生口号Tobeyourself，todowhatyouwant.联系方式q:1967473153欢迎三连点赞、✍评论、⭐收藏⭐问题正常情况下，是这样：怎么让
大模型相关知识学习随记 m0_65156252 语言模型人工智能自然语言处理
2024/3/151，概念解释：通义千问，是阿里云推出的一个超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互，也融入了多模态的知识理解，且有文案创作能力，能够续写小说，编写邮件等。2，多模态大模型：多模态大模型是一种基于深度学习的机器学习技术，其核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现
【写作模板】JosieBook的写作模板 JosieBook 开源&框架模板
文章目录⭐前言⭐一、设计模式怎样解决设计问题？1、寻找合适的对象✨(1)✨(2)✨(3)2、决定对象的粒度3、指定对象接口4、描述对象的实现5、运用复用机制6、关联运行时和编译时的结构7、设计应支持变化⭐二、怎样选择设计模式？⭐三、怎样使用设计模式？⭐总结标题详情作者JosieBook头衔CSDN博客专家资格、阿里云社区专家博主、软件设计工程师博客内容开源、框架、软件工程、全栈（,NET/Java
物联网-铁路局“管理工区一张图”实现方案小赖同学啊智能硬件物联网
铁路局“管理公区一张图”实现方案“管理公区一张图”是指通过地理信息系统（GIS）、物联网（IoT）、大数据和可视化技术，将铁路局管辖范围内的所有公共区域（如车站、线路、设备、设施等）集成到一张数字化地图上，实现统一管理、实时监控和智能决策。以下是实现方案和技术架构的详细说明。1.实现目标统一地图展示：将铁路局管辖范围内的所有公区（如车站、线路、设备、设施等）集成到一张数字化地图上。实时监控：实时监
使用 Websoft9 面板部署 LobeChat，打造个人 AI 大脑开源github
第一章：服务器环境准备1.1云服务器选购与配置选择云服务商•推荐平台：阿里云、腾讯云、AWSLightsail（新手可选厂商提供的“轻量应用服务器”）。•配置建议：◦测试用途：1核CPU/2GB内存/50GBSSD（最低配置，支持10人以内对话）。◦生产用途：2核CPU/4GB内存/100GBSSD（支持并发请求及插件运行）。•操作系统：优先选择Ubuntu22.04LTS（兼容性最佳）。安全组（
算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来
**算力——数字经济的“新石油”在人工智能、大数据、区块链等技术重塑全球经济的今天，算力已成为驱动创新的核心引擎。根据工信部数据，2022年我国算力核心产业规模突破1.8万亿元，算力总规模位居全球第二，而全球算力租赁市场规模已超过千亿美元，并以年复合增长率超过25%的速度扩张。这一背景下，算力租赁作为灵活获取计算资源的新模式，正从边缘走向主流。本文将深入剖析算力租赁的行业新趋势，并揭示如何通过云计
2025阿里云智惠采购季，WoSign SSL国产证书折上折满减优惠 ssl证书安全html
2025阿里云“智慧采购季，就上阿里云”活动火热进行中！活动月期间（2025年03月01日至03月31日），阿里云WoSign品牌SSL证书，新老用户同享折上折满减，活动折扣叠加满减优惠券，DVSSL证书低至220元/年起，让您享受技术红利，轻松实现HTTPS加密，保障数据传输安全。如何获取阿里云WoSignSSL满减折上折优惠（1）领取阿里云“智惠采购季上云礼包”阿里云为企业和开发者提供不同额度
大模型时代的数据智能新趋势｜章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈 ProtonBase 大数据数据库系统人工智能
4月11日，由极客邦旗下InfoQ中国主办的QCon全球软件开发大会暨智能软件开发生态展在北京国测国际会议会展中心正式召开。主论坛压轴的圆桌对话环节，AutoMQ联合创始人&首席战略官章文嵩、ProtonBase研究员蒋晓伟、阿里云数据库产品事业部负责人李飞飞、蚂蚁集团AI安全商业化总经理张凯围绕“大模型时代的数据智能新趋势”主题展开了巅峰对谈。以下是对谈实录，经过不改变原意的整理和简化：1、AI
云原生边缘计算：分布式智能的最后一公里革命桂月二二云原生边缘计算分布式
引言：从集中式云到边缘计算的范式演进阿里云ENS覆盖3000边缘节点，腾讯云ECM支持5ms内就近接入，特斯拉每辆车部署轻量K8s管理AI模型。KubeEdge管理百万边缘设备，AWSWavelength实现5G边缘数据处理延迟0{data:=es.diskQueue.Pop()ifcloud.IsConnected{cloud.Upload(data)}else{es.diskQueue.Ret
yum的使用 rylshe1314 linux
打开虚拟机后输入命令安装插件yumrepolist就可以查看默认源，再配置源sudocurl-o/etc/yum.repos.d/CentOS-Base.repohttps://mirrors.aliyun.com/repo/Centos-7.repo（这里是阿里云）它其实是覆盖了centos-base.repo这个文件。（yum修改阿里云）清空缓存让配置生效sudoyumcleanallsudo
探秘Python电影票数据爬虫：Maoyan Spider 仰北帅Bobbie
探秘Python电影票数据爬虫：MaoyanSpider去发现同类优质开源项目:https://gitcode.com/在大数据和数据分析的世界里，高效的数据获取是第一步。对于电影爱好者或者市场研究者，了解实时的电影票务信息无疑极具价值。今天，我们要推荐一个开源的Python项目——，这是一个针对猫眼电影平台的网络爬虫，它可以帮助你轻松抓取电影信息、场次、票价等关键数据。项目简介MaoyanSpi
服务器搭建全流程 yzx991013 服务器运维
服务器搭建全流程指南（2025年最新版）一、硬件与服务器选择‌硬件类型‌‌云服务器‌：推荐阿里云、腾讯云等平台，支持按需付费，适合个人及中小型项目‌‌物理服务器‌：戴尔PowerEdge、惠普ProLiant等企业级设备，适合高并发或大存储需求‌‌个人电脑/NAS‌：通过内网穿透工具（如神卓互联）实现公网访问，适合测试或小型文件服务‌‌硬件配置建议‌‌CPU‌：至少4核（如Inteli5或AMDR
基于大模型的Text2SQL微调的实战教程(二) herosunly AIGC Text2SQL 微调实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了基于大模型的Text2SQL微调的实战教程(二)，希望对学习大语言模型的
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

阿里云大数据推荐系统

阿里的大数据赛题

你可能感兴趣的:(阿里云大数据推荐系统)

阿里云 大数据 推荐系统

阿里的大数据赛题

你可能感兴趣的:(阿里云 大数据 推荐系统)

阿里云大数据推荐系统

你可能感兴趣的:(阿里云大数据推荐系统)