weixin_30657999

《集体智慧编程》第三章发现群组学习笔记

啦啦啦聚类算法~这一章我学得比较迷糊，还需要反复理解琢磨。

我刚看到这一章的时候内心是崩溃的，许多傻瓜软件点一下鼠标就能完成的事儿，到书里这一章需要许多行代码来完成，也说明了，学数据挖掘，算法real重要。。

本章需要安装：

feedparser(第二章安装pydelicious已经安装过了，pip install即可)

BeautifulSoup，

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

下载：http://www.crummy.com/software/BeautifulSoup/bs4/download/4.2/

解压：tar -xzvf beautifulsoup4-4.2.0.tar.gz

cmd进入解压目录，输入python setup.py install

注意：导入beautifulsoup应该输入

from bs4 import BeautifulSoup

输入 import beautifulsoup我这儿会报错。

PIL，下载地址：http://pythonware.com/products/pil/

还涉及到一些正则表达式的知识，非常非常强烈推荐下面这个教程，写得很好：

www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

一.监督学习和无监督学习

https://www.zhihu.com/question/23194489

二.单词向量

(一)对博客用户进行分类

(二)对订阅源中的单词进行计数

#基础导入
import feedparser  #用来解析RSS订阅源（XML文档），可以就从RSS或Atom订阅源中得到标题链接和文章的条目了
import re  #正则表达式

# 返回一个RSS订阅源的标题和包含单词计数情况的字典
def getwordcounts(url):
  # 解析订阅源
  d=feedparser.parse(url)  #传入的是博客的rss地址，这时候rss的全部内容就都在d里面了
  wc={}

  # 遍历所有文章条目
  for e in d.entries:   #d.entries：文章条目
    if 'summary' in e:
      summary=e.summary
    else:
      summary=e.description   #summary=文章内容

    # 提取一个单词列表
    words=getwords(e.title+' '+summary)  #getwords（题目+空格+文章）
    for word in words:
      wc.setdefault(word,0)#如果键在字典中，返回这个键所对应的值。如果键不在字典中，向字典中插入这个键，并且以default为这个键的值，并返回 default。default的默认值为None
      wc[word]+=1  #得到字典wc类似{u'limited': 1, u'all': 5, u'searchable': 1, u'results': 1, u'browsers': 2}
  return d.feed.title,wc  #返回 博客订阅源，字典wc

def getwords(html):
  #去除所有HTML标记：
  txt=re.compile(r'<[^>]+>').sub('',html)
  #re.compile(pattern[, flags])作用：把正则表达式语法转化成正则表达式对象。r是raw(原始)的意思。因为在表示字符串中有一些转义符，如表示回车'\n'。如果要表示\表需要写为'\\'。但如果我就是需要表示一个'\'+'n'，不用r方式要写为:'\\n'。但使用r方式则为r'\n'这样清晰多了。
  #re.sub(pattern, repl, string, count=0, flags=0)

  # 利用非字母字符拆分出单词  split()通过指定分隔符对字符串进行切片
  words=re.compile(r'[^A-Z^a-z]+').split(txt)

  # 转换成小写模式
  return [word.lower() for word in words if word!='']

apcount={} #出现某单词的博客数目
wordcounts={}
feedlist=[line for line in file('feedlist.txt')]  #建立一个包含feedlist.txt中每一个url的列表
for feedurl in feedlist:
  try:
    title,wc=getwordcounts(feedurl)   #title,wc类似Google Blogoscoped {u'limited': 1, u'all': 5, u'searchable': 1, u'results': 1, u'browsers': 2}
    wordcounts[title]=wc  #得到wordcounts类似{u'Google Blogoscoped': {u'limited': 1, u'all': 5, u'searchable': 1, u'results': 1, u'browsers': 2}
    for word,count in wc.items():  #items()方法返回字典的(键，值)元组对的列表；wc.items=[(词汇，计数)，（词汇，计数）]
      '''得到:
      词汇 计数
      词汇 计数'''
      apcount.setdefault(word,0)  #此时 apcount={word:0}
      if count>1:
        apcount[word]+=1  #得到apcount类似{u'limited': 0, u'all': 1, u'searchable': 0, u'results': 0}
  except:
    print 'Failed to parse feed %s' % feedurl

wordlist=[]
for w,bc in apcount.items(): #apcount.items()类似[(u'limited', 0), (u'all', 1), (u'searchable', 0), (u'results', 0)]
  frac=float(bc)/len(feedlist)  #变成浮点数算除法不然结果不精确
  if frac>0.1 and frac<0.5:
    wordlist.append(w)  #wordlist=['limited','all','searchable']

out=file('blogdata1.txt','w')
out.write('Blog')
for word in wordlist: out.write('\t%s' % word)  #'\t'是tab
out.write('\n')
for blog,wc in wordcounts.items():
  print blog
  out.write(blog)
  for word in wordlist:
    if word in wc: out.write('\t%d' % wc[word])
    else: out.write('\t0')
  out.write('\n')

ps.最后会得到blogdata.txt文件,效果如下图(我节选了一部分)，不想进行这一步的同学可以直接找我要数据23333

用excel打开的效果

三.分级聚类

分级聚类的概念在P34，写得很清楚啦。

本节我们将示范如何对博客数据集进行聚类，以构造博客的层级结构；如果构造成功，我们将实现按主题对博客进行分组。

(一)加载数据文件

##加载数据文件
def readfile(filename):
  lines=[line for line in file(filename)]
  #加载的是blogdata.txt的话,lines=['blog\tword\tword...','blogname\t词频\t词频...',...]
  colnames=lines[0].strip().split('\t')[1:]:]#之所以从1开始，是因为第0列是用来放置博客名了
  #colnames列标题,按\t进行切分
  #加载的是blogdata.txt的话,colnames=['blog','word','word',...]
  rownames=[] #即将填入行标题的空列表
  data=[] #即将填入计数值的空列表
  for line in lines[1:]::]:#第一列是单词，但二列开始才是对不同的单词的计数
    p=line.strip().split('\t')
    '''加载的是blogdata.txt的话,
    p=['blogname','xx','xx',...]
      ['blogname','xx','xx',...]
      ...'''
    rownames.append(p[0])
    '''加载的是blogdata.txt的话,
       p[0]=blogname
            blogname
            ...'''
    data.append([float(x) for x in p[1:]])
  return rownames,colnames,data
  '''上述函数将数据集中的头一行数据读入了一个代表列名的列表，
  并将最左边的一列读入了一个代表行名的列表，
  最后它又将剩下的所有数据都放入一个大列表，其中每一项对应于数据集中的一行数据。'''

(二)定义紧密度

第二章已经有讲到了，这儿直接把代码粘过来，用的是皮尔逊相关性度量。

from math import sqrt

def pearson(v1,v2):
  # Simple sums
  sum1=sum(v1)
  sum2=sum(v2)
  
  # Sums of the squares
  sum1Sq=sum([pow(v,2) for v in v1])
  sum2Sq=sum([pow(v,2) for v in v2])    
  
  # Sum of the products
  pSum=sum([v1[i]*v2[i] for i in range(len(v1))])
  
  # Calculate r (Pearson score)
  num=pSum-(sum1*sum2/len(v1))
  den=sqrt((sum1Sq-pow(sum1,2)/len(v1))*(sum2Sq-pow(sum2,2)/len(v1)))
  if den==0: return 0

  return 1.0-num/den

(三)新建bicluster类，将所有属性存放给其中，并以此来描述层级树

class bicluster:
#定义一个bicluster类，将每一篇博客看成是一个对象，为此定义一个类。
#分级聚类算法中的每一个聚类，可以是树中的枝节点，也可以是叶节点。每一个聚类还包含了只是其位置的信息，这一信息可以是来自叶节点的行数据，也可以是来自枝节点的经合并后的数据
#我们可以定义一个bicluster类，将所有这些属性存放其中，并以此来描述这颗层级树
  def __init__(self,vec,left=None,right=None,distance=0.0,id=None):
    self.left=left
    self.right=right
    #每次聚类都是一堆数据，left保存其中一个，right保存另一个
    self.vec=vec#代表该聚类的特征向量，保存两个数据聚类后形成新的中心
    self.id=id#用来标志该节点是叶节点还是内部节点，如果是叶节点，则为正数，如果不是叶节点，则为负数。
    self.distance=distance#表示合并左子树和右子树时，两个特征向量之间的距离。

(四)hcluster算法

书P35最下方有介绍：

分级聚类算法以一组对应于原始数据项的聚类开始。函数的主循环部分会尝试每一组可能的配对并计算它们的相关度，以此来找出最佳配对。最佳配对的两个聚类会被合并成一个新的聚类。新生成的聚类中所包含的数据，等于将两个旧聚类的数据求均值之后得到的结果。这一过程会一直重复下去，直到只剩下一个聚类为止。由于整个计算过程可能会非常耗时，所以不妨将每个配对的相关度计算结果保存起来，因为这样的计算会反复发生，直到配对中的某一项被合并到另一个聚类中为止。

####hcluster算法（hierarchical cluster）
def hcluster(rows,distance=pearson):
  distances={}#每计算一对节点的距离值就会保存在这个里面，这样避免了重复计算
  currentclustid=-1

  ##最开始的聚类就是数据集中的一行一行，每一行都是一个元素
  clust=[bicluster(rows[i],id=i) for i in range(len(rows))]#clust是一个列表，列表里面是一个又一个bicluster的对象
  #此时 clust=[bcluster(rows[1],id=1),bcluster(rows[2],id=2),...]
  while len(clust)>1:
    '''while 判断条件：
           执行语句……'''
    #Python 编程中 while 语句用于循环执行程序，即在某条件下，循环执行某段程序，以处理需要重复处理的相同任务。
    lowestpair=(0,1)#先假如lowestpair是0和1号
    #lowestpair为距离最近的两个id
    closest=distance(clust[0].vec,clust[1].vec)
    #先计算第一第二行的相关度，赋值给closest，此时lowestpair=(0,1)
    # 遍历每一个配对，寻找最小距离
    for i in range(len(clust)):
      for j in range(i+1,len(clust)):
　　　　#用distances来缓存距离的计算值
      #遍历，使得i不等于j
        # 用distances来缓存距离的计算值
        if (clust[i].id,clust[j].id) not in distances: 
          distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)

        d=distances[(clust[i].id,clust[j].id)]

        if d<closest:
          closest=d
          lowestpair=(i,j)

    # 计算两个聚类的平均值
    # 将找到的距离最小的簇对合并为新簇，新簇的vec为原来两个簇vec的平均值
    mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0
    for i in range(len(clust[0].vec))]

    #建立新的聚类
    newcluster=bicluster(mergevec,left=clust[lowestpair[0]],
                         right=clust[lowestpair[1]],
                         distance=closest,id=currentclustid)

    # 不在原始集合中的聚类，其id为负数
    #id:如果是叶节点，则为正数，如果不是叶节点，则为负数。
    currentclustid-=1
    del clust[lowestpair[1]]
    del clust[lowestpair[0]]
    #删除聚在一起的两个数据
    #del用于list列表操作，删除一个或连续几个元素
    clust.append(newcluster)
  return clust[0]#当只有一个元素之后，就返回，这个节点相当于根节点
  #返回最终的簇

(五)检视执行结果P37

　　为了检视执行结果，我们可以编写一个简单的函数，递归遍历聚类树，并将其以类似文件系统层级结构的形式打印出来。

def printclust(clust,labels=None,n=0):
  '''参数解释：本例中，labels=blognames
  clust:层次遍历最后输出的一个簇
  n:在本例中代表树的层数'''
  # 利用缩进来建立层级布局
  for i in range(n): print ' ', #n代表当前遍历的层数，层数越多，前面的空格越多
  if clust.id<0:#不是叶节点
    #负数代表这是一个分支
    print '-'
  else:
    #正数标记这是一个叶节点
    if labels==None: print clust.id
    else: print labels[clust.id]

  # 现在开始打印左侧分支和右侧分支
  if clust.left!=None: printclust(clust.left,labels=labels,n=n+1)
  if clust.right!=None: printclust(clust.right,labels=labels,n=n+1)

成果在书上P37最下方

(六)绘制树状图

基础导入

from PIL import Image,ImageDraw

首先，需要利用一个函数来返回给定聚类的总体高度。
如果聚类是一个叶节点，其高度为1,；否则，高度为所有分支高度之和。

def getheight(clust):
#返回给定给定聚类的总体高度
  #如果高度为1（没有左右分枝），高度为1
  if clust.left==None and clust.right==None: return 1
  # 否则高度为每个分支的高度之和
  return getheight(clust.left)+getheight(clust.right)

除此之外，我们还需要知道根节点的总体误差。因为线条的长度会根据每个阶段的误差进行相应的调整，所以我们需要根据总的误差值声场一个缩放因子。
一个节点的误差深度等于其下所属的每个分支的最大可能误差。ps.两幅图片我都是竖着来画的，书本上是横着看的。

###计算误差
def getdepth(clust):
  #一个叶节点的距离是0
  if clust.left==None and clust.right==None: return 0

  return max(getdepth(clust.left),getdepth(clust.right))+clust.distance
  #distance#表示合并左子树和右子树时，两个特征向量之间的距离。
  #一个枝节点的距离等于左右两侧分支中距离较大者加上自身距离
  #自身距离：节点与节点合并时候的相似度

def drawnode(draw,clust,x,y,scaling,labels):
  if clust.id<0:#如果是一个分支
    h1=getheight(clust.left)*20
    h2=getheight(clust.right)*20
    top=y-(h1+h2)/2 #上边界?
    bottom=y+(h1+h2)/2 #下边界?
    #线的长度
    ll=clust.distance*scaling
    #聚类到其子节点的垂直线
    draw.line((x,top+h1/2,x,bottom-h2/2),fill=(255,0,0))    
    
    #连接左侧节点的水平线
    draw.line((x,top+h1/2,x+ll,top+h1/2),fill=(255,0,0))    

    # 连接右侧节点的水平线
    draw.line((x,bottom-h2/2,x+ll,bottom-h2/2),fill=(255,0,0))        

    #调用函数绘制左右节点
    drawnode(draw,clust.left,x+ll,top+h1/2,scaling,labels)
    drawnode(draw,clust.right,x+ll,bottom-h2/2,scaling,labels)
  else:   
    # 如果这是一个叶节点，则绘制节点的标签
    draw.text((x+5,y-7),labels[clust.id],(0,0,0))
    #text(self, xy, text, fill=None, font=None, anchor=None)

结果在书本P41，图3-3

四.列聚类

和行聚类类似，在书上的例子里，行聚类是对博客进行聚类，列聚类是对单词进行聚类。

方法依然是转置，类似于第二章的基于用户的推荐和基于物品的推荐的转换。

def rotatematrix(data):
  newdata=[]
  for i in range(len(data[0])):
    newrow=[data[j][i] for j in range(len(data))]
    newdata.append(newrow)
  return newdata

五.K-均值聚类
概念介绍不摘抄了，在书本P42

import random

def kcluster(rows,distance=pearson,k=4):#默认使用皮尔逊相关系数，聚为4类
  #K均值聚类，针对博客名，单词作为向量进行聚类，k代表簇的个数
  #确定每个点的最大值和最小值
  ranges=[(min([row[i] for row in rows]),max([row[i] for row in rows])) for i in range(len(rows[0]))]
  #####随机创建k个中心点
  clusters=[[random.random()*(ranges[i][1]-ranges[i][0])+ranges[i][0] for i in range(len(rows[0]))] for j in range(k)]
  #random.random用于生成一个0到1的浮点数
  lastmatches=None
  for t in range(100): #最多循环100次
    print 'Iteration %d' % t
    bestmatches=[[] for i in range(k)] #k个簇首先都初始化为空

    # 在每一行中寻找距离最近的中心点
    for j in range(len(rows)):
      row=rows[j]
      bestmatch=0
      for i in range(k):
        d=distance(clusters[i],row)
        if di
      bestmatches[bestmatch].append(j)# 在簇bestmatch中加入元素j

    # 如果结果与上一次相同，则整个过程结束
    if bestmatches==lastmatches: break
    lastmatches=bestmatches
    
    # 把中心点移到其所有成员的平均位置处
    # 重新计算簇中心
    for i in range(k):
      avgs=[0.0]*len(rows[0])
      if len(bestmatches[i])>0:
        for rowid in bestmatches[i]:
          for m in range(len(rows[rowid])):
            avgs[m]+=rows[rowid][m]
        for j in range(len(avgs)):
          avgs[j]/=len(bestmatches[i])
        clusters[i]=avgs
      
  return bestmatches

六.针对偏好的聚类
http://www.zebo.com/ 大家进得去么？我进不去哎

摘抄书本：该网站鼓励人们在网上建立账号，并将他们已经拥有的和希望拥有的物品列举出来，广告商可以借此找到方法，将偏好相近这很自然地分在一组。

(一)获取数据和准备数据

提取每位用户希望拥有的物品。ps.我这儿有现成的txt结果文件，不想学爬虫的同学可以直接问我要数据哈~

基础导入

from BeautifulSoup import BeautifulSoup
import urllib2
import re

1.Beautiful Soup

简单易学，大家可以百度百度，但是他的效率似乎不如xpath

推荐大家一个教程：http://cuiqingcai.com/1319.html

2.搜集来自Zebo的结果

chare=re.compile(r'[!-\.&]') #包含!-\.&任一字符
#使用re的一般步骤是先使用re.compile()函数，将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果
itemowners={}

# 要去除的单词
dropwords=['a','new','some','more','my','own','the','many','other','another']

currentuser=0
for i in range(1,51):#遍历1~50页
  # 搜索“用户希望拥有的物品”所对应的url
  c=urllib2.urlopen(
  'http://member.zebo.com/Main?event_key=USERSEARCH&wiowiw=wiw&keyword=car&page=%d'
  % (i))
  '''urllib2的很多应用就是那么简单(记住，除了"http:",URL同样可以使用"ftp:","file:"等等来替代)。但这篇文章是教授HTTP的更复杂的应用。

HTTP是基于请求和应答机制的--客户端提出请求，服务端提供应答。urllib2用一个Request对象来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的

地址创建一个Request对象，通过调用urlopen并传入Request对象，将返回一个相关请求response对象，这个应答对象如同一个文件对象，所以你可以在Response中调用.read()。

'''
  soup=BeautifulSoup(c.read())
  for td in soup('td'):
    #寻找带有bgverdanasmall类的表格单元格
    if ('class' in dict(td.attrs) and td['class']=='bgverdanasmall'):
      items=[re.sub(chare,'',str(a.contents[0]).lower()).strip() for a in td('a')]
      for item in items:
        # 去除多余单词
        txt=' '.join([t for t in item.split(' ') if t not in dropwords])
        if len(txt)<2: continue
        itemowners.setdefault(txt,{})
        itemowners[txt][currentuser]=1
      currentuser+=1
##保存文件
out=file('zebo.txt','w')
out.write('Item')
for user in range(0,currentuser): out.write('\tU%d' % user)
out.write('\n')
for item,owners in itemowners.items():
  if len(owners)>10:
    out.write(item)
    for user in range(0,currentuser):
      if user in owners: out.write('\t1')
      else: out.write('\t0')
    out.write('\n')

和博客数据集相比，此处唯一的区别在于没有的计数。如果一个人希望拥有某件物品，那么我们将其标记为1，否则就标记为0

(二)定义距离度量标准
在这个例子里，数据集只有1和0两种取值，分别代表有或无。并且，假如我们队同事希望拥有两件物品的人在物品方面互有重叠的情况进行度量，那或许是一件更有意义的事情。

书中采取Tanimoto系数的度量方法，它代表的是交集与并集的比率。

Tanimoto系数（广义Jaccard系数又称Tanimoto系数）

百度百科：http://baike.baidu.com/link?url=hPyScHrndVxR8KcqUnW4M805NXzZaVt2iYtN529WsHRi2PduNGFR3jp68P3nRmNU-ZAIezPlsNBBWzLW8hnXBa

def tanamoto(v1,v2):
  c1,c2,shr=0,0,0
  
  for i in range(len(v1)):
    if v1[i]!=0: c1+=1 # 出现在v1中
    if v2[i]!=0: c2+=1 # 出现在v2中
    if v1[i]!=0 and v2[i]!=0: shr+=1 #在两个向量中同时出现
  
  return 1.0-(float(shr)/(c1+c2-shr))
#上述代码将返回一个介于1.0和0.0之间的值
#1.0代表不存在同事喜欢两件物品的人，0.0代表所有人同事喜欢两个向量中的物品

(三)对结果进行聚类

七.以二维形式展现数据

八.有关聚类的其他事宜

转载于:https://www.cnblogs.com/zzhzhao/p/5278492.html

第三章【vue】基础（超详细） ᝰ落念英 javascript 开发语言 ecmascript vue.js 前端 web 前端框架
eslint安装npminstalleslint-D初始化npxeslint--initvueUse的应用安装npmi@vueuse/corevueuse官方文档(opensnewwindow)获取滚动距离import{useScroll}from"@vueuse/core";const{y}=useScroll(window);监听元素进入视口import{useIntersectionObse
日语入门学习资料，都在这里了！日语初级学习
刚开始学习日语的同学都有疑问，比如：应该如何背单词？如何运用语法？如何把日语说出来？......应该怎么学日语？学习方法很重要。在日语日常使用中学习运用，或者在老师指导下了解学习方法，从开始就发现并逐渐掌握适合自己的学习方法，可以少走很多的弯路，节省非常多的时间。今天整理了日语入门的学习资料，包含五十音素材、日常用语、教材资料、语法学习规律等等，希望能帮助大家更好的学习。该有的都在这儿了！！☟1.
老师批评学生之后的恐惧惠风和畅m
生一：上课说话，下课把同学的自行车座子卸下来拿着在教室打闹，被我没收。针对这种现象，在课堂上对其严厉批评，谁知他竟然觉得委屈，辩称自己没说话。我有些生气，便警告说，再有老师和同学反映你上课说话，我只好调整你的座位，让你和比你更能说坐同桌。谁知，他竟然委屈得哭起来。虽然，我没有理睬他，但也后怕，怕他心理承受不了，一时想不开。好歹熬过一晚上，第二天发现他没事，我才心安。生二，学习很好但不认真，在班里起
2022.6.7第25次作业雨点评先予
1.我的楼上❤️王晓莉战友【文章标题】王晓莉的践行打卡【我的感悟】晓莉战友坚持打卡坚持得很好，向你学习。如何过一天就如何过一生，这句话就像一根棍子一样，让我惭愧，提醒我每天都要认真生活。看你每天的要事都感觉得到你在认真生活，早起、读书、运动、做营养餐这些，你选择了一种积极向上的生活方式。你的感恩日志虽然，每件事都是很短的一句话，但也可以让你发现生活的美好，为你赋能。我跟大多数人一样，虽然都知道要养
十三匮乏 911d245174d6
文学社成立以来，几乎每天都在分享阅读大家的习作，长的，短的，故事，心得……发现大家都能够敏锐的发现生活之美，往往能够从一个很小的事情，反思，从而发现大道理，大智慧。尤其是于老师，每日一篇，都不是在记日记，都是一篇篇的智慧思考。一开始，我也能找到个别的点，从点出发延伸成文。但最近越来越觉得思路匮乏，竟然找不到写作的点。没有点，就会有无从下手的感觉。反思一下，每日过得太平凡了吗？太千篇一律了吗？想想还
归来丫丫__y
盼望着，昨晚终于把出门一周的孩子盼回来了，在回来的路上，孩子迫不及待的和我聊他这一周的辛苦、团队发生的趣事以及对我们的思念。还省吃俭用，用自己赚的钱给我们带了礼物，嘴里不停的念叨着钱好难赚，东西好贵，一小盒糕点就30元。看来孩子出门不带手机和零钱绝对是正确的选择，不然哪有这么深刻的体会。听着孩子的倾诉，我发现孩子愿意表达自己的想法了，尤其是在说：第四天开始，特别想你们，特别的想！我激动啊，这好像是
2019-07-14 清城教育
世上有无难易之事？易者不难，难者不易。在我们的生活中，不论多难做的事情，只要你开始行动，困难总会一个一个慢慢化解。然后你会发现，不管什么目标，总会有到达的那天。当你决定出发并且为之付诸实践的时候，最困难的那部分就已经完成了。
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
ssrf漏洞复现 ξ流ぁ星ぷ132 安全
目录基础环境查看phpinfo发现线索探测端口+gopher协议基础环境这里发现一些基础协议呗过滤掉了。但是有个提示的info，于是先看看查看phpinfo发现线索发现这台主机的地址了，于是猜测这个网段应该还有其他主机，试了一下172.21.0.1:80172.21.0.3:80果然如下（0.1是陷阱就不浪费时间了，）探测端口+gopher协议然后对这个172.21.0.3这个主机探测端口发现63
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
dpdk-testpmd 统计显示
背景最近在做测试的发现testpmdshowport统计的Tx-packets是个极大值，很不符合预期。硬件同学说，这个是软件统计，一定是软件问题。我大概知道它是个硬件统计，但是并不能确定，于是，做了一下代码的分析。testpmd>showportstats0########################NICstatisticsforport0########################R
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
为什么你的服务器总被攻击？运维老兵的深度分析
作为运维人员，最头疼的莫过于服务器在毫无征兆的情况下变得异常缓慢、服务中断，甚至数据泄露。事后查看日志，常常发现一些“莫名其妙”的攻击痕迹。为什么服务器会成为攻击者的目标？这些攻击又是如何悄无声息发生的？今天，我们就从实战角度分析几种常见且容易被忽视的攻击模式，并教你如何通过日志分析初步定位问题。一、服务器被攻击的常见“莫名其妙”原因“扫楼式”探测与弱口令爆破：现象：服务器CPU、内存无明显异常，
Spring Boot基础小李是个程序 spring boot 后端 java
5.SpringBoot配置解析5.1.基础服务端口：server.port=8080（应用启动后监听8080端口）应用名称：spring.application.name=Chat64（注册到服务发现等场景时的标识）5.2.数据库连接（MySQL）URL：jdbc:mysql://localhost:3306/ai-chat（连接本地3306端口的ai-chat数据库，含时区、编码等参数）驱动：
服务器深夜告警？可能是攻击前兆！群联云防护小杜安全问题汇总服务器网络运维前端人工智能重构 ddos
凌晨三点，刺耳的告警铃声把你从梦中惊醒：服务器CPU100%，内存耗尽！你手忙脚乱地登录服务器，发现某个进程疯狂占用资源。是程序Bug？还是业务突增？排查半天，最后在角落的日志里发现蛛丝马迹——你的服务器正在遭受攻击！这种资源被“悄悄”耗尽的攻击，往往比直接的流量洪峰更难察觉，危害却同样巨大。本文将深入探讨这类资源消耗型攻击的原理，并提供一个实用的监控脚本，助你早发现、早处置。一、资源消耗型攻击：
2025年网络安全人员薪酬趋势程序员肉肉 web安全安全网络安全计算机信息安全程序员
2025年网络安全人员薪酬趋势一、网络安全行业为何成“香饽饽”？最近和几个朋友聊起职业规划，发现一个有趣的现象：不管原来是程序员、运维还是产品经理，都想往网络安全领域跳槽。问原因，答案出奇一致——“听说这行工资高”。确实，从2025年的数据来看，网络安全行业的薪资水平不仅跑赢了大多数IT岗位，甚至成了“技术岗里的天花板”。但高薪背后到底有哪些门道？哪些职位最赚钱？城市和经验如何影响收入？今天我们就
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
第三章：网络安全基础——构建企业数字防线阿贾克斯的黎明网络安全 web安全安全
目录第三章：网络安全基础——构建企业数字防线3.1网络协议安全深度解析3.1.1TCP/IP协议栈安全漏洞图谱3.1.2关键安全协议剖析3.2网络攻击全景防御3.2.1OWASPTop102023最新威胁3.2.2高级持续性威胁(APT)防御3.3网络安全设备部署指南3.3.1下一代防火墙(NGFW)配置要点3.3.2IDS/IPS系统部署方案3.4企业网络架构安全设计3.4.1安全分区最佳实践3
【Modern C++ Part8】Prefer-nullptr-to-0-and-NULL 莫彩 C++Modern C++c++开发语言 jvm
优先使用nullptr而不是0或者NULL0字面上是一个int类型，而不是指针，这是显而易见的。C++扫描到一个0，但是发现在上下文中仅有一个指针用到了它，编译器将勉强将0解释为空指针，但是这仅仅是一个应变之策。C++最初始的原则是0是int而非指针。经验上讲，同样的情况对NULL也是存在的。对NULL而言，仍有一些细节上的不确定性，因为赋予NULL一个除了int（即long）以外的整数类型是被允
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

《集体智慧编程》 第三章 发现群组 学习笔记

你可能感兴趣的:(《集体智慧编程》 第三章 发现群组 学习笔记)

《集体智慧编程》第三章发现群组学习笔记

你可能感兴趣的:(《集体智慧编程》第三章发现群组学习笔记)