weixin_30535565

爬取数据入门指南

世界杯来了，想分析一下各个球员的比赛数据，然后预测今年的世界杯金靴奖，根据经验大家肯定普遍认为梅西，C罗，内马尔等球星概率大些；但经验毕竟是经验，数据才是最靠谱的，通过分析数据，可以评估一个球员的价值（当然，球员的各方面的表现（特征），都会有一个权重，最终衡量权重*特征值之和最高者的金靴概率胜算大些）。那么，如何获取这些数据呢？写段简单的爬取数据的代码就是最好的获取工具。本文以2014年的巴西世界杯球员为基础进行实践操作；

一、什么是爬数据？
网络爬虫(网页蜘蛛),是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本;

学习一些爬数据的知识有什么用呢？
比如：大到大家经常使用的搜索引擎（Google, 搜狗）;
当用户在Google搜索引擎上检索相应关键词时，谷歌将对关键词进行分析，从已“收录”的网页中找出可能的最符合用户的条目呈现给用户;那么,如何获取这些网页就是爬虫需要做的，当然如何推送给用户最有价值的网页，也是需要结合相应算法的，这就涉及到数据挖掘的的知识了;
比较小一些的应用，比如我们统计测试工作的工作量，这就需要统计一周/一月的修改单数量,jira记的缺陷数以及具体内容；
还有就是最近火热进行的世界杯，如果你想统计一下各个球员/国家的数据，并存储这些数据以供其他用处；
还有就是根据自己的兴趣爱好通过一些数据做一些分析等（统计一本书/一部电影的好评度），这就需要爬取已有网页的数据了，然后通过获取的数据做一些具体的分析/统计工作等。

二、学习简单的爬虫需要具备哪些基础知识？

我把基础知识分为两部分：
1、前端基础知识
HTML/JSON，CSS; Ajax
参考资料：http://www.w3school.com.cn/h.asp
http://www.w3school.com.cn/ajax/
http://www.w3school.com.cn/json/

2. python编程相关知识

（1）Python基础知识
基本语法知识，字典，列表，函数，正则表达式，JSON等
参考资料：http://www.runoob.com/python3/python3-tutorial.html
（2）Python常用库：
Python的urllib库的用法（此模块我用的urlretrieve函数多一些，主要用它保存一些获取的资源（文档/图片/mp3/视频等））
Python的pyMysql库（数据库连接以及增删改查）
python模块bs4（需要具备css选择器，html的树形结构domTree知识等，根据css选择器/html标签/属性定位我们需要的内容）
python的requests（顾名思义，此模块用于发送request请求的/POST/Get等，获取一个Response 对象）
python的os模块（此模块提供了非常丰富的方法用来处理文件和目录。os.path.join/exists函数用的较多一些）
参考资料：这部分可以参考相关模块的接口API文档

三、简单小项目上手实践（附源码）

（1）.爬取Kugou网站音乐，以歌手id为输入，下载歌手所有的专辑歌曲并以专辑名为文件夹存放下载的歌曲；

具体实现过程如下：

1.酷狗首页搜索歌手，进入歌手主页，获取url中的singId,例如朴树主页：http://www.kugou.com/singer/3520.html,其中3520即为singId;
2.根据歌手singerId可以获得歌手的所有专辑的albumId,例如这是专辑的页面,http://www.kugou.com/yy/album/single/962593.html,其中962593为albumId
3.酷狗播放歌曲的实现方式，是通过ajax请求获取的服务器资源,点击播放某歌曲,播放页面打开F12,切至netWork,观察Request URL请求,如下例如http://www.kugou.com/yy/index.php?r=play/getdata&hash=89AB193EC33E2AE6AF04BD408F8F1083&album_id=962593&_=1529057140131
经过测试发现(建议使用截包工具截获url请求),只需要(get请求)http://www.kugou.com/yy/index.php?r=play/getdata&hash=89AB193EC33E2AE6AF04BD408F8F1083
而每首歌有一个单独的hash,只要找到每首歌的hash,即可获取每首歌的ajax请求url,而这个hash存在于专辑页面中,bs4提取专辑内所有歌曲的hash.
4.可以发现其ajax请求的response信息中存在该歌曲的MP3资源url,那么通过urllib.request.urlretrieve()函数即可保存该歌曲.

图例过程：

# -*- coding: utf-8 -*-
# @Time    : 2018/6/8
# @Author  : Torre
# @Email   : [email protected]
# 免费下载酷狗音乐：通过歌手singerId即可以专辑下载歌手的所有歌曲。
# 具体过程：1.酷狗首页搜索歌手，进入歌手主页，获取url中的singId,例如朴树主页：http://www.kugou.com/singer/3520.html,其中3520即为singId;
# 2.根据歌手singerId可以获得歌手的所有专辑的albumId,例如 这是专辑的页面,http://www.kugou.com/yy/album/single/962593.html,其中962593为albumId
# 3.酷狗播放歌曲的实现方式，是通过ajax请求获取的服务器资源,点击播放某歌曲,播放页面打开F12,切至netWork,观察Request URL请求,如下
# 例如http://www.kugou.com/yy/index.php?r=play/getdata&hash=89AB193EC33E2AE6AF04BD408F8F1083&album_id=962593&_=1529057140131
# 经过测试发现(建议使用截包工具截获url请求),只需要(get请求)http://www.kugou.com/yy/index.php?r=play/getdata&hash=89AB193EC33E2AE6AF04BD408F8F1083
# 而每首歌有一个单独的hash,只要找到每首歌的hash,即可获取每首歌的ajax请求url,而这个hash存在于专辑页面中,bs4提取专辑内所有歌曲的hash.
# 4.可以发现其ajax请求的response信息中存在该歌曲的MP3资源url,那么通过urllib.request.urlretrieve()函数即可保存该歌曲.


import os
import urllib.request
import requests
import re
import json
import getSoup
# from urllib.request import urlretrieve

headers = {
    'origin': "http://www.kugou.com",
    'x-devtools-emulate-network-conditions-client-id': "97C9BAA42BE5A8449EC4283F764B4D9E",
    'user-agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",
    'content-type': "application/x-www-form-urlencoded",
    'accept': "*/*",
    'referer': "http://www.kugou.com/singer/3520.html",
    'accept-encoding': "gzip, deflate",
    'accept-language': "zh-CN,zh;q=0.9",
    'cookie': "kg_mid=88665d81b7959ab3787c4976831a30f9; Hm_lvt_aedee6983d4cfc62f509129360d6bb3d=1528705681; Hm_lpvt_aedee6983d4cfc62f509129360d6bb3d=1528707581",
    'cache-control': "no-cache",
    'postman-token': "c717ef07-2b91-06f1-1d22-abcb47b0bce2"
}

# 获取歌手的所有album信息
def getAlbumid(singerID):
    # 获取歌单albumid
    url = "http://www.kugou.com/yy/"
    querystring = {"r": "singer/album", "sid": singerID}
    # headers = {
    #     'origin': "http://www.kugou.com",
    #     'x-devtools-emulate-network-conditions-client-id': "97C9BAA42BE5A8449EC4283F764B4D9E",
    #     'user-agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",
    #     'content-type': "application/x-www-form-urlencoded",
    #     'accept': "*/*",
    #     'referer': "http://www.kugou.com/singer/3520.html",
    #     'accept-encoding': "gzip, deflate",
    #     'accept-language': "zh-CN,zh;q=0.9",
    #     'cookie': "kg_mid=88665d81b7959ab3787c4976831a30f9; Hm_lvt_aedee6983d4cfc62f509129360d6bb3d=1528705681; Hm_lpvt_aedee6983d4cfc62f509129360d6bb3d=1528707581",
    #     'cache-control': "no-cache",
    #     'postman-token': "c717ef07-2b91-06f1-1d22-abcb47b0bce2"
    # }
    response = requests.request("POST", url, headers=headers, params=querystring)
    res = response.text
    # print(type(res))
    jsonRes = json.loads(res)
    loadAlbumids = []  # 保存albumids到list
    loadAlbumname = []
    albumids = jsonRes['data']
    for albumid in albumids:
        albumid = albumid['albumid']
        # print(albumid)
        loadAlbumids.append(albumid)
        # print(albumid)
    for albumname in albumids:
        albumname = albumname['albumname']
        albumname = albumname[0]
        loadAlbumname.append(albumname)
        # print(albumname)
    return loadAlbumname, loadAlbumids

# getAlbumid(2303)

# 获取该专辑内的所有歌曲的hash
def getMp3Info(albumid):
    url = 'http://www.kugou.com/yy/album/single/'+str(albumid)+'.html'
    soup = getSoup.getSoup(url)
    hashs = soup.select('.songList a')
    loadMp3Hash = []
    for hashss in hashs:
        hash = hashss.get('data')
        # 通过spilt('|')分割字符串,获取hash
        mp3Hash = hash.split('|')[0]
        # print(hash.split('|')[0])
        # hash = hash.spilt('|')
        loadMp3Hash.append(mp3Hash)
        # print(mp3Hash)
    return loadMp3Hash

# mp3 = getMp3Info(1645030)
# for i in range(len(mp3)):
#     print(mp3[i])


# 通过ajax请求获取歌曲的PlayerUrl
def getPlayUrl(hash, albumId):
    url = "http://www.kugou.com/yy/index.php"
    querystring = {"r": "play/getdata", "hash": hash, "album_id": albumId}
    response = requests.request("GET", url, headers=headers, params=querystring)
    response.raise_for_status()
    res = response.text
    # print(type(res))
    jsonRes = json.loads(res)
    playUrl = jsonRes['data']

    audioName = playUrl['audio_name']
    playUrl = playUrl['play_url']
    music = (audioName, playUrl)
    print('-'.join(music))
    return audioName, playUrl

# @test
# mp3 = getMp3Info(1645030)
# for i in range(len(mp3)):
#     print(mp3[i])
#     getPlayUrl(mp3[i], '1645030')


# 文件/文件夹的创建是不允许一些非法字符存在的,此函数过滤掉非法字符
def validateName(name):
    rstr = r"[\/\\\:\*\?\"\<\>\|]"  # '/ \ : * ? " < > |'
    new_name = re.sub(rstr, "", name)
    return new_name

# 进度信息
def cbk(a,b,c):
    per=100.0*a*b/c
    if per>100:
        per=100
    print('%.2f%%' % per)


# # 保存为MP3, 保存到特定文件夹下面：文件夹以专辑名字命名; 注意,在代码的根目录下创建mp3文件夹
def saveAudio(url, album, filename):
    filepath = os.getcwd()+'\\mp3\\'+album
    if os.path.exists(filepath):
        mp3 = os.path.join(filepath + '\\', '' + filename + '.mp3')
        if url == '':
            print('the url is NUll, pass')
        else:
            urllib.request.urlretrieve(url, mp3, cbk)
    else:
        os.makedirs(filepath)
        mp3 = os.path.join(filepath + '\\', '' + filename + '.mp3')
        if url == '':
            print('the url is NUll, pass')
        else:
            urllib.request.urlretrieve(url, mp3, cbk)


# 运行主程序, 只需要填入 歌手ID即可(http://www.kugou.com/yy/html/singer.html,
# 点击任一歌手即可获得其ID), 可以自动下载其所有专辑 : 比如3043 代表 许巍; 61874代表Sophia zelmani;朴树2303;34450 Taylor Swift
def downloadMp3(singerId):
    albumname, albumids = getAlbumid(singerId)
    # length = len(albumids)
    # print(albumids)
    for i in range(len(albumids)):
        hashs = getMp3Info(albumids[i])
        for ii in range(len(hashs)):
            audioName, playUrl = getPlayUrl(hashs[ii], albumids[i])
            saveAudio(playUrl, validateName(albumname[i]), validateName(audioName))


# 调用函数 ,下载歌曲
downloadMp3(34450)

（2）.爬取2014年世界杯各个球员的参赛数据。
1.数据库连接以及sql语句格式化
数据库连接及其操作,我单独封装成一个类ConnectDatabase;

1.读取本地的配置文件(Json文件：数据库的连接地址、账号、密码、数据库名等信息)
2.主要函数有数据库连接、获取数据库的所有表、执行sql并提交、关闭数据库连接等

2.数据爬取并存储
1.通过requests.get()获取response对象；
2.bs4.BeautifulSoup()获取bs4对象;
3.通过select()方法，获取bs4对象的表格数据并存储到list中
4.执行sql并提交数据

-- 建表语句
CREATE TABLE `playertechsum` (
  `id` int(255) NOT NULL AUTO_INCREMENT,
  `player` varchar(20) DEFAULT '' COMMENT '球员',
  `team` varchar(20) DEFAULT NULL COMMENT '球队',
  `games` int(255) DEFAULT NULL COMMENT '出场',
  `minsPlayed` int(255) DEFAULT NULL COMMENT '出场时间',
  `goals` int(10) DEFAULT NULL COMMENT '进球数',
  `attPenGoal` int(10) DEFAULT NULL COMMENT '点球',
  `goalAssist` int(10) DEFAULT NULL COMMENT '助攻',
  `ontargetScoringAtt` int(20) DEFAULT NULL COMMENT '射正',
  `totalScoringAtt` int(20) DEFAULT NULL COMMENT '射门',
  `totalPass` int(10) DEFAULT NULL COMMENT '传球',
  `totalCross` int(10) DEFAULT NULL COMMENT '传中',
  `wonCorners` int(10) DEFAULT NULL COMMENT '角球',
  `totalOffside` int(10) DEFAULT NULL COMMENT '越位',
  `touchBall` int(10) DEFAULT NULL COMMENT '触球',
  `fouls` int(10) DEFAULT NULL COMMENT '犯规',
  `outfielderBlock` int(10) DEFAULT NULL COMMENT '封堵',
  `yellowCard` int(10) DEFAULT NULL COMMENT '黄牌',
  `redCard` int(10) DEFAULT NULL COMMENT '红牌',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

-- 数据库连接以及操作函数
# -*- coding: utf-8 -*-
# @Time    : 2018/5/24 20:02
# @Author  : Torre
# @Email   : [email protected]
# Description ：connect to database, return cursor and conn

import json
import pymysql
import random
import string
import os
import logging


class ConnectDatabase:
    # def __init__(self, cur):
    #     self.cur = cur

    # def get_conf(self, file='databases_conf.json'):读取本地json文件
    def get_conf(self, file):
        with open(file, "r", encoding="utf-8") as f:
            conf = json.load(f)
        return conf


    # 数据库连接
    def connect_db(self, host, user, password, db, port):
        conn = pymysql.connect(host, user, password, db, port, charset="utf8")  # 最好加上utf-8
        cur = conn.cursor()
        return conn, cur

    # 获取列
    def get_cols(self, table, cur):
        sql = 'desc ' + str(table) + ''
        cur.execute(sql)
        res = cur.fetchall()
        return res

    # 执行sql,获取查询结果
    def get_res(self, cur, sql):
        cur.execute(sql)
        res = cur.fetchall()
        return res

    # 执行并提交
    def get_fetch(self, conn, cur, sql):
        cur.execute(sql)
        conn.commit()

    # 关闭数据库连接
    def disconnect_db(self, conn, cur):
        cur.close()
        conn.close()

-- 获取bs4对象
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author : Torre Yang Edit with Python3.6
# @Email  : [email protected]
# @Time   : 2018/6/5 16:19
import requests
from bs4 import BeautifulSoup as bs


def getSoup(url):
    response = requests.get(url)
    response.raise_for_status()
    res = response.content
    soup = bs(res, 'html.parser')
    return soup

-- 爬取的数据插入到mariadb
# -*- coding: utf-8 -*-
# @Time    : 2018/6/18 18:59
# @Author  : Torre
# @Email   : [email protected]
import getSoup
import connect_dataBase
import os
import re
from bs4 import BeautifulSoup as bs

# db连接
connectDB = connect_dataBase.ConnectDatabase()
get_conf = connectDB.get_conf('databases_conf.json')
conn, cur = connectDB.connect_db(get_conf["brazilCup"]["host"], get_conf["brazilCup"]["user"],
                     get_conf["brazilCup"]["password"], get_conf["brazilCup"]["database"], get_conf["brazilCup"]["port"])


url = 'http://worldcup.2014.163.com/playerrank/avg/attPenGoal/'  

soup = getSoup.getSoup(url)
trs = soup.select('tbody tr')
# print(tds)
length = len(trs)
# print(length)
players = []
for tr in trs:
    # print(row)
    player = []
    # print(len(tr))
    for td in tr:
        tds = '\''+str(td.string.strip())+'\''
        # print(tds)
        # player.append(str(td.string.strip()))
        player.append(tds)
        if "''" in player:
            player.remove("''")
    # print(player)
    # print(tuple(player))
    # 球员排行榜
    sql = 'insert into playertechsum(id,player,team,games,minsPlayed,goals,attPenGoal,goalAssist,ontargetScoringAtt,totalScoringAtt,totalPass,totalCross,wonCorners,totalOffside,touchBall,fouls,outfielderBlock,yellowCard,redCard) values('+\
          ','.join(player)+')'
 
    connectDB.get_fetch(conn, cur, sql)

四、结后语

当然，想深入学习爬虫，最好还是要学习一个爬虫框架。常见python爬虫框架参考如下：

(1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
(2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等
(3)Portia:可视化爬取网页内容
(4)newspaper:提取新闻、文章以及内容分析
(5)python-goose:java写的文章提取工具
(6)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

附件：资料下载地址链接：https://pan.baidu.com/s/179RtOxk4CsnjqjChW0nljw 密码：lczh

转载于:https://www.cnblogs.com/iloverain/p/9198217.html

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

爬取数据入门指南

四、结后语

你可能感兴趣的:(爬取数据入门指南)