燕双嘤

Python：网络爬虫

一，经典爬虫-BeautifulSoup

二，正则表达式

爬取斗破苍穹小说

爬取糗事百科

三，Lxml爬取

Excel存储：爬取中文起点小说

图片爬取：爬取妹子网图片

数据库存储：爬取豆瓣图书

多线程爬虫：爬虫爬取糗事百科

Pycharm兼容爬虫

Pycharm不兼容，必须要Idea中运行

爬虫：IP代理

手机爬虫：爬取百度文库文档

四，案例

一，爬取美团商家数据

一，非美食类

二，美食类

二，有道词典实现在线翻译

一，经典爬虫-BeautifulSoup

import requests
from bs4 import BeautifulSoup
import time    #导入库

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}    #请求头

def get_info(url):    #获取信息的函数
    wb_data=requests.get(url,headers=headers)
    soup=BeautifulSoup(wb_data.text,'lxml')
    ranks=soup.select('span.pc_temp_num')
    titles=soup.select('div.pc_temp_songlist > ul > li > a')
    times=soup.select('span.pc_temp_tips_r > span')
    for rank,title,time,in zip(ranks,titles,times):    #获取指定组件指示的位置参数
        data={
            'rank':rank.get_text().strip(),
            'singer':title.get_text().split('-')[0],
            'song':title.get_text().split('-')[0],
            'time':time.get_text().strip()
        }
        print(data)

if __name__ == '__main__':
    urls=['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)]    #构造23个URL，由酷狗页面前500条数据所占的页数决定

    for url in urls:
        get_info(url)
    time.sleep(1)

二，正则表达式

爬取斗破苍穹小说

import requests
import re
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
f = open('G:/doupo.txt','a+')

def get_info(url):
    res = requests.get(url,headers=headers)
    if res.status_code == 200:
        contents = re.findall('(.*?)',res.content.decode('utf-8'),re.S)
        for content in contents:
            f.write(content+'\n')
    else:
        pass
if __name__ == '__main__':

    urls = [http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(2,3)]
    for url in urls:
        get_info(url)
        time.sleep(1)
    f.close()

爬取糗事百科

import requests
import re
headers = {
    'User-Agent' :'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
info_lists = []
def judgment_sex(class_name):
    if class_name == 'womenIcon':
        return '女'
    else:
        return  '男'
def get_info(url):
    res = requests.get(url)
    ids = re.findall('(.*?)' ,res.text ,re.S)
    levels = re.findall('(.*?)' ,res.text ,re.S)
    sexs = re.findall('' ,res.text ,re.S)
    contents = re.findall('.*?(.*?)' ,res.text ,re.S)
    laughs = re.findall('(\d+)' ,res.text ,re.S)
    comments = re.findall('(\d+) 评论' ,res.text ,re.S)
    for id ,level ,sex ,content ,laugh ,comment in zip(ids ,levels ,sexs ,contents ,laughs ,comments):
        info = {
            'id' :id,
            'level' :level,
            'sex' :judgment_sex(sex),
            'content' :content,
            'laugh' :laugh,
            'comment' :comment
        }
        info_lists.append(info)
if __name__ == '__main__':
    urls = ['http://www.qiushibaike.com/text/page/{}/'.format(str(i)) for i in range(1 ,36)]
    for url in urls:
        get_info(url)
    for info_list in info_lists:
        print(info_list)

三，Lxml爬取

Excel存储：爬取中文起点小说

import xlwt
import requests
from lxml import etree
import time
all_info_list = []
def get_info(url):
    html = requests.get(url)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="all-img-list cf"]/li')
    for info in infos:
        title = info.xpath('div[2]/h4/a/text()')[0]
        author = info.xpath('div[2]/p[1]/a[1]/text()')[0]
        style_1 = info.xpath('div[2]/p[1]/a[2]/text()')[0]
        style_2 = info.xpath('div[2]/p[1]/a[3]/text()')[0]
        style = style_1 + '·' + style_2
        complete = info.xpath('div[2]/p[1]/span/text()')[0]
        introduce = info.xpath('div[2]/p[2]/text()')[0].strip()
        word = info.xpath('div[2]/p[3]/span/text()')[0].strip('万字')
        info_list = [title, author, style, complete, introduce, word]
        all_info_list.append(info_list)
if __name__ == '__main__':
    urls = ['http://a.qidian.com/?page={}'.format(str(i)) for i in range(1, 101)]
    for url in urls:
        get_info(url)
    header = ['title', 'author', 'style', 'complete', 'introduce', 'word']
    book = xlwt.Workbook(encoding='utf-8')
    sheet = book.add_sheet('Sheet1')
    for h in range(len(header)):
        sheet.write(0, h, header[h])
    i = 1
    for list in all_info_list:
        j = 0
        for data in list:
            sheet.write(i, j, data)
            j += 1
        i += 1
    book.save('xiaoshuo.xls')

图片爬取：爬取妹子网图片

import requests
import os
from lxml import etree
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
}
path = 'G:/photo/'
def get_girlphoto(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)

    girlphoto_urls = selector.xpath('//div/ul/li/a/img/@data-original')
    print(girlphoto_urls)
    
    for item in girlphoto_urls:
        data = requests.get(item, headers=headers)
        with open(path + item[-10:], 'wb') as f:
            f.write(data.content)
            f.close()
if __name__ == '__main__':  # 主函数
    urls = ["https://www.mzitu.com/page/{}".format(str(i)) for i in range(2, 11)]
    for url in urls:
        get_girlphoto(url)

数据库存储：爬取豆瓣图书

import requests
import time  # 导入库f
from lxml import etree
import pymysql
headers ={
    'User-Agent' :'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}  # 请求头
def get_info(url):  # 获取信息的函数
    db = pymysql.connect("localhost", "root", "123456", "music")
    cursor = db.cursor()
    wb_data =requests.get(url ,headers=headers)
    selector =etree.HTML(wb_data.text)
    names =selector.xpath('//div[@class="pl2"]/a/text()')
    titles =selector.xpath('//p[@class="pl"]/text()')
    for name ,title in zip(names ,titles):  # 获取指定组件指示的位置参数
        '''data={
            'name':name.strip(),
            'author':title.split('/')[0],
            'time':title.split('/')[1],
        }'''
        a=name.strip( )
        b=title.split('/')[0]
        c=title.split ('/')[1]
        cursor.execute("insert into  music values(' " + a + "',' " + b + "',' " + c + "')")
        print(a,b,c)
        db.commit()
    cursor.close()
    db.close()
if __name__ == '__main__':
    urls =['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(25 ,225 ,25)]  # 构造23个URL，由酷狗页面前500条数据所占的页数决定
    for url in urls:
        get_info(url)

多线程爬虫：爬虫爬取糗事百科

Pycharm兼容爬虫

import requests
from queue import Queue
from lxml import etree
import threading
import time
class bsSpider(object):
    """docstring for ClassName"""

    def __init__(self):
        self.headers = {"User-Agent": "Mozilla/5.0"}
        self.url = 'http://www.budejie.com/'

        # URL队列
        self.urlQueue = Queue()
        # 响应html队列
        self.resQueue = Queue()

    def getUrl(self):
        for p in range(1, 51):
            url = self.url + str(p)
            self.urlQueue.put(url)

    def getHtml(self):
        while True:
            # 从urlQueue中拿url
            url = self.urlQueue.get()
            res = requests.get(url, headers=self.headers)
            res.encoding = "utf-8"
            html = res.text
            # 放到响应队列
            self.resQueue.put(html)
            # 清除任务
            self.urlQueue.task_done()

    def gerText(self):
        while True:
            # 从urlQueue中拿url
            html = self.resQueue.get()
            parseHtml = etree.HTML(html)
            title_list = parseHtml.xpath('//div[@class="j-r-list-c-desc"]/a/text()')
            # 放到响应队列
            for title in title_list:
                self.show(title)
            # 清除任务
            self.resQueue.task_done()

    def show(self,title):
        print(title)

    def run(self):
        thList = []
        self.getUrl()   # 50url

        # 创建请求线程，放到线程列表
        for i in range(5):
            thRes = threading.Thread(target=self.getHtml)
            thList.append(thRes)

        # 创建解析线程，放到线程列表
        for i in range(5):
            thParse = threading.Thread(target=self.gerText)
            thList.append(thParse)

        # 启动所有线程
        for th in thList:
            th.setDaemon(True)  #守护线程，保证线程单独执行
            th.start()

        self.urlQueue.join()    #判断队列是否为0,0：主线程继续执行,html 40

        self.resQueue.join()    #5个，


if __name__ == '__main__':
    spider = bsSpider()
    spider.run()

Pycharm不兼容，必须要Idea中运行

import requests
import os
from lxml import etree
import xlwt
import time
from multiprocessing import Pool
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
}
def get_girlphoto(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    purl=selector.xpath("//a[@class='resule_img_a']/@href")
    for i in purl:
        html = requests.get(i, headers=headers)
        selector = etree.HTML(html.text)
        titles=selector.xpath("//h4/em/text()")
        addresses=selector.xpath("//span[@class='pr5']/text()")
        dolors=selector.xpath("//*[@id='pricePart']/div[1]/span/text()")
        people_names=selector.xpath("//a[@class='lorder_name']/@title")
        for title,address,dolor,people_name in zip(titles,addresses,dolors,people_names):
            info_list = [title,str(address).strip(),dolor,people_name]

if __name__ == '__main__':  # 主函数
    urls=["http://bj.xiaozhu.com/search-duanzufang-p{}-0/".format(str(i)) for i  in range(1,10)]
    start1=time.time()
    for i in urls:
        get_girlphoto(i)
    end1=time.time()
    print('单进程',end1-start1)

    start2=time.time()
    pool=Pool(processes=10)
    pool.map(get_girlphoto,urls)
    end2=time.time()
    print('10进程',end2-start2)

爬虫：IP代理

免费代理服务器：https://www.xicidaili.com/nn/

import requests 
proxies = { "http": "http://192.10.1.10:8080", "https": "http://193.121.1.10:9080", } 
requests.get("http://targetwebsite.com", proxies=proxies)

手机爬虫：爬取百度文库文档

# -*- coding: utf-8 -*-
import Public
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver import ActionChains
import time
headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36"
}


def get_num(url):
    driver = webdriver.PhantomJS()
    driver.get(url)
    html = driver.page_source
    page_count_get = BeautifulSoup(html, 'lxml')
    page_count_gets = page_count_get.find(class_='page-count')
    pagecount = page_count_gets.get_text()
    num = int(pagecount[1:])
    temp = num
    page1 = 1  # 从第一页开始爬取
    # 获取结果
    all = ''
    while page1 <= temp:
        x = 'pageNo-' + str(page1)  # 当前页面元素
        html = driver.page_source
        soup = BeautifulSoup(html, 'lxml')  # 载入html
        soups = soup.find_all(id=x)  # 找到所有id为x的元素
        for each in soups:
            text = each.get_text()  # 获取元素里的文字
            all += text
        if num > 1 and text == '':  # 如果页数大于1并且获取不到文章，就点击继续阅读
            page = driver.find_element_by_css_selector("#html-reader-go-more")  # 模拟鼠标点击 ActionChain()方法
            pagebutton = driver.find_element_by_css_selector("#html-reader-go-more .banner-more-btn")  # 继续阅读按钮的元素位置
            ActionChains(driver).move_to_element(page).click(pagebutton).perform()  # 执行鼠标单击行为
            time.sleep(2)
            num = num / 5
            page1 = page1 - 1
        elif num < 1 and text == '':  # 如果页数小于1（这里指的是不需要再点击继续阅读）并且获取不到文章，就下滚
            target = driver.find_element_by_id(x)  # 找到id为x的元素，并定位，也就是当前正在爬取的页数
            driver.execute_script("arguments[0].scrollIntoView();", target)  # 模拟滚动到id为x的地方，也就是当前正在爬取的页数
            time.sleep(2)
            page1 = page1 - 1
        page1 = page1 + 1
        print(all)

四，案例

一，爬取美团商家数据

一，非美食类

import xlwt

import requests

from lxml import etree

import time
all_info_list = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',
        'Cookie': '_lxsdk_cuid=16bd560125bc8-0f8928eb371893-e323069-1fa400-16bd560125bc8;ci=1;rvct=1;_hc.v=fcff8e99-91bf-6483-6184-9a249bc61b80.1562654914;Hm_lvt_f66b37722f586a240d4621318a5a6ebe=1562749731;__utma=211559370.351478480.1562749734.1562749734.1562749734.1;__utmz=211559370.1562749734.1.1.utmcsr=baidu|utmccn=baidu|utmcmd=organic|utmcct=zt_search;client-id=da6ade00-71c3-4821-af5f-d539b16b5955;uuid=c2d42edd0bda4f44acc5.1563193350.1.0.0;_lx_utm=utm_source%3Dbaidu%26utm_campaign%3Dbaidu%26utm_medium%3Dorganic%26utm_content%3Dzt_search;__mta=213669163.1563193361179.1563193361179.1563193361179.1;_lxsdk_s=16bf595928c-1b-bd2-c98%7C%7C5'}
def get_info(url):
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    titles = selector.xpath('//div[@class="list-item-desc-top"]/a/text()')
    address = selector.xpath('//div[@class="item-site-info clearfix"]/span[2]/text()')
    p=selector.xpath('//div[@class="item-eval-info clearfix"]/span[1]/text()')#奇数
    r=selector.xpath('//div[@class="item-price-info"]/span/text()')#偶数
    pingfens=[]
    renjuns=[]
    for i in range(0,len(p)-1,2):
        pingfens.append(p[i])
    for i in range(1, len(r) - 1,2):
        renjuns.append(r[i])

    for title,addres,pingfen,renjun in zip(titles,address,pingfens,renjuns):
        info_list=[title,addres,pingfen+"分","￥"+renjun]
        all_info_list.append(info_list)
        print(info_list)
if __name__ == '__main__':

    urls = ["https://bj.meituan.com/jiehun/c20198/pn{}/".format(str(i))
        for i in range(1, 20)]

    for url in urls:
        get_info(url)
    #get_info("https://bj.meituan.com/yundongjianshen/c20268/")
    header = ['店名', '地址', '评分', '人均']
    book = xlwt.Workbook(encoding='utf-8')
    sheet = book.add_sheet('Sheet1')
    for h in range(len(header)):
        sheet.write(0, h, header[h])
    i = 1
    for list in all_info_list:
        j = 0
        for data in list:
            sheet.write(i, j, data)
            j += 1
        i += 1
    book.save('xiaoshuo.xls')

二，美食类

import xlwt

import requests

from lxml import etree
import re
import time
all_info_list = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',
        'Cookie':'_lxsdk_cuid=16bd560125bc8-0f8928eb371893-e323069-1fa400-16bd560125bc8;ci=1;rvct=1;_hc.v=fcff8e99-91bf-6483-6184-9a249bc61b80.1562654914;Hm_lvt_f66b37722f586a240d4621318a5a6ebe=1562749731;__utma=211559370.351478480.1562749734.1562749734.1562749734.1;__utmz=211559370.1562749734.1.1.utmcsr=baidu|utmccn=baidu|utmcmd=organic|utmcct=zt_search;client-id=da6ade00-71c3-4821-af5f-d539b16b5955;uuid=c2d42edd0bda4f44acc5.1563193350.1.0.0;_lx_utm=utm_source%3Dbaidu%26utm_campaign%3Dbaidu%26utm_medium%3Dorganic%26utm_content%3Dzt_search;__mta=213669163.1563193361179.1563193361179.1563193361179.1;_lxsdk_s=16bf595928c-1b-bd2-c98%7C%7C5' }
def get_info(url):
    html = requests.get(url,headers=headers)
    html2=str(html.text)[str(html.text).find("poiInfos"):str(html.text).find("comHeader")]
    list=html2.split("poiId")
    for i in list:
        s=str(i)[str(i).find("title"):str(i).find("avgPrice")]
        a=s[s.find("title"):s.find("avgScore")].strip('title":"')
        title=a.strip('",')
        b=s[s.find("address"):].strip('address":"')
        addres=b.strip('",')
        c=s[s.find("avgScore"):s.find("allCommentNum")].strip('avgScore":')
        pingfen=c.strip(',')
        d=s[s.find("allCommentNum"):s.find("address")].strip('allCommentNum":')
        renjun=d.strip(',')
        info_list = [title, addres, pingfen + "分", "￥" + renjun]
        all_info_list.append(info_list)
        print(info_list)
if __name__ == '__main__':
    urls = ["http://bj.meituan.com/meishi/c54/pn{}/".format(str(i))
        for i in range(1, 20)]

    for url in urls:
        get_info(url)
    header = ['店名', '地址', '评分', '人均']
    book = xlwt.Workbook(encoding='utf-8')
    sheet = book.add_sheet('Sheet1')
    for h in range(len(header)):
        sheet.write(0, h, header[h])
    i = 1
    for list in all_info_list:
        j = 0
        for data in list:
            sheet.write(i, j, data)
            j += 1
        i += 1
    book.save('xiaoshuo.xls')

二，有道词典实现在线翻译

import requests
import re
import time
import urllib3
import hashlib
headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Origin':'http://fanyi.youdao.com/',  #请求头最初是从youdao发起的，Origin只用于post请求
            'Referer':'http://fanyi.youdao.com/', #Referer则用于所有类型的请求
}
class YoudaoFanyi:
    def get_info(self,key):
        data = {    #各种数据，可以通过抓包找到
            'i': key,
            'from': 'AUTO',
            'to': 'AUTO',
            'smartresult': 'dict',
            'client': 'fanyideskweb',
            'salt': '15675741889781',
            'sign': 'fa78728c931e9e682fae1c39c2b43b3a',
            'doctype':'json',
            'version':'2.1',
            'keyfrom':'fanyi.web',
            'action':'FY_BY_CLICKBUTTION', #判断按回车提交或者点击按钮提交的方式
            'typoResult':'true'
        }
        url='http://fanyi.youdao.com/translate?    smartresult=dict&smartresult=rule&sessionFrom=null'    #有道的一个接口
        res = requests.post(url, headers=headers,data=data)
        youdaojson = res.json()
        print('翻译的结果是：%s' % (youdaojson['translateResult'][0][0]['tgt']))
        time.sleep(2)


if __name__ == '__main__':
    youdao=YoudaoFanyi()
    while True:
        key = input("请输入你要翻译的文字('quit':退出): ").strip()
        if key == 'quit':
            break
        youdao.get_info(key)

你可能感兴趣的:(Python)

Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他