zthtfb

python3爬取百度搜索结果url，获得真实url，提取网页正文并分词，多进程的使用

本文是在学习了网上相关的一些博客和资料后的学习总结，属于入门级爬虫

整体过程简介

分析百度搜索的url，用urllib.request提取网页，用beausoup解析页面，分析搜索页面，找到搜索结果在页面里的结构位置，把搜索结果提取出来，再得到搜索结果真实url，提取网页正文，分词保存

详细过程

1.分析百度搜索的url，获取页面

我们在用百度的时候输入关键词点击搜索，可以看到页面url有一大串字符。但我们用爬虫获取页面的时候是用不到这么字符的，我们实际用的url是这个：http://www.baidu.com.cn/s?wd=' 关键词'&pn='分页'。wd是你要搜索的关键，pn是分页的页面，由于百度搜索每页的结果是十个（最上面的可能是广告推广，不是搜索结果），所以pn=0是第一页，第二页是pn=10，以此类推，可以试下https://www.baidu.com/s?wd=周杰伦&pn=20，得到的是关于周杰伦的第三页搜索结果。

word = '周杰伦'

url = 'http://www.baidu.com.cn/s?wd=' + urllib.parse.quote(word) + '&pn=0' # word为关键词，pn是百度用来分页的..

response = urllib.request.urlopen(url)
page = response.read()

以上语句就是简单的爬虫，得到百度搜索结果的页面，word是传过来的关键词，如果含中文需要用urllib.parse.quote防止报错，因为超链接默认是用ascii编码的，所以不能直接出现中文。

2.分析页面的html结构，找到搜索链接在页面中的位置，得到真实的搜索链接

使用谷歌浏览器的开发者模式（F12或者Fn+F12），点击左上角的箭头后点击下其中一个搜索结果如下图可以看到搜索结果都在class="result c-container"的div里面，每个div里面都包含class="t"的h3标签,h3标签里包含a标签，而搜索结果就在其中的href便签里。

知道了url的位置接下来就很方便了，我们使用beautifulsoup使用lxml解析页面（pip install beautifulsoup4，pip install lxml，如果pip安装报错在网上搜索相关的安装教程）

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, compress',
    'Accept-Language': 'en-us;q=0.5,en;q=0.3',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'
} #定义头文件，伪装成浏览器

    all = open('D:\\111\\test.txt', 'a')

    soup = BeautifulSoup(page, 'lxml')
    tagh3 = soup.find_all('h3')
    for h3 in tagh3:
        href = h3.find('a').get('href')
        baidu_url = requests.get(url=href, headers=headers, allow_redirects=False)
        real_url = baidu_url.headers['Location']  #得到网页原始地址
        if real_url.startswith('http'):
            all.write(real_url + '\n')

因为页面中除了搜索结果外不包含其他h3标签，我们直接用beautifulsoup获取所有h3标签，然后用for循环得到每个搜索结果的url。

上面的requests也是一个爬虫的包，没有安装的化pip安装一下，我们用这个包的get的方法可以得到相关页面的头文件信息，里面的Location对应的就是网页真实url，我们在正则一下过滤掉一些没用的url，保存下来。

注意，有时候有时候伪装的头文件Accept-Encoding会引起乱码问题，可以删除。

3.提取网页正文，进行分词

   api = url2io.API('bjb4w0WATrG7Lt6PVx_TrQ')
    try:
        ret = api.article(url=url,fields=['text', 'next'])
        text = ret['text']
    except:
        return

我们用网上的三方包url2io可以提取网页正文，网址http://www.url2io.com/。但注意，这个包是基于pyhton2.7写的，里面用到的urllib2在python3的版本已经被合并到urllib中去了，需要自己修改下，还有basestring在pyhton3中也被删除，改成str即可，这个包对于大部分包含正文的网页都能提取出来，用try语句处理不能提取的情况。

我们用jieba对提取的正文分词，jieba的使用：点击打开链接。

# -*- coding:utf-8 -*-
import jieba
import jieba.posseg as pseg
import url2io
from pymongo import MongoClient
conn = MongoClient('localhost', 27017)
db = conn.test
count = db.count
count.remove()


def test():
    filename = 'C:\\xxx\\include.txt'
    jieba.load_userdict(filename)

    seg_list = jieba.cut("我家住在青山区博雅豪庭大华南湖公园世家五栋十三号") #默认是精确模式
    print(", ".join(seg_list))

    fff = "我家住在青山区博雅豪庭大.华南湖公园世家啊说,法撒撒打算武汉工商学院五栋十三号"

    result = pseg.cut(fff)
    for w in result:
        print(w.word, '/', w.flag, ',')

def get_address(url):
    api = url2io.API('bjb4w0WATrG7Lt6PVx_TrQ')
    try:
        ret = api.article(url=url,fields=['text', 'next'])
        text = ret['text']
        filename = 'C:\\xxx\\include.txt'
        jieba.load_userdict(filename)
        result = pseg.cut(text)
        for w in result:
            if(w.flag=='wh'):
                print(w.word)
                res = count.find_one({"name": w.word})
                if res:
                    count.update_one({"name": w.word},{"$set": {"sum": res['sum']+1}})
                else:
                    count.insert({"name": w.word,"sum": 1})
    except:
        return

我这里是用的结合了自定义词库进行分词。

4.使用多进程（POOL进程池）提高爬虫速度

为什么不用多线程呢，因为python的多线程太过鸡肋，详细信息百度一下就知道了。下面我直接把全部代码放出来,里面有把地址存在txt文件和MongoDB数据库的方法。

Baidu.py

# -*- coding:utf-8 -*-
'''
从百度把前10页的搜索到的url爬取保存
'''
import multiprocessing   #利用pool进程池实现多进程并行
#  from threading import Thread 多线程
import time
from bs4 import BeautifulSoup    #处理抓到的页面
import sys
import requests
import importlib
importlib.reload(sys)#编码转换，python3默认utf-8,一般不用加
from urllib import request
import urllib
from pymongo import MongoClient

conn = MongoClient('localhost', 27017)
db = conn.test#数据库名
urls = db.cache#表名
urls.remove()

'''
all = open('D:\\111\\test.txt', 'a')
all.seek(0) #文件标记到初始位置
all.truncate() #清空文件
'''

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, compress',
    'Accept-Language': 'en-us;q=0.5,en;q=0.3',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'
} #定义头文件，伪装成浏览器

def getfromBaidu(word):
    start = time.clock()
    url = 'http://www.baidu.com.cn/s?wd=' + urllib.parse.quote(word) + '&pn='  # word为关键词，pn是百度用来分页的..
    pool = multiprocessing.Pool(multiprocessing.cpu_count())
    for k in range(1, 5):
        result = pool.apply_async(geturl, (url, k))# 多进程
    pool.close()
    pool.join()
    end = time.clock()
    print(end-start)

def geturl(url, k):
    path = url + str((k - 1) * 10)
    response = request.urlopen(path)
    page = response.read()
    soup = BeautifulSoup(page, 'lxml')
    tagh3 = soup.find_all('h3')
    for h3 in tagh3:
        href = h3.find('a').get('href')
        # print(href)
        baidu_url = requests.get(url=href, headers=headers, allow_redirects=False)
        real_url = baidu_url.headers['Location']  #得到网页原始地址
        if real_url.startswith('http'):
            urls.insert({"url": real_url})
        # all.write(real_url + '\n')


if __name__ == '__main__':
    getfromBaidu('周杰伦')

  pool = multiprocessing.Pool(multiprocessing.cpu_count())

根据cpu的核数确认进程池里的进程数，多进程和POOL的用法详见点击打开链接

修改过的url2io.py

#coding: utf-8
#
# This program is free software. It comes without any warranty, to
# the extent permitted by applicable law. You can redistribute it
# and/or modify it under the terms of the Do What The Fuck You Want
# To Public License, Version 2, as published by Sam Hocevar. See
# http://sam.zoy.org/wtfpl/COPYING (copied as below) for more details.
#
#                DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE 
#                        Version 2, December 2004 
#
#     Copyright (C) 2004 Sam Hocevar  
#
#     Everyone is permitted to copy and distribute verbatim or modified 
#     copies of this license document, and changing it is allowed as long 
#     as the name is changed. 
#
#                DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE 
#       TERMS AND CONDITIONS FOR COPYING, DISTRIBUTION AND MODIFICATION 
#
#      0. You just DO WHAT THE FUCK YOU WANT TO. 

"""a simple url2io sdk
example:
api = API(token)
api.article(url='http://www.url2io.com/products', fields=['next', 'text'])
"""

__all__ = ['APIError', 'API']


DEBUG_LEVEL = 1

import sys
import socket
import json
import urllib
from urllib import request
import time
from collections import Iterable
import importlib
importlib.reload(sys)

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'
} #定义头文件，伪装成浏览器

class APIError(Exception):
    code = None
    """HTTP status code"""

    url = None
    """request URL"""

    body = None
    """server response body; or detailed error information"""

    def __init__(self, code, url, body):
        self.code = code
        self.url = url
        self.body = body

    def __str__(self):
        return 'code={s.code}\nurl={s.url}\n{s.body}'.format(s = self)

    __repr__ = __str__


class API(object):
    token = None
    server = 'http://api.url2io.com/'

    decode_result = True
    timeout = None
    max_retries = None
    retry_delay = None

    def __init__(self, token, srv = None,
                 decode_result = True, timeout = 30, max_retries = 5,
                 retry_delay = 3):
        """:param srv: The API server address
        :param decode_result: whether to json_decode the result
        :param timeout: HTTP request timeout in seconds
        :param max_retries: maximal number of retries after catching URL error
            or socket error
        :param retry_delay: time to sleep before retrying"""
        self.token = token
        if srv:
            self.server = srv
        self.decode_result = decode_result
        assert timeout >= 0 or timeout is None
        assert max_retries >= 0
        self.timeout = timeout
        self.max_retries = max_retries
        self.retry_delay = retry_delay

        _setup_apiobj(self, self, [])

    def update_request(self, request):
        """overwrite this function to update the request before sending it to
        server"""
        pass


def _setup_apiobj(self, apiobj, path):
    if self is not apiobj:
        self._api = apiobj
        self._urlbase = apiobj.server + '/'.join(path)

    lvl = len(path)
    done = set()
    for i in _APIS:
        if len(i) <= lvl:
            continue
        cur = i[lvl]
        if i[:lvl] == path and cur not in done:
            done.add(cur)
            setattr(self, cur, _APIProxy(apiobj, i[:lvl + 1]))


class _APIProxy(object):
    _api = None

    _urlbase = None

    def __init__(self, apiobj, path):
        _setup_apiobj(self, apiobj, path)

    def __call__(self, post = False, *args, **kwargs):
        # /article
        # url = 'http://xxxx.xxx',
        # fields = ['next',],
        #
        if len(args):
            raise TypeError('only keyword arguments are allowed')
        if type(post) is not bool:
            raise TypeError('post argument can only be True or False')

        url = self.geturl(**kwargs)

        request = urllib.request.Request(url,headers=headers)

        self._api.update_request(request)

        retry = self._api.max_retries
        while True:
            retry -= 1
            try:
                ret = urllib.request.urlopen(request, timeout = self._api.timeout).read()
                break
            except urllib.error.HTTPError as e:
                raise APIError(e.code, url, e.read())
            except (socket.error, urllib.error.URLError) as e:
                if retry < 0:
                    raise e
                _print_debug('caught error: {}; retrying'.format(e))
                time.sleep(self._api.retry_delay)

        if self._api.decode_result:
            try:
                ret = json.loads(ret)
            except:
                raise APIError(-1, url, 'json decode error, value={0!r}'.format(ret))
        return ret

    def _mkarg(self, kargs):
        """change the argument list (encode value, add api key/secret)
        :return: the new argument list"""
        def enc(x):
            #if isinstance(x, unicode):
            #    return x.encode('utf-8')
            #return str(x)
            return x.encode('utf-8') if isinstance(x, str) else str(x)

        kargs = kargs.copy()
        kargs['token'] = self._api.token
        for (k, v) in kargs.items():
            if isinstance(v, Iterable) and not isinstance(v, str):
                kargs[k] = ','.join([str(i) for i in v])
            else:
                kargs[k] = enc(v)

        return kargs

    def geturl(self, **kargs):
        """return the request url"""
        return self._urlbase + '?' + urllib.parse.urlencode(self._mkarg(kargs))


def _print_debug(msg):
    if DEBUG_LEVEL:
        sys.stderr.write(str(msg) + '\n')

_APIS = [
    '/article',
    #'/images',
]

_APIS = [i.split('/')[1:] for i in _APIS]

url2io具体方法可以取官网学习，比较简单，网址上面已给出。

《某某》台剧【1080p超清中字】全12集未删减完整版某某电视剧夸克百度云迅雷资源（下载链接）小小编007
《某某》是一部由柳广辉执导，改编自木苏里同名小说的台剧，讲述了两位高中生因父母再婚成为“兄弟”，并发展出一段深切感情的故事。剧集在多个平台播出，包括Netflix、iQIYI、WeTV等，自2024年8月22日起每周三、四更新，共12集。某某全集资源：(尽快保存，随时失效)https://pan.quark.cn/s/57cc92e93fcc复制链接到浏览器打开(资源完全免费,搜集于网络公开资源)
Maven iam_leeqing JAVA开发 maven java
Maven是一个面向Java项目的综合性项目管理和构建工具，它通过提供标准化的项目结构、依赖管理和构建生命周期来简化开发流程。Maven使用XML格式的pom.xml文件来定义项目配置和依赖关系，支持自动化构建过程，包括编译、测试、打包和部署等阶段。此外，Maven还能自动下载所需的库文件并解决依赖冲突，同时提供了丰富的插件支持以扩展其功能。通过使用Maven，开发者可以提高构建的一致性和可重复性
炒股群老师推荐的ESG碳交易市场正规吗？碳中和碳排放项目投资几十万根本不能提现墨守成法
在网络中，经常有陌生人要拉你进股票群，各种股票课程的广告也接连不断，很多人抱着听听课不花钱的心态，却没想到一步步陷入骗局。最近一伙骗子冒充英民达摩研学院朱明推荐股票，诱导股民进入华测检测站平台，大量受害者不能提现，大家一定要注意（注意：本文出现的人名公司等均为骗子冒充，与真实公司以及本人无关，若有侵权可与我们联系删除）如果你能及时看到这篇文章，遇到上述情况遭遇到类似平台的騙局，并且是不能提现需要交
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
2022-01-19 每天都微笑
20220119练习：不断练习增强“和解力”。摘抄：可以发生冲突，也可以和解，这是一个人人格健康的重要标志。要想拥有这样的健康人格，首先得有一种信念：相信自己是结实的，不会因为对方表达了攻击性而破碎，不会因为害怕被攻击而让自己压抑或强忍；相信他人也是结实的，虽然我们表达了攻击性，他们可能会难受，但是不至于陷入无休止的抑郁和痛苦中。也就是说，我们敢于在关系中表达自己真实的感受和需要，表达自己的攻击性
我是猫读后感浅小木悠
作者以一只猫的口吻，描写猫家的主人虽是老师，热爱看书，却总是把头埋在书里睡觉，甚至还把口水流到书上。每每有朋友来拜访，都口口声声当老师太累了太累了，但在猫眼中再没有比老师这种工作更清闲的工作了。主人肠胃不好，常吃消食片，一段时间后发现没有什么药效就不吃了。新年里主人吃了年糕，女主人好心提醒吃消食片，并还伙同女仆一起给主人施压，药效是需要长时间吃才有效果……主人还不了口，只好气呼呼的回到书房，靠写日
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
宝妈开启副业的好处，宝妈八个正规兼职平台配音新手圈
作为一位宝妈，在享受母爱的同时，也渴望拥有自己的职业空间与成长机会，实现家庭与事业的双重平衡。开启副业，不仅能为家庭带来额外的经济支持，更是自我实现、提升自我价值的重要途径。以下，我将以有说服力的语气，阐述宝妈开启副业的多重好处，并介绍八个正规且适合宝妈的兼职平台，助您迈出精彩一步。配音新手圈是鼎音传媒公司开发的在线兼职公众号,职位包括:写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、每日更
可怕：社科院正课堂朱民St-balance市场盈利无法提款怎么办?教你怎么做反诈宣传中
警惕!社科院正式学堂朱民St-balance市场行骗真实案例分享!股友亲身经历讲述!社科院正式学堂朱民St-balance市场正规靠谱？社科院正式学堂朱民靠谱吗？社科院正式学堂朱民是真的吗？社科院正式学堂朱民带着投资St-balance市场可信吗？St-balance市场不正规不合法！随着这几年经济的发展，股市也经历了一定的成长，股民越来越多。由于人性的贪婪，市场监管的缺陷，互联网平台监管不力，众
京东优惠券软件叫什么?公认好用的京东优惠券平台氧券超好用
京东优惠券软件大揭秘：公认好用的京东优惠券平台推荐在京东购物，怎样才能用最少的钱买到心仪的商品？京东优惠券软件无疑是一个不错的选择。今天，我们就来揭秘一下京东优惠券软件的奥秘，并推荐几个公认好用的京东优惠券平台。一、京东优惠券软件是什么？京东优惠券软件是一种可以帮助用户在京东购物时获得优惠的辅助工具。这些软件通常能提供京东内部优惠券、返利等信息，让用户在购物时节省开支，实现更实惠的购物体验。二、公
微信小程序 wx.request() 的封装 xkxnq 微信小程序微信小程序
基于微信小程序的wx.request()方法封装下面是一个封装方案，满足您提出的所有要求：classHttpService{constructor(){this.baseUrl='';//基础URLthis.pendingRequests=newMap();//请求缓存池this.interceptors={request:[],response:[]};}//设置基础URLsetBaseUrl(
2022年4月30日《儿童纪律教育》培训总结 A薛浩宇
春蕾十幼薛浩宇一、感受情感环境家庭氛围。对孩子的影响是最大的。如果家庭不合，会对孩子的情感环境造成巨大伤害。我们中国人是一个不会表达情感的人。所以我们要把别人对自己的好，自己对孩子的好都表达出来，让他们内心真实感受到自己是爱他们的。二、收获儿童需要被尊重，被尊重的孩子，心理上不容易出现各种各样的毛病，孩子长大以后也是一个心理健康阳光的人，父母是孩子最亲近，最信任的人，如果受到了父母的欺骗，和不尊重
深入解析Linux命令：创建目录mkdir的全面指南梦幻南瓜 linux linux 服务器运维
在Linux操作系统中，mkdir命令是创建目录的基础工具。无论是系统管理员还是普通用户，掌握mkdir的使用方法都是必不可少的。本文将详细解读mkdir命令的用法、选项及其在实际操作中的应用场景。1.mkdir命令的基本用法mkdir是“makedirectory”的缩写，用于在指定路径下创建新目录。其基本语法如下：mkdir[选项]目录名1.1创建单个目录最简单的用法是创建一个目录。例如，要在
无脑操作,亲测7天日入200+,人人可做的赚钱小项目氧惠_飞智666999
在游戏中，很多小伙伴不知道十大赚钱软件排名：2023精选5个最靠谱的赚钱软件?今天小编针对这个问题做了这篇攻略，详细内容我们来看一下。氧惠APP，2022全新模式，0投资，最快63天做到月入十万。我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百万篇报道，也期待你的加入。飞智导师，氧惠首码邀请码666999，注册送V8体验等级，享受超高佣金，注册就帮
《叛军岭》2024Netflix电影在线观看免费【1080p超清中字】逆岭完整未删减版百度云/夸克迅雷资源网盘免费高清链接下载 e95cfad15310
由杰瑞米·索尔尼尔执导的《叛军岭》是一部融合了动作与惊悚元素的电影，主演阵容包括亚伦·皮埃尔、唐·约翰逊和安娜索菲亚·罗伯。影片讲述了一个充满挑战和危险的救赎之旅，充满紧张感和视觉冲击。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行故事的主角泰瑞·里士满（亚伦·皮埃尔饰）来到谢尔比斯普林斯镇，其目的是为表弟争取保释，并从危险
五级电子病历系统专业截图与标注工具
本文还有配套的精品资源，点击获取简介：电子病历系统是医疗信息化的关键，而五级系统是中国卫生信息化建设中的重要标准。这款“五级电子病历指定截图工具”是为五级电子病历系统专门设计的专业辅助工具，提供高效的信息获取和处理功能。它不仅具备定制化的截图功能，还有录屏和标注功能，旨在帮助医疗工作者更快速准确地完成截图，并通过视频记录和编辑提高工作效率。这款工具通过提供专业截图、录屏和标注能力，专为医疗行业的信
凯恩学写作第7天：《古典：五个问题写出好文章》田_52ab
今天学习的课程是APP《得到》里古典老师的一篇《五个问题写出好文章》。这篇文章是知道我们如何去写出一篇有影响力的观点式文章，在这个时代写文章是一件非常有意义的事情，除了是一种自我表达、升级思维的方式外，还是一种传播个人影响力最好的方式。在课程中，古典老师给出了一种写作的方式，即提出五个问题，并对这五个问题进行回答，最后将问题和你的解答记录下来，就能写出一篇有影响力的观点式文章。课程内容：问题1：最
关于归宿二小姐的马
通过文学与人类学知道人科动物要是没有归宿感，不能真正融入群体，就会迷失自我，在文学或真实界里，孤狼或许是反派英雄，能让读者心有戚戚焉，但这种人通常过着悲惨的生活。
python 协程进阶 cliffordl async python python 开发语言
python协程实现python协程进阶python生成器的作用协程在多个模型流式输出中的使用实例文章目录1.协程基础1.1.协程名词解释1.2.基本工作流程1.3.async协程执行1.3.1.协程顺序执行（asyncio.run）1.3.2.协程顺序执行（await）1.3.3.协程同步执行（asyncio.create_task）2.可等待对象（Awaitables）2.1.Coroutin
阿里云ssl证书自动安装及续订（acme） cherishSpring nginx linux #docker容器阿里云 ssl 数据库
目录一、shell命令安装二、dockerrun安装三、dockercompose安装一、shell命令安装#安装acmecurlhttps://get.acme.sh|[email protected]#注册zerossl.acme.sh/[email protected]#获取证书exportA
福袋生活是什么？福袋生活怎么赚钱？氧惠评测
福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，它以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐等生活服务板块，为用户提供优惠与便捷服务。福袋生活的主要特点和功能包括以下几个方面：福袋生活是什么？综合返利券商品平台：福袋生活集合了多家知名电商平台（如淘宝、天猫、京东、拼多多等）的优惠券信息，用户可以在平台上搜索并领取优惠券，享受购物优惠。即使没有优惠券，用户也可以通过福
docker命令 cherishSpring #docker容器 docker java eureka
目录1、常用命令2、容器生命周期管理创建一个新容器并运行一个命令杀掉一个运行中的容器删除一个或多个容器3、容器操作列出容器获取容器/镜像的元数据从服务器获取实时事件将文件系统作为一个tar归档文件导出到STDOUT4、容器rootfs命令从容器创建一个新的镜像检查容器里文件结构的更改容器与主机之间的数据拷贝5、镜像仓库登陆到Docker镜像仓库登出Docker镜像仓库从镜像仓库中拉取或者更新指定镜
甜蜜家园3韩剧全集无修[1080p英文中字]百度网盘云资源完整版下载免费观看星座天蝎座之
甜蜜家园3高清HD下载百度网盘完整百度云资源链接下载提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行甜蜜家园3》延续了前作的故事线，讲述了一家人在遭遇外部威胁时如何团结一致，共同面对困难的历程。影片开场不久，观众便被引入一个风云变幻的环境，随着情节的发展，角色之间的关系也逐渐深入。影片以一种紧凑且富有张力的叙事手法，展示了角色们在逆境中所经历的挣扎与成长。其次，角色的塑造是《甜蜜家园3
智能体学习记录一罗同学213 学习
智能体是什么智能体（IntelligentAgent）是一种能够感知周围环境、自主决策并执行行动以实现特定目标的智能化系统或程序。它可以是软件（如聊天机器人）、硬件（如机器人），或两者结合的实体，核心特征包括：自主性：无需人工实时干预，独立运行（如自动驾驶车辆避障）。反应性：实时感知环境变化并快速响应（如智能家居调节温度）。目标导向：基于预设目标优化行动（如推荐系统最大化用户点击率）。学习能力：通
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
美逛是什么？美逛是正规平台吗？高省APP珊珊
美逛是一款集成了淘宝、京东、拼多多等线上线下平台的优惠券，通过优惠券导购的社交电商平台。它是由杭州美逛科技有限公司开发并运营的，该公司成立于2017年，注册资金为500万元，拥有专业的技术团队、客服团队和运营团队，确保平台的正常运营。美逛的特点和优势正规性和安全性：高省经过淘宝官方的认证和审核，有权将淘宝天猫的商品上架到平台上，供用户领取优惠券并购买。高省在整个交易过程中只是提供一个领取优惠券的途
我过了把论文答辩的瘾珍惜心理
我于八十年代末大专毕业，此后通过函授拿到本科文凭，没有过论文答辩关，所以对这高大上的论文答辩一无所知。2019年9月进入韦志中心理学网校学习，得知要取得中级证书，需提交一篇3000—5000字的论文，并要通过论文答辩。我教中学语文三十年，为了评职称，也曾写过几十篇教学论文，并获各种奖项，也在不同刊物发了几篇，但那些论文不过一二千字，浅尝辄止，从没经过论文答辩，心里还是有点怯怯的。2020年初突如其
京东返利app哪个最好官方？京东返利软件哪个佣金高直返APP淘宝优惠券
随着互联网的发展和电商平台的崛起，网购已成为人们日常生活中不可或缺的一部分。在享受网购便利的同时，人们也在寻求更多省钱的方法。京东返利App就是其中之一，那么京东返利App哪个最好用？哪个佣金最高呢？让我们来一一揭秘。一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上获取自己感兴趣的商品，购买后可以获得一定比例的返利。直
Redis的协同和异步 weixin_43982809 redis 数据库缓存
Redispipline多条命令同时发给redisredis返回多个结果hiredis提供接口Redis的事务事务由程序员规定(多条连接共同操作)MuLTI事务开始EXEC事务提交Discard取消事务Watch检测变动乐观锁提交的时候才查看如果值被改变取消事务用lua的脚本实现事务lua代码执行多个命令scriptload编译lua并返回idevalshaid服务器启动时全部进行编译得到多个ha
《左轮手枪》韩国电影资源【1080p超清中文字幕】免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云下载步骤全网优惠分享君
《左轮手枪》是一部充满悬疑与犯罪元素的韩国电影，由吴胜旭执导，汇集了全度妍、池昌旭、林智妍等实力派演员，于2024年8月7日在韩国上映。影片以其紧凑的剧情、深刻的角色塑造和紧张的氛围，吸引了众多观众的关注。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行故事围绕着背负所有罪责、被诬陷入狱的前警察河秀英（全度妍饰）展开。河秀英本是一位正直勇敢的警察，却因某种原因被栽赃陷害，失去了职业生涯
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，