愿热爱常在

python网络爬虫

运行环境：python3

BeautifulSoup4解析库

中文文档： https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

BeautifulSoup4 是 HTML/XML 的解析器，主要的功能便是解析和提取 HTML/XML 中的数据。

Python中用于爬取静态网页的基本方法/模块有三种：正则表达式、BeautifulSoup和Lxml。三种方法的特点大致如下：

beautifulSoup 的功能和 lxml 一样，但是 lxml 只会局部遍历数据，而 BeautifulSoup是基于HTML DOM的，所以会载入整个文档来解析整个DOM树。因此在性能上来说 BeautifulSoup 是低于lxml 的。

安装 BeautifulSoup4：

在 python3 中安装 BeautifulSoup4 的方法如下：

pip3 install beautifulsoup4

BeautifulSoup4使用

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html.read(), 'html.parser')

#bs.find_all(tagName, tagAttributes) 可以获取页面中所有指定的标签
nameList = bs.findAll('span', {'class':'green'})
title = bs.body.h1
print(title)

head=bs.findAll(['h1','h2'])
print(head)

nameList1 = bs.find_all(text='the prince')  #文本参数 text 有点不同，它是用标签的文本内容去匹配，而不是用标签的属性
print(len(nameList1))

for name in nameList:
    print(name.get_text())

bs.find_all(tagName, tagAttributes) 可以获取页面中所有指定的标签

BeautifulSoup的find()和find_all()

BeautifulSoup 文档里两者的定义就是这样:

  find_all(tag, attributes, recursive, text, limit, keywords)
  
  find(tag, attributes, recursive, text, keywords)

正则表达式和BeautifulSoup

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')
images = bs.find_all('img',
                     {'src': re.compile('\.\.\/img\/gifts\/img.*\.jpg')})
for image in images:
    print(image['src'])

编写网络爬虫

全面彻底地抓取网站的常用方法是从一个顶级页面(比如主页)开始，然后搜索该页面上的所有内链，形成列表。之后，抓取这些链接跳转到的每一个页面，再把在每个页面上找到的链接形成新的列表，接着执行下一轮抓取。

1. 搜索维基百科上凯文 • 贝肯词条里所有指向其他词条的链接

一个函数 getLinks，可以用一个 /wiki/< 词条名称 > 形式的维基百科词条 URL 作为参数，然后以同样的形式返回一个列表，里面包含所有的词条 URL。
一个主函数，以某个起始词条为参数调用 getLinks，然后从返回的 URL 列表里随机选择一个词条链接，再次调用 getLinks，直到你主动停止程序，或者在新的页面上没有词条链接了。

完整的代码如下所示:

from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re

random.seed(datetime.datetime.now())

def getLinks(articleUrl):
    html = urlopen('http://en.wikipedia.org{}'.format(articleUrl))
    bs = BeautifulSoup(html, 'html.parser')
    return bs.find('div', {'id': 'bodyContent'}).find_all('a',
                                                          href=re.compile('^(/wiki/)((?!:).)*$'))
links = getLinks('/wiki/Kevin_Bacon')
while len(links) > 0:
    newArticle = links[random.randint(0, len(links) - 1)].attrs['href']
    print(newArticle)
    links = getLinks(newArticle)

2.收集网站数据

通过观察几个维基百科页面，包括词条页面和非词条页面，比如隐私策略页面，就会得出下面的规则。

所有的标题(所有页面上，不论是词条页面、编辑历史页面还是其他页面)都是在 h1 → span 标签里，而且页面上只有一个 h1 标签。
前面提到过，所有的正文文本都在 div#bodyContent 标签里。但是，如果我们只想获取第一段文字，可能用 div#mw-content-text → p 更好(只选择第一段的标签)。这个规则对所有内容页面都适用，除了文件页面(例如，https://en.wikipedia.org/wiki/File:Orbit_ of_274301_Wikipedia.svg)，它们不包含内容文本(content text)部分。
编辑链接只出现在词条页面上。如果有编辑链接，都位于 li#ca-edit 标签的 li#ca- edit → span → a 里面。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()

def getLinks(pageUrl):
    global pages
    html = urlopen('http://en.wikipedia.org{}'.format(pageUrl))
    bs = BeautifulSoup(html, 'html.parser')
    try:
        print(bs.h1.get_text())
        print(bs.find(id='mw-content-text').find_all('p')[0])
        print(bs.find(id='ca-edit').find('span')
              .find('a').attrs['href'])
    except AttributeError:
        print("页面缺少一些属性!不过不用担心!")
    for link in bs.find_all('a', href=re.compile('^(/wiki/)')):
        if 'href' in link.attrs:
           if link.attrs['href'] not in pages:  # 我们遇到了新页面
               newPage = link.attrs['href']
               print('-' * 20)
               print(newPage)
               pages.add(newPage)
               getLinks(newPage)

爬chakracore的label为bug的网址：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()

def getLinks(pageUrl):
    global pages
    html = urlopen('https://github.com/chakra-core/ChakraCore/labels/Bug{}'.format(pageUrl))
    bs = BeautifulSoup(html, 'html.parser')
    for link in bs.find_all('a', href=re.compile('^(\/chakra-core\/ChakraCore\/issues\/)[0-9]+')):
        if 'href' in link.attrs:
           if link.attrs['href'] not in pages:  # 我们遇到了新页面
               newPage = link.attrs['href']
               print('-' * 20)
               print(newPage)
               pages.add(newPage)
               getLinks(newPage)

getLinks('')

Scrapy

1.安装Scrapy:

 conda install -c conda-forge scrapy

一个蜘蛛(spider)就是一个 Scrapy 项目，和它的名称一样，就是用来爬网(抓取网页)的
“爬虫”(crawler)表示“任意用或不用 Scrapy 抓取网页的程序”

https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

2.编写第一个爬虫(Spider)

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。

其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成 item 的方法。

为了创建一个Spider，您必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

创建项目

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

定义Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

提取Item

Selectors选择器简介

从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 和 CSS 表达式机制: Scrapy Selectors 。关于selector和其他提取机制的信息请参考 Selector文档。

这里给出XPath表达式的例子及对应的含义:

/html/head/title: 选择HTML文档中标签内的 </code> 元素</li> <li><code>/html/head/title/text()</code>: 选择上面提到的 <code><title></code> 元素的文字</li> <li><code>//td</code>: 选择所有的 <code><td></code> 元素</li> <li><code>//div[@class="mine"]</code>: 选择所有具有 <code>class="mine"</code> 属性的 <code>div</code> 元素</li> </ul> <hr> 为了配合XPath，Scrapy除了提供了 <code>Selector</code> 之外，还提供了方法来避免每次从response中提取数据时生成selector的麻烦。 Selector有四个基本的方法(点击相应的方法可以看到详细的API文档): <ul> <li><code>xpath()</code>: 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表。</li> <li><code>css()</code>: 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表.</li> <li><code>extract()</code>: 序列化该节点为unicode字符串并返回list。</li> <li><code>re()</code>: 根据传入的正则表达式对数据进行提取，返回unicode字符串list列表。</li> </ul> 在查看了网页的源码后，您会发现网站的信息是被包含在 第二个 <code><ul></code> 元素中。 我们可以通过这段代码选择该页面中网站列表里所有 <code><li></code> 元素: <pre><code>response.xpath('//ul/li') </code></pre> 网站的描述: <pre><code>response.xpath('//ul/li/text()').extract() </code></pre> 网站的标题: <pre><code>response.xpath('//ul/li/a/text()').extract() </code></pre> 以及网站的链接: <pre><code>response.xpath('//ul/li/a/@href').extract() </code></pre> 之前提到过，每个 <code>.xpath()</code> 调用返回selector组成的list，因此我们可以拼接更多的 <code>.xpath()</code> 来进一步获取某个节点。我们将在下边使用这样的特性: <pre><code class="prism language-python">for sel in response.xpath('//ul/li'): title = sel.xpath('a/text()').extract() link = sel.xpath('a/@href').extract() desc = sel.xpath('text()').extract() print title, link, desc </code></pre> <h1>mysql数据库</h1> <h3>1.启动：</h3> <pre><code class="prism language-sql">mysql -u root </code></pre> 密码为：12345678 <h3>2.显示所有数据库</h3> 输入show databases;命令，显示所有数据库 <pre><code class="prism language-javascript">mysql> show databases; </code></pre> <h3>3.创建数据库：</h3> <pre><code class="prism language-javascript">mysql> create database studb; </code></pre> <h3>4. 使用数据库</h3> 在上面显示的数据库中，实例中使用studb数据库，输入下面命令： <pre><code class="prism language-javascript">mysql> use studb; </code></pre> <h3>5.创建表</h3> <pre><code class="prism language-mysql">mysql> create table test -> ( -> sid varchar(20) not null primary key, -> sname varchar(20) not null, -> sddress varchar(40) -> ); </code></pre> <h3>6. 打印表结构</h3> <pre><code class="prism language-javascript">mysql> desc t_stu; </code></pre> 打印结果： <pre><code class="prism language-javascript">+---------+-------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +---------+-------------+------+-----+---------+-------+ | sid | varchar(20) | NO | PRI | NULL | | | sname | varchar(20) | NO | | NULL | | | address | varchar(50) | YES | | NULL | | +---------+-------------+------+-----+---------+-------+ 3 rows in set (0.02 sec) </code></pre> <h3>7. 表中增加数据</h3> <pre><code class="prism language-javascript">mysql> insert into t_stu -> select 's001' , 'jin' , 'changzhou' -> union -> select 's002' , 'tom' , 'yangzhou' -> union -> select 's003' , 'kate' , 'suzhou' -> ; </code></pre> <h3>8. 查看表数据</h3> <pre><code class="prism language-javascript">mysql> select * from t_stu; </code></pre> 查看结果： <pre><code class="prism language-javascript">| sid | sname | address | +------+-------+----------+ | s001 | jin | wuhan | | s002 | tom | shanghai | | s003 | kate | suzhou | +------+-------+----------+ 3 rows in set (0.01 sec) </code></pre> <h3>9. 修改表中数据</h3> <pre><code class="prism language-javascript">mysql> update t_stu set sname = "fby" where sid = "s001"; </code></pre> <h3>10. 删除表中数据</h3> 删除表中sid = “s002”的数据 <pre><code class="prism language-javascript">mysql> delete from t_stu where sid = "s002"; </code></pre> <h1>读csv文件</h1> <pre><code class="prism language-python">from urllib.request import urlopen from io import StringIO import csv data = urlopen('http://pythonscraping.com/files/MontyPythonAlbums.csv').read().decode('ascii', 'ignore') dataFile = StringIO(data) csvReader = csv.reader(dataFile) for row in csvReader: print(row) </code></pre> <h1>Python使用pandas处理CSV文件</h1> https://blog.csdn.net/atnanyang/article/details/70832257 Python中有许多方便的库可以用来进行数据处理，尤其是Numpy和Pandas,再搭配matplot画图专用模块，功能十分强大。 CSV（Comma-Separated Values）格式的文件是指以纯文本形式存储的表格数据，这意味着不能简单的使用Excel表格工具进行处理，而且Excel表格处理的数据量十分有限，而使用Pandas来处理数据量巨大的CSV文件就容易的多了。 <ul> <li>Pandas读取本地CSV文件并设置Dataframe(数据格式)</li> </ul> <pre><code class="prism language-python">import pandas as pd import numpy as np df=pd.read_csv('filename',header=None,sep=' ') #filename可以直接从盘符开始，标明每一级的文件夹直到csv文件，header=None表示头部为空，sep=' '表示数据间使用空格作为分隔符，如果分隔符是逗号，只需换成 ‘，’即可。 print df.head() print df.tail() #作为示例，输出CSV文件的前5行和最后5行，这是pandas默认的输出5行，可以根据需要自己设定输出几行的值 </code></pre> <ul> <li>使用pandas直接读取本地的csv文件后，csv文件的列索引默认为从0开始的数字，重定义列索引的语句如下：</li> </ul> <pre><code class="prism language-python">import pandas as pd import numpy as np df=pd.read_csv('filename',header=None,sep=' ',names=["week",'month','date','time','year','name1','freq1','name2','freq2','name3','data1','name4','data2']) print df </code></pre> <h2>使用pandas按列合并CSV文件</h2> 1.列合并两个csv文件 <pre><code class="prism language-python">import pandas as pd df1 = pd.read_csv('dataset/easy29.csv') df2 = pd.read_csv('dataset/easy210.csv') frames = [df1, df2] all_csv = pd.concat(frames) </code></pre> <a href="http://img.e-com-net.com/image/info8/d0cf5b8dc58a40fab1783fe6d2cfab9c.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/d0cf5b8dc58a40fab1783fe6d2cfab9c.jpg" alt="python网络爬虫_第3张图片" width="430" height="272" style="border:1px solid black;"></a> 2.通过追加的方式合并csv文件。 <pre><code class="prism language-python">with open('1.csv','ab') as f: f.write(open('2.csv','rb').read())#将2.csv内容追加到1.csv的后面 </code></pre> 3.在将多个csv文件拼接到一起的时候，可以用Python通过pandas包的read_csv和to_csv两个方法来完成。这里不采用pandas.merge()来进行csv的拼接，而只是通过简单的文件的读取和附加方式的写入来完成拼接。 3.1 <pre><code class="prism language-python">import pandas as pd for inputfile in os.listdir(inputfile_dir): pd.read_csv(inputfile, header=None)　　　　　　　　　　　　　　　　　　 #header=None表示原始文件数据没有列索引，这样的话read_csv会自动加上列索引 pd.to_csv(outputfile, mode='a', index=False, header=False)　　　　　　#header=0表示不保留列名，index=False表示不保留行索引，mode='a'表示附加方式写入，文件原有内容不会被清除 </code></pre> 3.2 <pre><code class="prism language-python"># 将该文件夹下的所有文件名存入列表 csv_name_list = os.listdir('E:\jupyternotebook_space\yimiaodatas') # 获取列表的长度 length = len(csv_name_list) # 读取第一个CSV文件并包含表头，用于后续的csv文件拼接 f= open(csv_name_list[0],encoding = "utf-8") df = pd.read_csv( f) # 读取第一个CSV文件并保存 df.to_csv( "E:\jupyternotebook_space\Alldatas.csv",index=False) # 循环遍历列表中各个CSV文件名，并完成文件拼接 for i in range(0,length): f= open(csv_name_list[i],encoding = "utf-8") df = pd.read_csv( f ) df.to_csv("E:\jupyternotebook_space\Alldatas.csv",index=False, header=False, mode='a+') </code></pre> <h2>pandas在dataframe最左侧新增一个自增列</h2> 有如下表格，需要在最左侧新增一列为“序号”，编号从1开始 <a href="http://img.e-com-net.com/image/info8/ce467e8caf9b4bc5bd1bd1ea4d3fefea.png" target="_blank"><img src="http://img.e-com-net.com/image/info8/ce467e8caf9b4bc5bd1bd1ea4d3fefea.png" alt="python网络爬虫_第4张图片" width="382" height="370" style="border:1px solid black;"></a> 代码如下： <pre><code class="prism language-python">#打开文件 import pandas as pd df = pd.read_excel(r'test.xlsx') #序号列为从1开始的自增列，默认加在dataframe最右侧 df['序号'] = range(1,len(df)+1) #对原始列重新排序，使自增列位于最左侧 df = df[['序号','seats','price','price-sign']] #输出 df.to_excel('test_new.xlsx',index=False) </code></pre> <a href="http://img.e-com-net.com/image/info8/381bd055cd514f90b68d5f2328a8e72a.png" target="_blank"><img src="http://img.e-com-net.com/image/info8/381bd055cd514f90b68d5f2328a8e72a.png" alt="python网络爬虫_第5张图片" width="480" height="372" style="border:1px solid black;"></a> <h1>爬取github项目的issues</h1> <h5>lxml中etree.HTML()和etree.tostring()用法</h5> https://blog.csdn.net/qq_38410428/article/details/82792730 <ul> <li>etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。(修复html文件中代码，把缺的头或尾节点补齐；)</li> <li>etree.tostring()：输出修正后的结果，类型是bytes</li> </ul> <pre><code class="prism language-python">from lxml import etree import requests # 根据关键词获取项目列表 def get_repos_list(key_words): # 初始化列表 repos_list = [] # 默认 for i in range(1, 100): url = 'https://github.com/search?p=' + str(i) + '&q=' + key_words + '&type=repositories' response = requests.get(url) # 获取页面源码 page_source = response.text # print(page_source) #etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。yyy tree = etree.HTML(page_source) # 获取项目超链接 arr = tree.xpath('//*[@class="f4 text-normal"]/a/@href') repos_list += arr return repos_list # 获取一个项目的issues列表 def get_issues_list(repo_name): issues_list = [] url = 'https://github.com' + repo_name + '/issues' # print(url) response = requests.get(url) # 获取源码 page_source = response.text tree = etree.HTML(page_source) # 获取issues数量 number = tree.xpath('//*[@id="js-repo-pjax-container"]/div[1]/nav/ul/li[2]/a/span[2]') if len(number) == 0: number = '0' else: number = number[0].text # 超过1K就爬取1000条（够用了） if number.isdigit(): number = int(number) else: number = 1000 print(number) # 计算分页数量，每页25个issues page = 0 if number % 25 == 0: page = int(number / 25) else: page = int(number / 25) + 1 for i in range(1, page + 1): url = 'https://github.com' + repo_name + '/issues?page=' + str(i) response = requests.get(url) # 获取源码 page_source = response.text tree = etree.HTML(page_source) # 获取issues超链接 arr = tree.xpath('//*[@class="d-block d-md-none position-absolute top-0 bottom-0 left-0 right-0"]/@href') issues_list += arr # /combust/mleap/issues/716 # 返回issues数量和列表 return number, issues_list # 获取一个issue的内容及评论 def get_issue_content(issue_name): # 拼接issue地址 url = 'https://github.com' + issue_name # print(url) response = requests.get(url) page_source = response.text tree = etree.HTML(page_source) # 获取issue内容 issue_content = tree.xpath('//table//td')[0].xpath('string(.)') return issue_content if __name__ == '__main__': # 测试 # get_repos_list('ML pipeline') # get_issues('/combust/mleap') # get_issue_content('/combust/mleap/issues/716') ''' issue="/rust-lang/rust/issues/76833" content=get_issue_content(issue) print(content) ''' with open(r'result.md', 'w+', encoding='utf-8') as f: key_words = input('please input a keyword：') # 获取项目列表 repos_list = get_repos_list(key_words) # 格式：/combust/mleap for repo in repos_list: # 拼接项目url repos_url = 'https://github.com' + repo print(repos_url) f.write('\n\n') f.write(repos_url) f.write('\n') # 获取项目的issues列表 number, issues_list = get_issues_list(repo) f.write(str(number)) f.write('\n') # 格式：/combust/mleap/issues/716 for issue in issues_list: # 获取issue的内容 issue_url = 'https://github.com' + issue content = get_issue_content(issue) # content=filter_emoji(content) print(issue_url) f.write(issue_url) f.write('\n') f.write('>' * 100) f.write('\n') f.write(str(content).strip()) f.write('\n') f.write('<' * 100) f.write('\n') f.flush() # print(content) # print(issue) print('The end!') </code></pre> <hr> <h1>爬commit信息</h1> <h3>获取commit每一页的网址url</h3> <pre><code class="prism language-python">import re from urllib.request import urlopen from bs4 import BeautifulSoup from urllib import request import time import os from urllib.parse import urlparse ''' 获取了每一页的网址接下来：爬取每一页内的历史commit信息，包括具体的commit_url 、时间等 ''' # 请求函数 def get_html(url): req = request.Request(url) response = request.urlopen(req) html = response.read().decode('utf-8') return html def get_sha(user, repo_name): # 用户的每个repo对应一个commit sha url = "https://github.com/{user}/{repo_name}/commits/master".format(user=user, repo_name=repo_name) html=urlopen(url) bs=BeautifulSoup(html,'html.parser') link=bs.find('a',href=re.compile("https://github.com/.*commit/(.*?)")) commit_url=link.attrs['href'] #print(type(commit_url)) <class 'str'> #print(commit_url) #req=urlparse(commit_url) #print(req) list_commit=commit_url.split('/') #print(list_commit[6]) (第6个元素才是对应的哈希值) commit_sha=list_commit[6] #print(commit_sha) return commit_sha def single_repo_commits(user, repo_name): num = 0 page_flag = 66 # 设置页面初始标志,用于判断是否到达末页 page_num = 0 data_num = 0 commit_sha = get_sha(user, repo_name) all_date = [] # 储存时间数据 url_data=[] #存储每页的网址 while (page_flag and page_num<5): # 测试前五页 url = "https://github.com/{user}/{repo_name}/commits/master?after={commit_sha}+{num}&branch=master".format(user=user, repo_name=repo_name, commit_sha=commit_sha, num=num) # 构建链接 html = get_html(url) # 获取页面内容 url_data.append(url) #每一页的url，然后接下来在这页开始搜索commit_url和提交时间 time_data = re.findall(r'<relative-time datetime=(.*)</relative-time>',html) # re匹配时间元素 #page_flag = len(time_data) page_num = page_num + 1 num = num +35 # 进入下一页 data_num = data_num+len(time_data) print("page %d is ok\n get %d date" % (page_num, len(time_data))) #print(time_data[0]) 可查看第一个time_data元素的完整输出 for date in time_data: all_date.append(date[1:20]) #1:20是日期的内容，之后是其他属性 time.sleep(1) # 适当延时一下单位：s print("the repo <%s> totally get %d commits'date" % (repo_name, data_num)) print(url_data) return all_date user='chakra-core' repo_name='ChakraCore' #get_sha(user,repo_name) all_data=single_repo_commits(user,repo_name) print(all_data) </code></pre> <h3>get_data函数获取指定页面的全部commit_url</h3> <pre><code class="prism language-python">from urllib.request import urlopen from bs4 import BeautifulSoup import re ''' get_data函数获取指定页面的全部commit_url 接下来要做的是：如何搜索提交的内容：title、issue?等，是否存储为excel? ''' def get_data(url): headers = { 'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'} html = urlopen(url) baseurl = 'https://github.com' bs = BeautifulSoup(html, 'html.parser') pages = set() # 不存在重复 # print(bs.contents) commit_url = bs.find_all('a', href=re.compile('^(/chakra-core/ChakraCore/commit/).*$')) # print(commit_url) fp=open('commit_url.txt', 'w+') for link in commit_url: if 'href' in link.attrs: if link.attrs['href'] not in pages: # 我们遇到了新页面 newPage = link.attrs['href'] pages.add(newPage) fp.write(newPage) # 将字符串写入文件中 fp.write("\n") # 换行 print(newPage) print(len(pages)) fp.close() get_data('https://github.com/chakra-core/ChakraCore/commits/master') </code></pre> <h1>读取文件</h1> <ol> <li>从文件members.txt中以字典形式读取数据，名字作为键，年龄作为值。文件中的内容如下，以制表符（’\t’）分隔数据</li> </ol> <pre><code class="prism language-python">content = [] with open('members.txt', 'r') as f: for line in f.readlines(): line_list = line.strip('\n').split('\t') # 去除换行符，以制表符分隔 content.append(line_list) keys = content[0] for i in range(1, len(content)): content_dict = {} for k, v in zip(keys, content[i]): content_dict[k] = v print(content_dict) ''' result: {'Name': 'Andy', 'age': '32'} {'Name': 'Bob', 'age': '20'} {'Name': 'Jenny', 'age': '43'} {'Name': 'Holly', 'age': '48'} {'Name': 'Danie', 'age': '27'} ''' </code></pre> <h1>函数的意思</h1> <h3>etree.HTML(), etree.tostring()</h3> <pre><code class="prism language-python">from lxml import etree import requests url = 'https://github.com/chakra-core/ChakraCore/issues' response = requests.get(url) # 获取页面源码 page_source = response.text # print(page_source) tree = etree.HTML(page_source) result=etree.tostring(tree) #etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。 #etree.tostring()：输出修正后的结果，类型是bytes </code></pre> <h1>路飞学城爬虫教程</h1> <h3>第一章爬虫基础介绍</h3> <pre><code class="prism language-text">爬虫究竟是合法还是违法的？ - 在法律中是不被禁止 - 具有违法风险 - 善意爬虫恶意爬虫爬虫带来的风险可以体现在如下2方面： - 爬虫干扰了被访问网站的正常运营 - 爬虫抓取了收到法律保护的特定类型的数据或信息如何在使用编写爬虫的过程中避免进入局子的厄运呢？ - 时常的优化自己的程序，避免干扰被访问网站的正常运行 - 在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私商业机密等敏感内容需要及时停止爬取或传播爬虫在使用场景中的分类 - 通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。 - 聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。 - 增量式爬虫：检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。爬虫的矛与盾反爬机制门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。反反爬策略爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。 robots.txt协议：君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。 http协议 - 概念：就是服务器和客户端进行数据交互的一种形式。常用请求头信息 - User-Agent：请求载体的身份标识 - Connection：请求完毕后，是断开连接还是保持连接常用响应头信息 - Content-Type：服务器响应回客户端的数据类型 https协议： - 安全的超文本传输协议加密方式 - 对称秘钥加密 - 非对称秘钥加密 - 证书秘钥加密 </code></pre> <h3>第二章 requests基础模块</h3> <pre><code>requests模块 - urllib模块 - requests模块 requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。如何使用：（requests模块的编码流程） - 指定url - UA伪装 - 请求参数的处理 - 发起请求 - 获取响应数据 - 持久化存储环境安装： pip install requests 实战编码： - 需求：爬取搜狗首页的页面数据实战巩固 - 需求：爬取搜狗指定词条对应的搜索结果页面（简易网页采集器） - UA检测 - UA伪装 - 需求：破解百度翻译 - post请求（携带了参数） - 响应数据是一组json数据 - 需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 - 作业：爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据 - 需求：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据 http://125.35.6.84:81/xk/ - 动态加载数据 - 首页中对应的企业信息数据是通过ajax动态请求到的。 http://125.35.6.84:81/xk/itownet/portal/dzpz.jsp?id=e6c1aa332b274282b04659a6ea30430a http://125.35.6.84:81/xk/itownet/portal/dzpz.jsp?id=f63f61fe04684c46a016a45eac8754fe - 通过对详情页url的观察发现： - url的域名都是一样的，只有携带的参数（id）不一样 - id值可以从首页对应的ajax请求到的json串中获取 - 域名和id值拼接处一个完整的企业对应的详情页的url - 详情页的企业详情数据也是动态加载出来的 - http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById - http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById - 观察后发现： - 所有的post请求的url都是一样的，只有参数id值是不同。 - 如果我们可以批量获取多家企业的id后，就可以将id和url形成一个完整的详情页对应详情数据的ajax请求的url 数据解析：聚焦爬虫正则 bs4 xpath </code></pre> <h3>第三章数据解析</h3> <pre><code>聚焦爬虫:爬取页面中指定的页面内容。 - 编码流程： - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储数据解析分类： - 正则 - bs4 - xpath（***）数据解析原理概述： - 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行指定标签的定位 - 2.标签或者标签对应的属性中存储的数据值进行提取（解析）正则解析： <div class="thumb"> <a href="/article/121721100" target="_blank"> <img src="//pic.qiushibaike.com/system/pictures/12172/121721100/medium/DNXDX9TZ8SDU6OK2.jpg" alt="指引我有前进的方向"> </a> </div> ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>' bs4进行数据解析 - 数据解析的原理： - 1.标签定位 - 2.提取标签、标签属性中存储的数据值 - bs4数据解析的原理： - 1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中 - 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 - 环境安装： - pip install bs4 - pip install lxml - 如何实例化BeautifulSoup对象： - from bs4 import BeautifulSoup - 对象的实例化： - 1.将本地的html文档中的数据加载到该对象中 fp = open('./test.html','r',encoding='utf-8') soup = BeautifulSoup(fp,'lxml') - 2.将互联网上获取的页面源码加载到该对象中 page_text = response.text soup = BeatifulSoup(page_text,'lxml') - 提供的用于数据解析的方法和属性： - soup.tagName:返回的是文档中第一次出现的tagName对应的标签 - soup.find(): - find('tagName'):等同于soup.div - 属性定位： -soup.find('div',class_/id/attr='song') - soup.find_all('tagName'):返回符合要求的所有标签（列表） - select： - select('某种选择器（id，class，标签...选择器）'),返回的是一个列表。 - 层级选择器： - soup.select('.tang > ul > li > a')：>表示的是一个层级 - oup.select('.tang > ul a')：空格表示的多个层级 - 获取标签之间的文本数据： - soup.a.text/string/get_text() - text/get_text():可以获取某一个标签中所有的文本内容 - string：只可以获取该标签下面直系的文本内容 - 获取标签中属性值： - soup.a['href'] xpath解析：最常用且最便捷高效的一种解析方式。通用性。 - xpath解析原理： - 1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。 - 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 - 环境的安装： - pip install lxml - 如何实例化一个etree对象:from lxml import etree - 1.将本地的html文档中的源码数据加载到etree对象中： etree.parse(filePath) - 2.可以将从互联网上获取的源码数据加载到该对象中 etree.HTML('page_text') - xpath('xpath表达式') - xpath表达式: - /:表示的是从根节点开始定位。表示的是一个层级。 - //:表示的是多个层级。可以表示从任意位置开始定位。 - 属性定位：//div[@class='song'] tag[@attrName="attrValue"] - 索引定位：//div[@class="song"]/p[3] 索引是从1开始的。 - 取文本： - /text() 获取的是标签中直系的文本内容 - //text() 标签中非直系的文本内容（所有的文本内容） - 取属性： /@attrName ==>img/src 作业：爬取站长素材中免费简历模板 </code></pre> <h3>第四章验证码</h3> <pre><code>验证码识别验证码和爬虫之间的爱恨情仇？反爬机制：验证码.识别验证码图片中的数据，用于模拟登陆操作。识别验证码的操作： - 人工肉眼识别。（不推荐） - 第三方自动识别（推荐） - 云打码：http://www.yundama.com/demo.html 云打码的使用流程： - 注册：普通和开发者用户 - 登录： - 普通用户的登录：查询该用户是否还有剩余的题分 - 开发者用户的登录： - 创建一个软件：我的软件-》添加新软件-》录入软件名称-》提交（软件id和秘钥） - 下载示例代码：开发文档-》点此下载：云打码接口DLL-》PythonHTTP示例下载实战：识别古诗文网登录页面中的验证码。使用打码平台识别验证码的编码流程： - 将验证码图片进行本地下载 - 调用平台提供的示例代码进行图片数据识别 </code></pre> <h3>第五章 requests模块高级</h3> <pre><code>模拟登录： - 爬取基于某些用户的用户信息。需求：对人人网进行模拟登录。 - 点击登录按钮之后会发起一个post请求 - post请求中会携带登录之前录入的相关的登录信息（用户名，密码，验证码......） - 验证码：每次请求都会变化需求：爬取当前用户的相关的用户信息（个人主页中显示的用户信息） http/https协议特性：无状态。没有请求到对应页面数据的原因：发起的第二次基于个人主页页面请求的时候，服务器端并不知道该此请求是基于登录状态下的请求。 cookie：用来让服务器端记录客户端的相关状态。 - 手动处理：通过抓包工具获取cookie值，将该值封装到headers中。（不建议） - 自动处理： - cookie值的来源是哪里？ - 模拟登录post请求后，由服务器端创建。 session会话对象： - 作用： 1.可以进行请求的发送。 2.如果请求过程中产生了cookie，则该cookie会被自动存储/携带在该session对象中。 - 创建一个session对象：session = requests.Session() - 使用session对象进行模拟登录post请求的发送（cookie就会被存储在session中） - session对象对个人主页对应的get请求进行发送（携带了cookie）代理：破解封IP这种反爬机制。什么是代理： - 代理服务器。代理的作用： - 突破自身IP访问的限制。 - 隐藏自身真实IP 代理相关的网站： - 快代理 - 西祠代理 - www.goubanjia.com 代理ip的类型： - http：应用到http协议对应的url中 - https：应用到https协议对应的url中代理ip的匿名度： - 透明：服务器知道该次请求使用了代理，也知道请求对应的真实ip - 匿名：知道使用了代理，不知道真实ip - 高匿：不知道使用了代理，更不知道真实的ip </code></pre> <h3>第六章高性能异步爬虫</h3> <pre><code>高性能异步爬虫目的：在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式： - 1.多线程，多进程（不建议）：好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行。弊端：无法无限制的开启多线程或者多进程。 - 2.线程池、进程池（适当的使用）：好处：我们可以降低系统对进程或者线程创建和销毁的一个频率，从而很好的降低系统的开销。弊端：池中线程或进程的数量是有上限。 - 3.单线程+异步协程（推荐）： event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行。 coroutine：协程对象，我们可以将协程对象注册到事件循环中，它会被事件循环调用。我们可以使用 async 关键字来定义一个方法，这个方法在调用时不会立即被执行，而是返回一个协程对象。 task：任务，它是对协程对象的进一步封装，包含了任务的各个状态。 future：代表将来执行或还没有执行的任务，实际上和 task 没有本质区别。 async 定义一个协程. await 用来挂起阻塞方法的执行。 </code></pre> <h3>第七章动态加载数据处理</h3> <pre><code>selenium模块的基本使用问题：selenium模块和爬虫之间具有怎样的关联？ - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登录什么是selenium模块？ - 基于浏览器自动化的一个模块。 selenium使用流程： - 环境安装：pip install selenium - 下载一个浏览器的驱动程序（谷歌浏览器） - 下载路径：http://chromedriver.storage.googleapis.com/index.html - 驱动程序和浏览器的映射关系：http://blog.csdn.net/huilan_same/article/details/51896672 - 实例化一个浏览器对象 - 编写基于浏览器自动化的操作代码 - 发起请求：get(url) - 标签定位：find系列的方法 - 标签交互：send_keys('xxx') - 执行js程序：excute_script('jsCode') - 前进，后退：back(),forward() - 关闭浏览器：quit() - selenium处理iframe - 如果定位的标签存在于iframe标签之中，则必须使用switch_to.frame(id) - 动作链（拖动）：from selenium.webdriver import ActionChains - 实例化一个动作链对象：action = ActionChains(bro) - click_and_hold（div）：长按且点击操作 - move_by_offset(x,y) - perform()让动作链立即执行 - action.release()释放动作链对象 12306模拟登录 - 超级鹰：http://www.chaojiying.com/about.html - 注册：普通用户 - 登录：普通用户 - 题分查询：充值 - 创建一个软件（id） - 下载示例代码 - 12306模拟登录编码流程： - 使用selenium打开登录页面 - 对当前selenium打开的这张页面进行截图 - 对当前图片局部区域（验证码图片）进行裁剪 - 好处：将验证码图片和模拟登录进行一一对应。 - 使用超级鹰识别验证码图片（坐标） - 使用动作链根据坐标实现点击操作 - 录入用户名密码，点击登录按钮实现登录 </code></pre> <h3>第八章 scrapy框架</h3> <pre><code>scrapy框架 - 什么是框架？ - 就是一个集成了很多功能并且具有很强通用性的一个项目模板。 - 如何学习框架？ - 专门学习框架封装的各种功能的详细用法。 - 什么是scrapy？ - 爬虫中封装好的一个明星框架。功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式 - scrapy框架的基本使用 - 环境的安装： - mac or linux：pip install scrapy - windows: - pip install wheel - 下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted - 安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl - pip install pywin32 - pip install scrapy 测试：在终端里录入scrapy指令，没有报错即表示安装成功！ - 创建一个工程：scrapy startproject xxxPro - cd xxxPro - 在spiders子目录中创建一个爬虫文件 - scrapy genspider spiderName www.xxx.com - 执行工程： - scrapy crawl spiderName - scrapy数据解析 - scrapy持久化存储 - 基于终端指令： - 要求：只可以将parse方法的返回值存储到本地的文本文件中 - 注意：持久化存储对应的文本文件的类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle - 指令：scrapy crawl xxx -o filePath - 好处：简介高效便捷 - 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中） https://www.bilibili.com/video/BV1ha4y1H7sx?p=64&spm_id_from=pageDriver - 基于管道： - 编码流程： - 数据解析 - 在item类中定义相关的属性 - 将解析的数据封装存储到item类型的对象 - 将item类型的对象提交给管道进行持久化存储的操作 - 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作 - 在配置文件中开启管道 - 好处： - 通用性强。 - 面试题：将爬取到的数据一份存储到本地一份存储到数据库，如何实现？ - 管道文件中一个管道类对应的是将数据存储到一种平台 - 爬虫文件提交的item只会给管道文件中第一个被执行的管道类接受 - process_item中的return item表示将item传递给下一个即将被执行的管道类 - 基于Spider的全站数据爬取 - 就是将网站中某板块下的全部页码对应的页面数据进行爬取 - 需求：爬取校花网中的照片的名称 - 实现方式： - 将所有页面的url添加到start_urls列表（不推荐） - 自行手动进行请求发送（推荐） - 手动请求发送： - yield scrapy.Request(url,callback):callback专门用做于数据解析 - 五大核心组件引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 爬虫(Spiders) 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。 - 请求传参 - 使用场景：如果爬取解析的数据不在同一张页面中。（深度爬取） - 需求：爬取boss的岗位名称，岗位描述 - 图片数据爬取之ImagesPipeline - 基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？ - 字符串：只需要基于xpath进行解析且提交管道进行持久化存储 - 图片：xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据 - ImagesPipeline： - 只需要将img的src的属性值进行解析，提交到管道，管道就会对图片的src进行请求发送获取图片的二进制类型的数据，且还会帮我们进行持久化存储。 - 需求：爬取站长素材中的高清图片 - 使用流程： - 数据解析（图片的地址） - 将存储图片地址的item提交到制定的管道类 - 在管道文件中自定制一个基于ImagesPipeLine的一个管道类 - get_media_request - file_path - item_completed - 在配置文件中： - 指定图片存储的目录：IMAGES_STORE = './imgs_bobo' - 指定开启的管道：自定制的管道类 - 中间件 - 下载中间件 - 位置：引擎和下载器之间 - 作用：批量拦截到整个工程中所有的请求和响应 - 拦截请求： - UA伪装:process_request - 代理IP:process_exception:return request - 拦截响应： - 篡改响应数据，响应对象 - 需求：爬取网易新闻中的新闻数据（标题和内容） - 1.通过网易新闻的首页解析出五大板块对应的详情页的url（没有动态加载） - 2.每一个板块对应的新闻标题都是动态加载出来的（动态加载） - 3.通过解析出每一条新闻详情页的url获取详情页的页面源码，解析出新闻内容 - CrawlSpider:类，Spider的一个子类 - 全站数据爬取的方式 - 基于Spider：手动请求 - 基于CrawlSpider - CrawlSpider的使用： - 创建一个工程 - cd XXX - 创建爬虫文件（CrawlSpider）： - scrapy genspider -t crawl xxx www.xxxx.com - 链接提取器： - 作用：根据指定的规则（allow）进行指定链接的提取 - 规则解析器： - 作用：将链接提取器提取到的链接进行指定规则（callback）的解析 #需求：爬取sun网站中的编号，新闻标题，新闻内容，标号 - 分析：爬取的数据没有在同一张页面中。 - 1.可以使用链接提取器提取所有的页码链接 - 2.让链接提取器提取所有的新闻详情页的链接 - 分布式爬虫 - 概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。 - 作用：提升爬取数据的效率 - 如何实现分布式？ - 安装一个scrapy-redis的组件 - 原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 - 为什么原生的scrapy不可以实现分布式？ - 调度器不可以被分布式机群共享 - 管道不可以被分布式机群共享 - scrapy-redis组件作用： - 可以给原生的scrapy框架提供可以被共享的管道和调度器 - 实现流程 - 创建一个工程 - 创建一个基于CrawlSpider的爬虫文件 - 修改当前的爬虫文件： - 导包：from scrapy_redis.spiders import RedisCrawlSpider - 将start_urls和allowed_domains进行注释 - 添加一个新属性：redis_key = 'sun' 可以被共享的调度器队列的名称 - 编写数据解析相关的操作 - 将当前爬虫类的父类修改成RedisCrawlSpider - 修改配置文件settings - 指定使用可以被共享的管道： ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 400 } - 指定调度器： # 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 使用scrapy-redis组件自己的调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据 SCHEDULER_PERSIST = True - 指定redis服务器： - redis相关操作配置： - 配置redis的配置文件： - linux或者mac：redis.conf - windows:redis.windows.conf - 代开配置文件修改： - 将bind 127.0.0.1进行删除 - 关闭保护模式：protected-mode yes改为no - 结合着配置文件开启redis服务 - redis-server 配置文件 - 启动客户端： - redis-cli - 执行工程： - scrapy runspider xxx.py - 向调度器的队列中放入一个起始的url： - 调度器的队列在redis的客户端中 - lpush xxx www.xxx.com - 爬取到的数据存储在了redis的proName:items这个数据结构中 </code></pre> <h3>第九章增量式爬虫</h3> <pre><code>增量式爬虫 - 概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。 - 分析： - 指定一个起始url - 基于CrawlSpider获取其他页码链接 - 基于Rule将其他页码链接进行请求 - 从每一个页码对应的页面源码中解析出每一个电影详情页的URL - 核心：检测电影详情页的url之前有没有请求过 - 将爬取过的电影详情页的url存储 - 存储到redis的set数据结构 - 对详情页的url发起请求，然后解析出电影的名称和简介 - 进行持久化存储 </code></pre> <h1>动态加载页面分析、POST请求参数和内容爬取</h1> https://blog.csdn.net/Strive_0902/article/details/88972722 <pre><code class="prism language-python">import requests from lxml import etree import time import os import sys import json ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240" cookie1 = "trs_uv=jtz38ebv_373_14pv; BIGipServerjigou=1079027904.20480.0000; JSESSIONID=gyDbm3t9JVAlnN7VBkEH7Gk9CrEcAsd65-YfiCCqMLv-IkyP53TY!499435313" host1 = "jg.sac.net.cn" orgin1 = "http://jg.sac.net.cn" data1 = {"filter_EQS_O#otc_id":"01","filter_EQS_O#sac_id":"","filter_LIKES_aoi_name":"","sqlkey": "publicity","sqlval": "ORG_BY_TYPE_INFO"} headers1 = {'User-agent': ua,'Cookie':cookie1,'Host':host1,'Orgin':orgin1} Base_url = "http://jg.sac.net.cn/pages/publicity/resource!search.action" page_url = "http://jg.sac.net.cn/pages/publicity/resource!search.action" req = requests.post(Base_url,data = data1, headers=headers1) print(req.text) res = req.json() #print(res[0]['AOI_ID']) for i in range(len(res)): page_data1 = {"filter_EQS_aoi_id": res[i]['AOI_ID'], "sqlkey": "publicity", "sqlval": "SELECT_ZQ_REG_INFO"} page_data2 = {"filter_EQS_aoi_id": res[i]['AOI_ID'], "sqlkey": "publicity", "sqlval": "SEARCH_ZQGS_QUALIFATION"} company_info = {} page_req1 = requests.post(page_url, data=page_data1, headers=headers1).json() page_req2 = requests.post(page_url, data=page_data2, headers=headers1).json() company_info["Chinese_Name"] = page_req1[0]['MRI_CHINESE_NAME'] company_info["Info_Reg"] = page_req1[0]['MRI_INFO_REG'] company_info["Legal_Represent"] = page_req1[0]['MRI_LEGAL_REPRESENTATIVE'] company_info["License_Code"] = page_req1[0]['MRI_LICENSE_CODE'] company_info["Reg_Capital"] = page_req1[0]['MRI_REG_CAPITAL'] company_info["Office_Address"] = page_req1[0]['MRI_OFFICE_ADDRESS'] company_info["Office_Post_Code"] = page_req1[0]['MRI_OFFICE_ZIP_CODE'] company_info["Com_Website"] = page_req1[0]['MRI_COM_WEBSITE'] company_info["Customer_Service_Tel"] = page_req1[0]['MRI_CUSTOMER_SERVICE_TEL'] # print(page_req2) # exit() con = "" for j in range(len(page_req2)): con += page_req2[j]['PTSC_NAME']+"," company_info["Qualification_info"] = con try: with open("2.json", 'a+', encoding="utf-8") as fp: fp.write(json.dumps(company_info, ensure_ascii=False) + "\n") except IOError as err: print('error' + str(err)) finally: fp.close() pass </code></pre> <h3>http返回状态码详解：</h3> https://blog.csdn.net/ithomer/article/details/10240351 当用户点击或搜索引擎向网站服务器发出浏览请求时，服务器将返回Http Header Http头信息状态码,常见几种如下: 1、Http/1.1 200 OK 访问正常 表示成功访问,为网站可正常访问时的状态。 2、Http/1.1 301 Moved Permanently 301重定向永久重定向 对搜索引擎相对友好的跳转方式，当网站更换域名时可将原域名作301永久重定向到新域名，原域名权重可传递到新域名，也常有将不含www的域名301跳转到含www的，如xxx.com通过301跳转到www.xxx.com 3、Http/1.1 302 Found 为临时重定向 易被搜索引擎判为作弊,比如asp程序的response.Redirect()跳转、js跳转或静态http跳转。 4、Http/1.1 400 Bad Request 域名绑定错误 一般是服务器上域名未绑定成功，未备案等情况。 5、Http/1.1 403 Forbidden 没有权限访问此站 你的IP被列入黑名单，连接的用户过多，可以过后再试，网站域名解析到了空间，但空间未绑定此域名等情况。 6、Http/1.1 404 Not Found 文件或目录不存在 表示请求文件、目录不存在或删除，设置404错误页时需确保返回值为404。常有因为404错误页设置不当导致不存在的网页返回的不是404而导致搜索引擎降权。 7、Http/1.1 500 Internal Server Error 程序或服务器错误 表示服务器内部程序错误，出现这样的提示一般是程序页面中出现错误，如小的语法错误，数据连接故障等。 <h3>curl</h3> <table> <thead> <tr> <th>参数</th> <th>说明</th> <th>示例</th> </tr> </thead> <tbody> <tr> <td>-A</td> <td>设置user-agent</td> <td>curl -A “Chrome” http://www.baidu.com</td> </tr> <tr> <td>-X</td> <td>用指定方法请求</td> <td>curl -X POST http://httpbin.org/post</td> </tr> <tr> <td>-I</td> <td>只返回请求的头信息</td> <td></td> </tr> <tr> <td>-d</td> <td>以POST方法请求url,并发送相应的参数</td> <td>-d a=1 -d b=2 -d c=3 | -d “a=1&b=2&c=3” |-d @filename</td> </tr> <tr> <td>-O</td> <td>下载文件并以远程的文件名保存</td> <td></td> </tr> <tr> <td>-o</td> <td>下载文件并以指定的文件名保存</td> <td></td> </tr> <tr> <td>-H</td> <td>设置头信息</td> <td></td> </tr> <tr> <td>-k</td> <td>允许发起不安全的SSL请求</td> <td></td> </tr> </tbody> </table> https://www.ruanyifeng.com/blog/2019/09/curl-reference.html <h1>AJAX 尚硅谷教程</h1> https://www.wrysmile.cn/Learn-AJAX.html <h3>一、基础内容</h3> <h4>1.AJAX</h4> <ul> <li>AJAX 是异步的 JS 和 XML，通过 AJAX 可以在浏览器中向服务器中发送异步请求</li> <li>优点： <ul> <li>可以无需刷新页面与服务器进行通信</li> <li>允许根据用户时间来更新部分页面内容</li> </ul> </li> <li>缺点： <ul> <li>没有浏览历史，不能回退</li> <li>存在跨域问题（同源）</li> <li>SEO 不太好</li> </ul> </li> </ul> <h4>2.XML</h4> <ul> <li> XML 被设计用来传输和存储数据 </li> <li> <h3>(1).请求报文</h3> <ul> <li> 请求行：GET或POST / url / HTTP协议版本 </li> <li> 请求头：格式为 键值对 <ul> <li>Host：xxxx</li> <li>Cookie：name=wrysmile</li> </ul> </li> <li> 请求空行：固定的 </li> <li> 请求体： <ul> <li>如果请求行是 GET 请求，请求体就为空</li> <li>如果请求行是 POST 请求，请求体可以不为空</li> </ul> </li> </ul> <h3>(2).响应报文</h3> <ul> <li>响应行：HTTP协议版本 / 响应状态码 / 响应状态字符串 <ul> <li>1xx：信息，服务器收到请求，需要请求者继续执行操作</li> <li>2xx：成功，操作被成功接收并处理</li> <li>3xx：重定向，需要进一步的操作以完成请求</li> <li>4xx：客户端错误，请求包含语法错误或无法完成请求</li> <li>5xx：服务器错误，服务器在处理请求的过程中发生了错误</li> <li>具体状态码可以看这里</li> </ul> </li> <li>响应头： <ul> <li>Content-Type：text/html;charset=utf-8</li> </ul> </li> <li>响应空行：固定必须有</li> <li>响应体：html中的所有内容</li> </ul> <h2>xml 与 html 的区别：</h2> </li> <li> <ul> <li>前者没有预定义标签，全是自定义标签，用来表示一些数据</li> <li>后者都是预定义标签</li> </ul> </li> <li> 目前已被 JSON 取代 </li> </ul> Express服务器端框架：简单框架使用 <h4>3.HTTP</h4> <ul> <li>超文本传输协议，详细规定了浏览器和万维网服务器之间互相通信的规则</li> </ul> <h3></h3> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1529245259433799680"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(爬虫,python,爬虫,pycharm)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1903409286323695616.htm" title="PHP与Java的区别分析" target="_blank">PHP与Java的区别分析</a> Monika Zhang <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1/1.htm">架构设计</a><a class="tag" taget="_blank" href="/search/php/1.htm">php</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一、语言特点php：一种的像Python的动态弱语言类型的服务器脚本语言，不需要编译代码；它是专为Web开发目的而开发和设计的，而且简单容易上手。Java：是一种通用的面向对象编程语言，属于强势优选语言类型，在执行前必须先正确编译。是面向对象的和人类可读的；支持服务器端和客户端；可用于开发独立应用程序或基于Web的应用程序，上手比PHP难。二、语法1.PHP是一种脚本语言，代码在服务器上执行，而结</div> </li> <li><a href="/article/1903409287682650112.htm" title="闭包的概念总结与分析" target="_blank">闭包的概念总结与分析</a> Monika Zhang <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>1定义闭包又称词法闭包闭包最早定义为一种包含和的实体.在计算机科学中，闭包（英语：Closure），又称词法闭包（LexicalClosure）或函数闭包（functionclosures），是引用了自由变量的函数。解释一：闭包是引用了自由变量的函数，这个被引用的变量将和这个函数一同存在。解释二：闭包是函数和相关引用环境组成的实体。注：：除了局部变量的其他变量《Python核心编程》对闭包的解释:</div> </li> <li><a href="/article/1903408779161038848.htm" title="毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型" target="_blank">毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型</a> 清风AI <a class="tag" taget="_blank" href="/search/%E6%AF%95%E4%B8%9A%E8%AE%BE%E8%AE%A1%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0/1.htm">毕业设计代码实现</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/lstm/1.htm">lstm</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/1.htm">神经网络</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/matlab/1.htm">matlab</a><a class="tag" taget="_blank" href="/search/pytorch/1.htm">pytorch</a> <div>一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP</div> </li> <li><a href="/article/1903408021506158592.htm" title="DeepSeek 部署指南 (使用 vLLM 本地部署)" target="_blank">DeepSeek 部署指南 (使用 vLLM 本地部署)</a> AGI大模型资料分享员 <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/1.htm">语言模型</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/chatgpt/1.htm">chatgpt</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%A8%A1%E5%9E%8B/1.htm">大模型</a><a class="tag" taget="_blank" href="/search/deepseek/1.htm">deepseek</a> <div>DeepSeek部署指南(使用vLLM本地部署)本文档将指导您如何使用vLLM在本地部署DeepSeek语言模型。我们以deepseek-ai/DeepSeek-R1-Distill-Qwen-7B模型为例进行演示。1、安装Python环境首先，您需要安装Python环境。访问Python官网:https://www.python.org/根据您的操作系统选择安装包:Python官网提供Windo</div> </li> <li><a href="/article/1903400076173176832.htm" title="Python基础知识点总结" target="_blank">Python基础知识点总结</a> 豆芽819 <a class="tag" taget="_blank" href="/search/tip/1.htm">tip</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,</div> </li> <li><a href="/article/1903399193918107648.htm" title="Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全" target="_blank">Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全</a> Echo_Wish <a class="tag" taget="_blank" href="/search/Python%EF%BC%81/1.htm">Python！</a><a class="tag" taget="_blank" href="/search/%E5%AE%9E%E6%88%98%EF%BC%81/1.htm">实战！</a><a class="tag" taget="_blank" href="/search/%E5%8C%BA%E5%9D%97%E9%93%BE/1.htm">区块链</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%8E%BB%E4%B8%AD%E5%BF%83%E5%8C%96/1.htm">去中心化</a> <div>Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全在区块链世界里，透明性和不可篡改性是两大核心优势，但这也带来了一个悖论——如何在公开账本的同时保障用户隐私？如果你的交易记录对所有人可见，如何防止敏感信息泄露？Python作为区块链开发中最受欢迎的语言之一，提供了强大的工具和库来增强隐私保护。本文将深入探讨区块链的隐私保护技术，并结合Python代码示例，带你了解如何在Web3时代</div> </li> <li><a href="/article/1903397174461394944.htm" title="人脸识别的一些代码" target="_blank">人脸识别的一些代码</a> 饿了就干饭 <a class="tag" taget="_blank" href="/search/CV%E7%9B%B8%E5%85%B3/1.htm">CV相关</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E8%84%B8%E8%AF%86%E5%88%AB/1.htm">人脸识别</a> <div>1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片</div> </li> <li><a href="/article/1903396163944509440.htm" title="Python从入门到精通的系统性学习路径" target="_blank">Python从入门到精通的系统性学习路径</a> niuTaylor <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E5%8C%BA/1.htm">编程区</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python从入门到精通的系统性学习路径一、基础语法快速突破1.变量与基础操作#动态类型演示a=10#整型a=3.14#浮点型a="Python"#字符串a=[1,2,3]#列表#格式化输出进阶name="Alice"print(f"{name:*^20}")#居中填充输出：******Alice*******2.运算符优先级实战#常见运算符优先级练习result=5+3*2**2//(4%3)p</div> </li> <li><a href="/article/1903390488560463872.htm" title="Python技术全景解析：从基础到前沿的深度探索" target="_blank">Python技术全景解析：从基础到前沿的深度探索</a> 靠近彗星 <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/1.htm">性能优化</a><a class="tag" taget="_blank" href="/search/%E4%B8%AA%E4%BA%BA%E5%BC%80%E5%8F%91/1.htm">个人开发</a><a class="tag" taget="_blank" href="/search/%E6%9E%81%E9%99%90%E7%BC%96%E7%A8%8B/1.htm">极限编程</a> <div>目录一、Python为何成为开发者首选？1.核心优势矩阵2.性能进化史二、Python核心应用领域1.数据科学黄金三角2.AI开发新范式三、现代Python进阶技巧1.类型提示革命2.异步编程实战四、Python工程化实践1.现代项目架构2.性能优化矩阵五、Python未来生态展望1.前沿技术融合2.性能革命六、学习路线图1.技能成长路径基础阶段（1-3月）专业方向（3-6月）深度进阶（6-12月</div> </li> <li><a href="/article/1903388345371783168.htm" title="如何使用DeepSeek编写测试用例？" target="_blank">如何使用DeepSeek编写测试用例？</a> 海姐软件测试 <a class="tag" taget="_blank" href="/search/deepseek/1.htm">deepseek</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7/1.htm">测试工具</a> <div>一、DeepSeek在测试用例设计中的定位DeepSeek作为AI工具，并非直接替代测试设计，而是通过以下方式提升效率：快速生成基础用例框架（等价类、边界值等）智能补充易遗漏场景（如特殊字符、异常流）自动化脚本片段生成（Python/pytest/JUnit等）测试数据构造建议（符合业务规则的Mock数据）二、四步法实战：AI协作编写测试用例Step1：明确需求输入输入质量决定输出质量，需向Dee</div> </li> <li><a href="/article/1903387003949477888.htm" title="Explore Model-Based Feature Importance" target="_blank">Explore Model-Based Feature Importance</a> <a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF/1.htm">后端</a> <div>Question1.ExploreModel-BasedFeatureImportanceThroughoutthisquestion,youmayonlyusePython.Foreachsub-question,providecommentary(ifneeded)alongwithscreenshotsofthecodeused.Pleasealsoprovideacopyofthecode</div> </li> <li><a href="/article/1903383678055149568.htm" title="Python 标准库之 logging 模块" target="_blank">Python 标准库之 logging 模块</a> 36度道 <a class="tag" taget="_blank" href="/search/python%E7%B3%BB%E5%88%97%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/1.htm">python系列学习笔记</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi</div> </li> <li><a href="/article/1903383678621380608.htm" title="python 标准库之 functools 模块" target="_blank">python 标准库之 functools 模块</a> 36度道 <a class="tag" taget="_blank" href="/search/python%E7%B3%BB%E5%88%97%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/1.htm">python系列学习笔记</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>functools模块提供了一系列用于处理函数的工具。其中，像partial可以创建一个新的可调用对象，这个对象固定了原函数的部分参数，有点像给函数穿上了“参数防护服”；reduce能对一个序列进行累积计算，就好比是一个勤劳的小会计，按顺序把序列里的数加起来或者做其他运算；wraps主要用于装饰器，它能帮助装饰器函数保留被装饰函数的元信息，比如函数名、文档字符串等，让被装饰函数“表里如一”。底层原</div> </li> <li><a href="/article/1903375230454263808.htm" title="Python——函数" target="_blank">Python——函数</a> 生如雪花 <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>一、十进制小数转换成二进制小数【问题描述】编写程序，输入十进制小数（只考虑正数），把它转换为以字符串形式存储的二进制小数，输出该二进制小数字符串。对于转换得到的二进制小数，小数点后最多保留10位。小数点后不足10位，则输出这些位，尾部不补0；小数点后超出10位，则直接舍弃超出部分。【输入形式】十进制浮点小数【输出形式】对应输入小数的二进制小数字符串。若整数部分或者小数部分为0，则输出0。比如输入0</div> </li> <li><a href="/article/1903375103408795648.htm" title="Python Web框架 Flask vs Django vs FastAPI" target="_blank">Python Web框架 Flask vs Django vs FastAPI</a> ZengDerby <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/flask/1.htm">flask</a><a class="tag" taget="_blank" href="/search/fastapi/1.htm">fastapi</a><a class="tag" taget="_blank" href="/search/django/1.htm">django</a> <div>如果您需要构建大型的、功能丰富的应用程序，Django可能是一个很好的选择。如果您需要更灵活的框架，可以选择Flask来定制开发。而对于追求极致性能和高并发处理的项目，FastAPI可能是一个更加理想的选择。优缺点Flask在小型项目或微服务理想的选择。Flask灵活且轻量，非常适合快速开发小型应用。Flask是一个非常灵活的框架，它允许您根据项目需求进行定制。您可以根据需要选择合适的插件和扩展。</div> </li> <li><a href="/article/1903369557049929728.htm" title="python if用法" target="_blank">python if用法</a> IT技术土狗 <a class="tag" taget="_blank" href="/search/python%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E5%85%A5%E7%8B%B1/1.htm">python从入门到入狱</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>pythonif用法流程控制流程控制即控制流程，具体指控制程序的执行流程，而程序的执行流程分为三种结构：顺序结构（之前我们写的代码都是顺序结构）、分支结构（用到if判断）、循环结构（用到while与for）1、分支结构分支结构就是根据条件判断的真假去执行不同分支对应的子代码2、为什么需要分支结构人类某些时候需要根据条件来决定做什么事情，比如：如果今天下雨，就带伞所以程序中必须有相应的机制来控制计算</div> </li> <li><a href="/article/1903367915642613760.htm" title="python与数值有关的问题" target="_blank">python与数值有关的问题</a> cbxjsdg <a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>1.复数的问题x=123+456j#后面没加j部分为实数，加j部分为虚数print('实数部分',x.real)#表示实数print('虚数部分',x.imag)#表示虚数2.查看数值的类型a=10b=10.0c=1.99E2#表示1.99*10的二次方的意思，这是科学计数法print('数值为',a,'数值类型为',type(a))print('数值为',b,'数值类型为',type(b))pr</div> </li> <li><a href="/article/1903367159153750016.htm" title="【架构设计】前置知识" target="_blank">【架构设计】前置知识</a> GIS程序媛—椰子 <a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1/1.htm">架构设计</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1/1.htm">架构设计</a> <div>架构设计是软件开发的进阶技能，需要结合理论知识和实践经验。以下是掌握架构设计所需的前置知识及其重要性，以及学习路径建议：一、基础编程能力1.编程语言与核心概念掌握至少一门主流语言（如Java、Python、C#、Go等），理解其语法、特性及生态。核心概念：面向对象（OOP）、函数式编程（FP）、并发/异步、内存管理等。示例：通过Java理解接口、多态、设计模式。通过Go学习并发模型（Gorouti</div> </li> <li><a href="/article/1903366403541495808.htm" title="Python, C ++开发家庭开支" target="_blank">Python, C ++开发家庭开支</a> Geeker-2025 <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a> <div>开发一款**家庭开支数字化记录与结算App**是一个非常有意义的项目，旨在帮助家庭用户高效管理开支、记录消费、分析财务状况，并提供结算和预算管理功能。以下是基于**Python**和**C++**的开发方案，结合两者在数据处理、实时通信和系统开发中的优势。---##1.**项目需求分析**家庭开支数字化记录与结算App的核心功能包括：1.**用户管理**：-用户注册、登录，支持家庭成员管理。2.*</div> </li> <li><a href="/article/1903360101062864896.htm" title="linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)..." target="_blank">linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)...</a> weixin_39992462 <div>Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set</div> </li> <li><a href="/article/1903359345630965760.htm" title="brew mysql client_Mac安装mysqlclient过程解析" target="_blank">brew mysql client_Mac安装mysqlclient过程解析</a> weixin_39630440 <a class="tag" taget="_blank" href="/search/brew/1.htm">brew</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/client/1.htm">client</a> <div>尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b</div> </li> <li><a href="/article/1903359345157009408.htm" title="macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解" target="_blank">macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解</a> weixin_39612038 <div>前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m</div> </li> <li><a href="/article/1903357455702749184.htm" title="python接口自动化" target="_blank">python接口自动化</a> 全世界最帅的男人 <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接</div> </li> <li><a href="/article/1903355944075587584.htm" title="Python接口自动化" target="_blank">Python接口自动化</a> 花落同学 <a class="tag" taget="_blank" href="/search/Python%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E6%94%BE%E5%BC%83/1.htm">Python自动化从入门到放弃</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a> <div>4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth</div> </li> <li><a href="/article/1903353172743745536.htm" title="Python异步编程：从基础到高级" target="_blank">Python异步编程：从基础到高级</a> CarlowZJ <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a> <div>前言在现代软件开发中，异步编程已经成为一种必不可少的技能。Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。本文将带你从异步编程的基础概念出发，逐步深入到高级应用，帮助你掌握Python异步编程的核心技能。一、异步编程的基础概念1.1什么是异步编程？异步编程是一种编程范式</div> </li> <li><a href="/article/1903350904480919552.htm" title="使用Java爬虫按关键字搜索1688商品" target="_blank">使用Java爬虫按关键字搜索1688商品</a> 小爬虫程序猿 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必</div> </li> <li><a href="/article/1903350146909925376.htm" title="python实现接口自动化" target="_blank">python实现接口自动化</a> 一只小H呀の <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本</div> </li> <li><a href="/article/1903346737414729728.htm" title="探索Python中的集成方法：Stacking" target="_blank">探索Python中的集成方法：Stacking</a> Echo_Wish <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/%E7%AC%94%E8%AE%B0/1.htm">笔记</a><a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直</div> </li> <li><a href="/article/1903342457337212928.htm" title="【Python】 Stacking: 强大的集成学习方法" target="_blank">【Python】 Stacking: 强大的集成学习方法</a> 音乐学家方大刚 <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/1.htm">集成学习</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki</div> </li> <li><a href="/article/1903340060036624384.htm" title="minimind2学习：（1）训练" target="_blank">minimind2学习：（1）训练</a> 溯源006 <a class="tag" taget="_blank" href="/search/minimind%E5%AD%A6%E4%B9%A0/1.htm">minimind学习</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/1.htm">生成模型</a> <div>1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch</div> </li> <li><a href="/article/57.htm" title="多线程编程之join()方法" target="_blank">多线程编程之join()方法</a> 周凡杨 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/JOIN/1.htm">JOIN</a><a class="tag" taget="_blank" href="/search/%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">多线程</a><a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B/1.htm">编程</a><a class="tag" taget="_blank" href="/search/%E7%BA%BF%E7%A8%8B/1.htm">线程</a> <div>现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl</div> </li> <li><a href="/article/184.htm" title="java中switch的使用" target="_blank">java中switch的使用</a> bingyingao <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/enum/1.htm">enum</a><a class="tag" taget="_blank" href="/search/break/1.htm">break</a><a class="tag" taget="_blank" href="/search/continue/1.htm">continue</a> <div>java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br</div> </li> <li><a href="/article/311.htm" title="hive having count 不能去重" target="_blank">hive having count 不能去重</a> daizj <a class="tag" taget="_blank" href="/search/hive/1.htm">hive</a><a class="tag" taget="_blank" href="/search/%E5%8E%BB%E9%87%8D/1.htm">去重</a><a class="tag" taget="_blank" href="/search/having+count/1.htm">having count</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E6%95%B0/1.htm">计数</a> <div>hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep</div> </li> <li><a href="/article/438.htm" title="WebSphere对JSP的缓存" target="_blank">WebSphere对JSP的缓存</a> 周凡杨 <a class="tag" taget="_blank" href="/search/WAS+JSP+%E7%BC%93%E5%AD%98/1.htm">WAS JSP 缓存</a> <div> 对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务</div> </li> <li><a href="/article/565.htm" title="设计模式总结" target="_blank">设计模式总结</a> 朱辉辉33 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n</div> </li> <li><a href="/article/692.htm" title="实例：供应商管理报表需求调研报告" target="_blank">实例：供应商管理报表需求调研报告</a> 老A不折腾 <a class="tag" taget="_blank" href="/search/finereport/1.htm">finereport</a><a class="tag" taget="_blank" href="/search/%E6%8A%A5%E8%A1%A8%E7%B3%BB%E7%BB%9F/1.htm">报表系统</a><a class="tag" taget="_blank" href="/search/%E6%8A%A5%E8%A1%A8%E8%BD%AF%E4%BB%B6/1.htm">报表软件</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8C%96%E9%80%89%E5%9E%8B/1.htm">信息化选型</a> <div>引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和</div> </li> <li><a href="/article/819.htm" title="mysql" target="_blank">mysql</a> 林鹤霄 <div>转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql</div> </li> <li><a href="/article/946.htm" title="Linux下多线程堆栈查看工具(pstree、ps、pstack)" target="_blank">Linux下多线程堆栈查看工具(pstree、ps、pstack)</a> aigo <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n</div> </li> <li><a href="/article/1073.htm" title="html input与textarea 值改变事件" target="_blank">html input与textarea 值改变事件</a> alxw4616 <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a> <div>// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) }); </div> </li> <li><a href="/article/1200.htm" title="String类的基本用法" target="_blank">String类的基本用法</a> 百合不是茶 <a class="tag" taget="_blank" href="/search/String/1.htm">String</a> <div> 字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs</div> </li> <li><a href="/article/1327.htm" title="JDK1.5 Semaphore实例" target="_blank">JDK1.5 Semaphore实例</a> bijian1013 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/thread/1.htm">thread</a><a class="tag" taget="_blank" href="/search/java%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">java多线程</a><a class="tag" taget="_blank" href="/search/Semaphore/1.htm">Semaphore</a> <div>Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S</div> </li> <li><a href="/article/1454.htm" title="使用GZip来压缩传输量" target="_blank">使用GZip来压缩传输量</a> bijian1013 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/GZip/1.htm">GZip</a> <div> 启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi</div> </li> <li><a href="/article/1581.htm" title="【Java范型三】Java范型详解之范型类型通配符" target="_blank">【Java范型三】Java范型详解之范型类型通配符</a> bit1129 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div> 定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } } </div> </li> <li><a href="/article/1708.htm" title="【Hadoop十二】HDFS常用命令" target="_blank">【Hadoop十二】HDFS常用命令</a> bit1129 <a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a> <div>1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb</div> </li> <li><a href="/article/1835.htm" title="怎样区别nginx中rewrite时break和last" target="_blank">怎样区别nginx中rewrite时break和last</a> ronin47 <div>在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test; </div> </li> <li><a href="/article/1962.htm" title="java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m" target="_blank">java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m</a> bylijinnan <a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div> import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等</div> </li> <li><a href="/article/2089.htm" title="eclipse svn 帐号密码修改问题" target="_blank">eclipse svn 帐号密码修改问题</a> 开窍的石头 <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/SVN/1.htm">SVN</a><a class="tag" taget="_blank" href="/search/svn%E5%B8%90%E5%8F%B7%E5%AF%86%E7%A0%81%E4%BF%AE%E6%94%B9/1.htm">svn帐号密码修改</a> <div>问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入</div> </li> <li><a href="/article/2216.htm" title="[电子商务]传统商务活动与互联网的结合" target="_blank">[电子商务]传统商务活动与互联网的结合</a> comsci <a class="tag" taget="_blank" href="/search/%E7%94%B5%E5%AD%90%E5%95%86%E5%8A%A1/1.htm">电子商务</a> <div> 某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的</div> </li> <li><a href="/article/2343.htm" title="java 解析 properties-使用 Properties-可以指定配置文件路径" target="_blank">java 解析 properties-使用 Properties-可以指定配置文件路径</a> cuityang <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/properties/1.htm">properties</a> <div>#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final</div> </li> <li><a href="/article/2470.htm" title="Java核心问题集锦" target="_blank">Java核心问题集锦</a> darrenzhu <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%9F%BA%E7%A1%80/1.htm">基础</a><a class="tag" taget="_blank" href="/search/%E6%A0%B8%E5%BF%83/1.htm">核心</a><a class="tag" taget="_blank" href="/search/%E9%9A%BE%E7%82%B9/1.htm">难点</a> <div>注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个</div> </li> <li><a href="/article/2724.htm" title="1分钟学会Markdown语法" target="_blank">1分钟学会Markdown语法</a> dcj3sjt126com <a class="tag" taget="_blank" href="/search/markdown/1.htm">markdown</a> <div>markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( ) 用一个空白行连续两个空格会变成一个 连续3个符号，然后是空行</div> </li> <li><a href="/article/2851.htm" title="Gson使用二（GsonBuilder）" target="_blank">Gson使用二（GsonBuilder）</a> eksliang <a class="tag" taget="_blank" href="/search/json/1.htm">json</a><a class="tag" taget="_blank" href="/search/gson/1.htm">gson</a><a class="tag" taget="_blank" href="/search/GsonBuilder/1.htm">GsonBuilder</a> <div>转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField</div> </li> <li><a href="/article/2978.htm" title="报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList" target="_blank">报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList</a> gundumw100 <a class="tag" taget="_blank" href="/search/android/1.htm">android</a> <div>有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f</div> </li> <li><a href="/article/3105.htm" title="JavaWeb之JSP指令" target="_blank">JavaWeb之JSP指令</a> ihuning <a class="tag" taget="_blank" href="/search/javaweb/1.htm">javaweb</a> <div> 要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="</div> </li> <li><a href="/article/3232.htm" title="mac上编译FFmpeg跑ios" target="_blank">mac上编译FFmpeg跑ios</a> 啸笑天 <a class="tag" taget="_blank" href="/search/ffmpeg/1.htm">ffmpeg</a> <div>1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm</div> </li> <li><a href="/article/3359.htm" title="sql mysql oracle中字符串连接" target="_blank">sql mysql oracle中字符串连接</a> macroli <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/SQL+Server/1.htm">SQL Server</a> <div>有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON</div> </li> <li><a href="/article/3486.htm" title="Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate" target="_blank">Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate</a> qiaolevip <a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0%E6%B0%B8%E6%97%A0%E6%AD%A2%E5%A2%83/1.htm">学习永无止境</a><a class="tag" taget="_blank" href="/search/%E6%AF%8F%E5%A4%A9%E8%BF%9B%E6%AD%A5%E4%B8%80%E7%82%B9%E7%82%B9/1.htm">每天进步一点点</a><a class="tag" taget="_blank" href="/search/git/1.htm">git</a><a class="tag" taget="_blank" href="/search/%E7%BA%B5%E8%A7%82%E5%8D%83%E8%B1%A1/1.htm">纵观千象</a> <div>// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设</div> </li> <li><a href="/article/3613.htm" title="windows命令行设置wifi" target="_blank">windows命令行设置wifi</a> surfingll <a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a><a class="tag" taget="_blank" href="/search/wifi/1.htm">wifi</a><a class="tag" taget="_blank" href="/search/%E7%AC%94%E8%AE%B0%E6%9C%ACwifi/1.htm">笔记本wifi</a> <div>还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、</div> </li> <li><a href="/article/3740.htm" title="Linux（Ubuntu）下安装sysv-rc-conf" target="_blank">Linux（Ubuntu）下安装sysv-rc-conf</a> wmlJava <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/ubuntu/1.htm">ubuntu</a><a class="tag" taget="_blank" href="/search/sysv-rc-conf/1.htm">sysv-rc-conf</a> <div>安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf</div> </li> <li><a href="/article/3867.htm" title="svn切换环境，重发布应用多了javaee标签前缀" target="_blank">svn切换环境，重发布应用多了javaee标签前缀</a> zengshaotao <a class="tag" taget="_blank" href="/search/javaee/1.htm">javaee</a> <div>更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> 按字母分类： <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>