shengxiaweizhi

Python爬虫实战二之爬取百度贴吧帖子

大家好，上次我们实验了爬取了糗事百科的段子，那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是，这次我们需要用到文件的相关操作。

本篇目标

1.对百度贴吧的任意帖子进行抓取

2.指定是否只抓取楼主发帖内容

3.将抓取到的内容分析并保存到文件

1.URL格式的确定

首先，我们先观察一下百度贴吧的任意一个帖子。

比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，这是一个关于NBA50大的盘点，分析一下这个地址。

http://代表资源传输使用http协议
tieba.baidu.com 是百度的二级域名，指向百度贴吧的服务器。
/p/3138733512 是服务器某个资源，即这个帖子的地址定位符
see_lz和pn是该URL的两个参数，分别代表了只看楼主和帖子页码，等于1表示该条件为真

所以我们可以把URL分为两部分，一部分为基础部分，一部分为参数部分。

例如，上面的URL我们划分基础部分是http://tieba.baidu.com/p/3138733512，参数部分是?see_lz=1&pn=1

2.页面的抓取

熟悉了URL的格式，那就让我们用urllib2库来试着抓取页面内容吧。上一篇糗事百科我们最后改成了面向对象的编码方式，这次我们直接尝试一下，定义一个类名叫BDTB(百度贴吧)，一个初始化方法，一个获取页面的方法。

其中，有些帖子我们想指定给程序是否要只看楼主，所以我们把只看楼主的参数初始化放在类的初始化上，即init方法。另外，获取页面的方法我们需要知道一个参数就是帖子页码，所以这个参数的指定我们放在该方法中。

综上，我们初步构建出基础代码如下：

__author__ = 'CQC'
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
#百度贴吧爬虫类
class BDTB:
#初始化，传入基地址，是否只看楼主的参数
def __init__(self,baseUrl,seeLZ):
self.baseURL = baseUrl
self.seeLZ = '?see_lz='+str(seeLZ)
#传入页码，获取该页帖子的代码
def getPage(self,pageNum):
try:
url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
print response.read()
return response
except urllib2.URLError, e:
if hasattr(e,"reason"):
print u"连接百度贴吧失败,错误原因",e.reason
return None
baseURL = 'http://tieba.baidu.com/p/3138733512'
bdtb = BDTB(baseURL,1)
bdtb.getPage(1)

运行代码，我们可以看到屏幕上打印出了这个帖子第一页楼主发言的所有内容，形式为HTML代码。

3.提取相关信息

1）提取帖子标题

首先，让我们提取帖子的标题。

在浏览器中审查元素，或者按F12，查看页面源代码，我们找到标题所在的代码段，可以发现这个标题的HTML代码是

1	纯原创我心中的NBA2014-2015赛季现役50大

所以我们想提取

标签中的内容，同时还要指定这个class确定唯一，因为h1标签实在太多啦。

正则表达式如下

|
|
|
')
#将表格制表

1

1

2

3

4

5

6

7

8

9

10

#获取帖子标题

def getTitle(self):

page = self.getPage(1)

pattern = re.compile('

1

2

3

4

5

6

7

8

9

10

#获取帖子一共有多少页

def getPageNum(self):

page = self.getPage(1)

pattern = re.compile('

1

1

2

3

4

5

6

#获取每一层楼的内容,传入页面内容

def getContent(self,page):

pattern = re.compile('

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

import re

#处理页面标签类

class Tool:

#去除img标签,7位长空格

removeImg = re.compile('| {7}|')

#删除超链接标签

removeAddr = re.compile('|')

#把换行的标签换为n

replaceLine = re.compile('
替换为t

replaceTD= re.compile('
')

#把段落开头换为n加空两格

replacePara = re.compile('')

#将换行符或双换行符替换为n

replaceBR = re.compile('

|
')

#将其余标签剔除

removeExtraTag = re.compile('<.?>')

def replace(self,x):

x = re.sub(self.removeImg,"",x)

x = re.sub(self.removeAddr,"",x)

x = re.sub(self.replaceLine,"n",x)

x = re.sub(self.replaceTD,"t",x)

x = re.sub(self.replacePara,"n",x)

x = re.sub(self.replaceBR,"n",x)

x = re.sub(self.removeExtraTag,"",x)

#strip()将前后多余内容删除

return x.strip()

在使用时，我们只需要初始化一下这个类，然后调用replace方法即可。

现在整体代码是如下这样子的，现在我的代码是写到这样子的

|
|
|
')
#将表格制表

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

author = 'CQC'

# -- coding:utf-8 --

import urllib

import urllib2

import re

#处理页面标签类

class Tool:

#去除img标签,7位长空格

removeImg = re.compile('| {7}|')

#删除超链接标签

removeAddr = re.compile('|')

#把换行的标签换为n

replaceLine = re.compile('
替换为t

replaceTD= re.compile('
')

#把段落开头换为n加空两格

replacePara = re.compile('')

#将换行符或双换行符替换为n

replaceBR = re.compile('

|
')

#将其余标签剔除

removeExtraTag = re.compile('<.?>')

def replace(self,x):

x = re.sub(self.removeImg,"",x)

x = re.sub(self.removeAddr,"",x)

x = re.sub(self.replaceLine,"n",x)

x = re.sub(self.replaceTD,"t",x)

x = re.sub(self.replacePara,"n",x)

x = re.sub(self.replaceBR,"n",x)

x = re.sub(self.removeExtraTag,"",x)

#strip()将前后多余内容删除

return x.strip()

#百度贴吧爬虫类

class BDTB:

#初始化，传入基地址，是否只看楼主的参数

def init(self,baseUrl,seeLZ):

self.baseURL = baseUrl

self.seeLZ = '?see_lz='+str(seeLZ)

self.tool = Tool()

#传入页码，获取该页帖子的代码

def getPage(self,pageNum):

try:

url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request)

return response.read().decode('utf-8')

except urllib2.URLError, e:

if hasattr(e,"reason"):

print u"连接百度贴吧失败,错误原因",e.reason

return None

#获取帖子标题

def getTitle(self):

page = self.getPage(1)

pattern = re.compile('
.?(.?)',re.S)

result = re.search(pattern,page)

if result:

#print result.group(1)#测试输出

return result.group(1).strip()

else:

return None

#获取每一层楼的内容,传入页面内容

def getContent(self,page):

pattern = re.compile('

1.每打印输出一段楼层，写入一行横线来间隔，或者换行符也好。

2.试着重新编一个楼层，按照顺序，设置一个变量，每打印出一个结果变量加一，打印出这个变量当做楼层。

这里我们尝试一下吧，看看效果怎样

把getContent方法修改如下

1

2

3

4

5

6

7

8

9

#获取每一层楼的内容,传入页面内容

def getContent(self,page):

pattern = re.compile('

print self.tool.replace(item)

floor += 1

运行一下看看效果

嘿嘿，效果还不错吧，感觉真酸爽！接下来我们完善一下，然后写入文件

4.写入文件

最后便是写入文件的过程，过程很简单，就几句话的代码而已，主要是利用了以下两句

file = open(“tb.txt”,”w”)

file.writelines(obj)

这里不再赘述，稍后直接贴上完善之后的代码。

5.完善代码

现在我们对代码进行优化，重构，在一些地方添加必要的打印信息，整理如下

|
|
|
')
#将表格制表

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

author = 'CQC'

# -- coding:utf-8 --

import urllib

import urllib2

import re

#处理页面标签类

class Tool:

#去除img标签,7位长空格

removeImg = re.compile('| {7}|')

#删除超链接标签

removeAddr = re.compile('|')

#把换行的标签换为n

replaceLine = re.compile('
替换为t

replaceTD= re.compile('
')

#把段落开头换为n加空两格

replacePara = re.compile('')

#将换行符或双换行符替换为n

replaceBR = re.compile('

|
')

#将其余标签剔除

removeExtraTag = re.compile('<.?>')

def replace(self,x):

x = re.sub(self.removeImg,"",x)

x = re.sub(self.removeAddr,"",x)

x = re.sub(self.replaceLine,"n",x)

x = re.sub(self.replaceTD,"t",x)

x = re.sub(self.replacePara,"n",x)

x = re.sub(self.replaceBR,"n",x)

x = re.sub(self.removeExtraTag,"",x)

#strip()将前后多余内容删除

return x.strip()

#百度贴吧爬虫类

class BDTB:

#初始化，传入基地址，是否只看楼主的参数

def init(self,baseUrl,seeLZ,floorTag):

#base链接地址

self.baseURL = baseUrl

#是否只看楼主

self.seeLZ = '?see_lz='+str(seeLZ)

#HTML标签剔除工具类对象

self.tool = Tool()

#全局file变量，文件写入操作对象

self.file = None

#楼层标号，初始为1

self.floor = 1

#默认的标题，如果没有成功获取到标题的话则会用这个标题

self.defaultTitle = u"百度贴吧"

#是否写入楼分隔符的标记

self.floorTag = floorTag

#传入页码，获取该页帖子的代码

def getPage(self,pageNum):

try:

#构建URL

url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request)

#返回UTF-8格式编码内容

return response.read().decode('utf-8')

#无法连接，报错

except urllib2.URLError, e:

if hasattr(e,"reason"):

print u"连接百度贴吧失败,错误原因",e.reason

return None

#获取帖子标题

def getTitle(self,page):

#得到标题的正则表达式

pattern = re.compile('
.?(.?)',re.S)

result = re.search(pattern,page)

if result:

return result.group(1).strip()

else:

return None

#获取每一层楼的内容,传入页面内容

def getContent(self,page):

#匹配所有楼层的内容

pattern = re.compile('

contents.append(content.encode('utf-8'))

return contents

def setFileTitle(self,title):

#如果标题不是为None，即成功获取到标题

if title is not None:

self.file = open(title + ".txt","w+")

else:

self.file = open(self.defaultTitle + ".txt","w+")

def writeData(self,contents):

#向文件写入每一楼的信息

for item in contents:

if self.floorTag == '1':

#楼之间的分隔符

floorLine = "n" + str(self.floor) + u"-----------------------------------------------------------------------------------------n"

self.file.write(floorLine)

self.file.write(item)

self.floor += 1

def start(self):

indexPage = self.getPage(1)

pageNum = self.getPageNum(indexPage)

title = self.getTitle(indexPage)

self.setFileTitle(title)

if pageNum == None:

print "URL已失效，请重试"

return

try:

print "该帖子共有" + str(pageNum) + "页"

for i in range(1,int(pageNum)+1):

print "正在写入第" + str(i) + "页数据"

page = self.getPage(i)

contents = self.getContent(page)

self.writeData(contents)

#出现写入异常

except IOError,e:

print "写入异常，原因" + e.message

finally:

print "写入任务完成"

print u"请输入帖子代号"

baseURL = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))

seeLZ = raw_input("是否只获取楼主发言，是输入1，否输入0n")

floorTag = raw_input("是否写入楼层信息，是输入1，否输入0n")

bdtb = BDTB(baseURL,seeLZ,floorTag)

bdtb.start()

现在程序演示如下

完成之后，可以查看一下当前目录下多了一个以该帖子命名的txt文件，内容便是帖子的所有数据。

抓贴吧，就是这么简单和任性！

你可能感兴趣的:(Python)

华为OD机试 - 最长回文字符串（C++ Java JavaScript Python） YOLO大师华为 c++java 算法 华为od
题目描述如果一个字符串正读和反渎都一样（大小写敏感），则称它为一个「[回文串]，例如：leVel是一个「回文串」，因为它的正读和反读都是leVel；同理a也是「回文串」art不是一个「回文串」，因为它的反读tra与正读不同Level不是一个「回文串」，因为它的反读leveL与正读不同（因大小写敏感）给你一个仅包含大小写字母的字符串，请用这些字母构造出一个最长的回文串，若有多个最长的，返回其中字典序

自用力扣刷题记录（Python，数组、字符串） qq_40283123
文章目录一.数组69744844241274453最小操作次数使数组元素相等665非递减数列283移动的零118杨辉三角形119杨辉三角形2661图片平滑器598范围求和II419夹板上的战舰189旋转数组396旋转函数54螺旋矩阵59螺旋矩阵II498对角线遍历566重塑矩阵48旋转图像73矩阵置零289生命游戏303区域和检索-数组不可变304二维区域和检索-矩阵不可变238除自身以外数组的乘

Python 进程和线程-进程 vs. 线程赔罪 Python 系统学习 python 开发语言
目录ThreadLocal小结进程vs.线程线程切换计算密集型vs.IO密集型异步IOThreadLocal在多线程环境下，每个线程都有自己的数据。一个线程使用自己的局部变量比使用全局变量好，因为局部变量只有线程自己能看见，不会影响其他线程，而全局变量的修改必须加锁。但是局部变量也有问题，就是在函数调用的时候，传递起来很麻烦：defprocess_student(name):std=Student

一个数如果恰好等于它的因子之和，这个数就称为“完数“。例如6=1＋2＋3.编程找出1000以内的所有完数。-多语言赔罪 Practice questions 算法 java c语言 javascript python
目录C语言实现Python实现Java实现Js实现题目：一个数如果恰好等于它的因子之和，这个数就称为"完数"。例如6=1＋2＋3.编程找出1000以内的所有完数。完数（PerfectNumber）是一个正整数，它等于其所有正因子（不包括自身）的和。换句话说，如果一个数n的所有正因子（除了n本身）相加的结果等于n，那么n就是一个完数。完数的性质完数是稀有的，已知的完数都是偶数。根据欧几里得的定理，完

Python中的代码测试小白的高手之路 python学习 python 开发语言
编写函数或类时，可以为其编写测试。通过测试，可以确定代码面对各种输入都能正确按要求工作。在程序中添加新代码时，依然可以对其进行测试，确认它们不会影响原有的代码。1、测试函数先编写一个简单的函数：name_fun.pydefget_name(first,last):"""生成全名"""name=first+''+lastreturnname.title()name.pyfromname_funimp

Python----数据分析（Pandas四：一维数组Series的统计计算，分组和聚合）蹦蹦跳跳真可爱589 数据分析 Python pandas python 数据分析
一、统计计算1.1、count用于计算Series中非NaN（非空）值的数量。importpandasaspds=pd.Series([1,2,None,4,None])count_non_na=s.count()print(count_non_na)1.2、sumsum()函数会计算所有值的总和。Series.sum(axis=None,skipna=True,numeric_only=None

Python----数据分析（Pandas三：一维数组Series的数据操作：数据清洗，数据转换，数据排序，数据筛选，数据拼接）蹦蹦跳跳真可爱589 数据分析 Python python 数据分析 pandas
一、数据清洗1.1、dropna()删除包含NaN值的行。series.dropna(axis=0,inplace=False)描述说明axis可选参数，用于指定按哪个轴删除缺失值。对于Series对象，因为它是一维数据结构，只有一个轴，所以此参数默认值为0，且一般不需要修改这个参数（在处理DataFrame时该参数才有更多实际意义，如除，axis=1表示按列删除）。inplace可选参数，用于指

【手把手教你-Python】如何让 Flask 根据现有表结构生成 SQLAlchemy 模型文件？ EricLing2022 python flask 开发语言 sql database
首先你要具备一定Python基础，了解Flask框架，以及数据库工具SQLAchemy。为什么会有这个需求？在使用Python编写项目代码时，假设数据库中的表已经存在，我们需要根据现有的表结构来编写SQLAlchemy模型文件。为了避免逐行编写代码，我们可以使用一个工具来“一键生成”模型文件，那就是sqlacodegen。准备工作Python版本：3.11.5（只要是3.xx版本应该都可以）安装好

数组逆序重放 crmeb专业二开 python 开发语言
数组逆序重放的意思是将数组的元素逆序排列，然后重新放回原数组中。这个操作可以在很多编程语言中实现，例如Python、Java等。下面是一个Python的示例代码，可以实现这个操作：defreverse_and_rearrange(arr):#反转数组arr.reverse()#重新放回原数组result=[]foriinrange(len(arr)):result.append(arr[i])re

Python 程序运行过程 iteye_20309 python c/c++数据库
一.Python解释器Python是一门编程语言，同时也是一个解释器的软件包。解释器是一种让其他程序运行起来的程序。当你编写了一段Python程序，Python解释器将读取程序，并按照其中的命令执行，得出结果。解释器是代码与计算机硬件之间的软件逻辑层。当Python包安装后，它包含了一些最小化的组件：一个解释器和支持的库。根据使用情况的不同，Python解释器可能采取可执行程序的形式，或者作为链接

python记录6from flask import Flaskapp = Flask(name) @app.route(‘/‘)def hello_world(): retu 我讨厌python python 开发语言 后端
利用pycharm实现视频分镜1.下载pip3installpycharm或者官网下载2.网页显示文字步骤想要在网页上显示：Hello，World!第一步先在PyCharm上新建项目然后在main.py中输入以下代码fromflaskimportFlaskapp=Flask(name)@app.route('/')defhello_world():return'Hello,World!'i

将一个数组逆序输出。-多语言赔罪 Practice questions 算法 数据结构 python c语言 java javascript
目录C语言实现方法1:交换元素方法2:使用辅助数组方法3:使用递归方法4:使用标准库函数（C99及以上）总结Python实现方法1:交换元素方法2:使用切片方法3:使用reversed()函数方法4:使用list.reverse()方法方法5:使用for循环和append()总结Java实现方法1:交换元素方法2:使用Collections.reverse()方法（适用于对象数组）方法3:使用递归

app=Flask(name)中的name的意义 BirdMan98 flask python 后端
在app=Flask(name)这行代码中，Flask(name)用于初始化Flask应用对象，而name这个参数的作用主要是确定应用的根路径，影响Flask如何查找资源，如静态文件、模板等。1.name是Python内置变量name在Python模块中表示当前模块的名称：如果Python文件被直接运行，name的值为"main"。如果Pyt

使用yolov8+flask实现精美登录界面+图片视频摄像头检测系统 FL1623863129 深度学习 YOLO flask python
这个是使用flask实现好看登录界面和友好的检测界面实现yolov8推理和展示，代码仅仅有2个html文件和一个python文件，真正做到了用最简洁的代码实现复杂功能。测试通过环境：windowsx64anaconda3+python3.8ultralytics==8.3.81flask==1.1.2torch==2.3.0运行步骤：安装好环境执行pythonlogin.py后端实现代码：from

python 解决 ‘win32api’ 模块找不到的问题 xybf python python 开发语言
出现这个问题可能是因为升级至python3.10之后，会遗漏两个重要的dll:`pythoncom310.dll`和`pywintypes310.dll`。解决方案就是在python目录下运行`pythonScripts/pywin32_postinstall.py-install`，然后这两个文件就会被创建在`C:\Windows\System32`或者是python目录下。如果这两个地方都找不

AI编程篇-python基础篇 cv工程师(ctrl+c\v) AI编程 python
转型AI算法后的总结-python基础篇python基础AI算法工程师的日常开发工作离不开python这门语言。python的优点：开源免费、简单易学、丰富的库。以下是我总结的python的一些基础：1.python及IDE工具安装对于初学者来说，python的安装是必不可少的，但是为了方便代码编辑和查看结果及debug，可以安装pycharm社区版暂时用来前期学习：python安装及注意事项：下

torch-torchvision-python版本对应问题 Thirtyaoe python 深度学习 pytorch
module‘torch.onnx.symbolic_helper’hasnoattribute‘quantized_args’今日在联系pytorch时，importtorchvision时报错：module‘torch.onnx.symbolic_helper’hasnoattribute‘quantized_args’查阅后发现是版本不兼容的问题，于是查看了正确的对应版本，对自己的进行修改。

torchvision与torch的版本冲突 RanGriffin python pytorch
在importtorchvision时报错：UserWarning:FailedtoloadimagePythonextension:[WinError127]解决在晚上查询之后，问题在于自己的torchvision版本与torch版本不对应。首先查询自己的torch和torchvision版本importtorchprint(torch.version)importtorchvision

xodooIP地址定位 odoo实施 XODOO PRO Xodoo odoo python
//src/packages/python/geoip2.rs实现特点：跨平台支持：通过Rust原生实现，兼容Windows、Linux、macOS等主流操作系统类型安全：使用Rust的Option类型处理可能缺失的字段严格校验IP地址格式自动处理编码转换性能优化：数据库文件只加载一次内存映射方式读取数据零拷贝解析技术错误处理：明确的错误类型（IOError/ValueError）友好的错误提示信

警告 torch.nn.utils.weight_norm is deprecate 的参考解决方法 wongHome 深度学习相关调试问题 Ubuntu pytorch
文章目录写在前面一、问题描述二、解决方法参考链接写在前面自己的测试环境：Ubuntu20.04一、问题描述运行pytorch程序，如下如下警告/home/wong/ProgramFiles/anaconda3/envs/pytorch_env/lib/python3.8/site-packages/torch/nn/utils/weight_norm.py:30:UserWarning:torch

如何用Python绘制柱状图堆叠图？上官美丽技术分享 python 开发语言
在数据分析和可视化的过程中，柱状图是一种非常常用的图表类型。它能清晰地展示不同类别之间的比较。而堆叠柱状图则是在此基础上，能够展示各个部分在整体中的占比！今天，我们来聊聊如何使用Python绘制堆叠柱状图，帮助你更好地理解数据。我们将使用一个非常流行的库：Matplotlib。准备工作首先，你需要确保安装了Matplotlib库。如果还没有安装，可以通过以下命令来安装：pipinstallmatp

python socket库详解 mosquito_lover1 python websocket
socket是Python标准库中的一个模块，提供了对底层网络通信的接口，允许开发者进行网络编程。通过socket你可以创建客户端和服务器应用程序，实现网络通信。1.基本概念-Socket：是网络通信的端点，用于在不同主机之间或同一主机上的不同进程之间进行数据传输。-IP地址：标识网络中的设备。-端口号：标识设备上的特定进程或服务。-协议：常用的协议有TCP（传输控制协议）和UDP（用户数据报协议

使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（

踩坑：VirtualBox：安装提示缺少python core和win32 api 过去的了 linux python
一、安装OracleVirtualBox时出现以下现象内容提示：安装OracleVMVirtualBox7.0.24的Python绑定需要先安装PythonCore包和win32api绑定。如果现在继续安装OracleVMVirtualBox7.0.24的Python绑定，那么这些依赖项需要在之后手动设置。用户可以参考OracleVMVirtualBox7.0.24SDK手册获取更多信息。如果忽视

YOLO11 环境安装你喜欢喝可乐吗？ conda deep learning 人工智能 conda
1.安装Anaconda/Miniconda在Ubuntu中安装MinicondaAnaconda/Minicondapip配置清华镜像源Anaconda/Miniconda基本操作命令2.创建python虚拟环境#创建condacreate-nyolo11_envpython=3.12#激活condaactivateyolo11_env3.安装pytorch#Pytorchhttps://pyt

Python3 【项目实战】深度解析：赛跑成绩统计分析工具李智 - 重庆 Python 精讲精练 -从入门到实战 python 案例学习 编程技巧 时间处理 项目实战
Python3【项目实战】深度解析：赛跑成绩统计分析工具一、项目概述1.开发背景：田径比赛的成绩统计需要快速准确的计算选手成绩，传统人工计时和统计效率低且易出错。本工具通过程序化处理赛跑数据，自动计算各选手成绩及整体统计指标，主要应用于：学校运动会成绩实时统计田径锦标赛的自动化成绩公示运动员训练数据分析2.技术定位：时间数据处理与统计计算的典型案例字典数据结构的实践应用面向过程编程的教学范例二、项

默默的学python——两个重要的函数dir()、help() xiaoli_panpan #python基础 python
一、dir()函数dir()函数在Python中用于返回一个对象的所有属性和方法的列表，当你对一个函数使用dir()时，它会返回函数对象的所有可访问的属性和方法的名字列表。具体的说，dir()函数获取的内容包括：1.特殊方法和魔法方法如call、code、defaults、doc、globals、name等，这些方法和属性是函数对象的一部分，提供了对函数元数据的访问。2.基础自基类的属性和

python xpath定位元素方法_关于python中的xpath解析定位 weixin_39975366 python xpath定位元素方法
爬取的网站：http://jbk.39.net/chancegz/这里只针对个别属性值：#例如：'别名'下的span标签文本，‘发病部位'下的span标签文本以及‘挂号科室‘下的span标签文本#defdisease(url):text=get_html(url)tree=etree.HTML(text)bm=tree.xpath('//ul[@class="information_ul"]/li

通过Python使用json库写一个更新josn文件中某个字段中数组数据的函数焦虑肇事者 json
你可以使用Python中的json库来读取json文件，然后使用Python字典的方式来更新json文件中的某个字段。最后，使用json库的写入功能将更新后的字典写回json文件。例如，你可以使用以下代码来实现这个功能：importjsondefupdate_json_array(json_file,field,new_data):#读取json文件withopen(json_file,'r')a

ros如何编译python文件_（二）ROS入门——4.如何编写ROS的第一个程序hello_world weixin_39935903 ros如何编译python文件
ROS机器人操作系统在机器人应用领域很流行，依托代码开源和模块间协作等特性，给机器人开发者带来了很大的方便。我们的机器人“miiboo”中的大部分程序也采用ROS进行开发，所以本文就重点对ROS基础知识进行详细的讲解，给不熟悉ROS的朋友起到一个抛砖引玉的作用。本章节主要内容：1.ROS是什么2.ROS系统整体架构3.在ubuntu16.04中安装ROSkinetic4.如何编写ROS的第一个程序

tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包      &n

网站架构发展的过程 ayaoxinchao 数据库 应用服务器 网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何

[信息与安全]数据库的备份问题 comsci 数据库
      如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢?    是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n

使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的

大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。

cache 服务器小猪猪08 cache
Cache   即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache   是怎么样工作的? 　　Cache   是分配在服务器上

mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch

CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则     (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right

全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l

MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，

JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "

AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎

[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use

【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler

linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/

unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件

线段树-入门 bylijinnan java 算法 线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna

全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>

vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何

Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：

php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo

SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。

对软件设计的思考 e200702084 设计模式 数据结构 算法 ssh 活动
软件设计的宏观与微观    软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传

同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：

Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1

Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存 查询缓存 二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存

对象关系行为模式之延迟加载 home198979 PHP 架构 延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚

xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str =       "Jamey친Ñ&#1282

div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci

你真的了解单例模式么？ w574240966 java 单例 设计模式 jvm
    单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。）   1，懒汉式（1）线程不安全的懒汉式 public cla

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

首页 - 关于我们 - 站内搜索 - Sitemap - 侵权投诉

版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

Python爬虫实战二之爬取百度贴吧帖子

本篇目标

1.URL格式的确定

2.页面的抓取

3.提取相关信息

1）提取帖子标题

纯原创我心中的NBA2014-2015赛季现役50大

4.写入文件

5.完善代码

你可能感兴趣的:(Python)