数据解析与提取（3.1 用正则表达式解析和提取数据）

3.1.1 正则表达式基础1：findall()函数

import re
a = 'Hello 123 world'
result = re.findall('\d\d\d',a)
print(result)

['123']

从运行结果来看，findall()函数返回的是一个包含结果的列表，而不是字符串或数字，很多初学者经常会忽略这一点。
下面再通过一个例子来加深印象，代码如下：

import re
content = 'Hello 123 world 456 华小智Python基础教学135'
result = re.findall('\d\d\d',content)
print(result)

['123', '456', '135']

从列表中提取某个元素

a = result[0]

用print（）将a打印输出，结果如下。这个输出结果虽然看着是数字，但是它实际上是字符串。

print(type(a))
<class 'str'>

正则表达式对应表

3.1.2 正则表达式基础2：非贪婪匹配值“（.*?）”

贪婪模式为“.?”,非贪婪模式除了“.?”这种模式外，还有一种形式是“（.*?）”,它们的作用稍有不同。
简单来说，“（.?）”用于提取文本A和文本B之间的内容，并不需要知道内容的确切长度和格式，但是需要知道内容位于哪两串文本之间，其基本语法格式如下：
< center> 文本A（.?）文本B < /center>
下面结合findall()函数和非贪婪模式“（.*?）”进行文本提取的演示，代码如下：

import re
res = '文本A百度新闻文本B'
source = re.findall('文本A(.*?)文本B',res)
print(source)

运行结果如下（注意返回的是一个列表）：

['百度新闻']

在实战中，一般不把匹配规则直接写在findall()函数的括号里，而是分成两行，先写匹配规则，再调用findall()函数，代码如下。原因是有时匹配规则比较长，分开写会比较清晰。

p_source = '文本A(.*?)文本B'
source = re.findall(p_source,res)

import re
res = '文本A百度新闻文本B，新闻标题文本A新浪财经文本B，文本A搜狐新闻文本B新闻网址'
p_source = '文本A(.*?)文本B'
source = re.findall(p_source,res)
print(source)

运行结果如下

['百度新闻', '新浪财经', '搜狐新闻']

3.1.3 正则表达式基础3：非贪婪模式值“.*?”

基本语法格式：文本C.*?文本D
简单来说，“.?”用于代替文本C和文本D之间的所有内容。之所以要使用 “.?”，是因为文本C和文本D之间的内容经常变动或没有规律，无法写到匹配规则里；或者文本C和文本D之间的内容，我们不想写到匹配规则里。
下面一个简单的例子来演示“.*?”的用法，代码如下：

import re
res = '文本C<变化的网址>文本D新闻标题
'
p_title = '文本C.*?文本D(.*?)
'
title = re.findall(p_title,res)
print(title)

['新闻标题']

3.1.4 正则表达式基础4：自动考虑换行的修饰符re.S

修饰符有很多，最常用的是re.S，其作用是让findall()函数在查找时可以自动考虑换行的影响，使得非贪婪模式可以匹配换行。re.S的基本语法格式如下：
re.findall(匹配规则，原始文本，re.S）

import re
res = '''文本A
    百度新闻文本B'''
p_source = '文本A(.*?)文本B'
source = re.findall(p_source,res,re.S)
print(source)

['\n    百度新闻']

3.1.5 正则表达式基础5：知识点补充

1.sub()函数

re.sub(需要替换的内容，替换值，原字符串）

import re
title = '双十一点燃线下经济 ”小时达“服务成阿里巴巴增长新引擎'
title = re.sub('<.*?>','',title)
print(title)

双十一点燃线下经济 ”小时达“服务成阿里巴巴增长新引擎

2.中括号“[]”的用法

在正则表达式中，“.”“”“？”等符号都有特殊的含义，但是如果相匹配的就是这些符号，就需要使用中括号取消这些符号的特殊含义。例如，想要删除字符串里所有的“”号（这个操作在爬取股票名称时很常用，因为有点上市公司名称里有“*”号，爬取后需要删除），演示代码如下：

import re
company = '*华能信托'
company1 = re.sub('[*]','',company)
print(company1)

华能信托

3.1.6 案例实战：提取百度新闻的标题、网址、日期和来源

1.获取网页源代码

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=阿里巴巴'
res = requests.get(url,headers=headers).text
print(res)

2.编写正则表达式提取数据

（1.）提取新闻的来源和日期

网页源代码

   <span class="c-color-gray c-font-normal c-gap-right" aria-label="新闻来源：民生报道">民生报道</span>
    <span class="c-color-gray2 c-font-normal" aria-label="发布于：5分钟前">5分钟前</span>

根据上述规律，编写出用正则表达式提取来源和日期的代码如下：

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=阿里巴巴'
res = requests.get(url,headers=headers).text
#print(res)

import re
p_date = '= 'date = re.findall(p_date,res)
source = re.findall(p_source,res)
print(date)
print(source)

结果如下：

['发布于：今天">今天', '发布于：21分钟前">21分钟前', '发布于：24分钟前">24分钟前', '发布于：27分钟前">27分钟前', '发布于：今天">今天', '发布于：今天">今天', '发布于：1小时前">1小时前', '发布于：1小时前">1小时前', '发布于：1小时前">1小时前']
['新闻来源：天下网商">天下网商', '新闻来源：网易">网易', '新闻来源：搜狐网">搜狐网', '新闻来源：民生报道">民生报道', '新闻来源：和讯网">和讯网', '新闻来源：和讯网">和讯网', '新闻来源：同花顺财经">同花顺财经', '新闻来源：腾讯网">腾讯网', '新闻来源：ZAKER">ZAKER', '新闻来源：新浪财经">新浪财经']

（2.）提取新闻的网址和标题

源代码

<div><h3 class="news-title_1YtI1"><a href="https://baijiahao.baidu.com/s?id=1727965931596949939&wfr=spider&for=pc" target="_blank" class="news-title-font_1xS-F" aria-label="标题：阿里巴巴将回购250亿美元股票" data-click="{
            &#39;f0':'77A717EA',
            &#39;f1':'9F73F1E4',
            &#39;f2':'4CA6DE6E',
            &#39;f3':'54E5243F',
            &#39;t':'1647917225',

通过观察，可以发现网址的网页源代码有如下规律：

<h3 class="news-title_1YtI1"><a href="网址"

根据上述规律，编写出用正则表达式提取网页的代码如下：

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=阿里巴巴'
res = requests.get(url,headers=headers).text
#print(res)

import re
p_date = '= 'date = re.findall(p_date,res)
source = re.findall(p_source,res)
# print(date)
# print(source)

p_href = '
href = re.findall(p_href,res) #不存在换行，无须添加re.S
print(href)

['https://www.163.com/dy/article/H32EE4RT05129QAF.html', 'http://news.10jqka.com.cn/comment/637674609.shtml', 'http://www.cnr.cn/ziben/kb/20220322/t20220322_525772916.shtml', 'http://news.sohu.com/a/531732729_120078003', 'http://www.iwshang.com/articledetail/268337', 'https://www.163.com/dy/article/H32CO3TF0550C0ON.html', 'http://news.sohu.com/a/531728021_100032554', 'http://stock.hexun.com/2022-03-22/205546280.html', 'http://stock.hexun.com/2022-03-22/205546315.html', 'https://view.inews.qq.com/a/20220322A02U8U00']

标题的获取稍微复杂一些。通过观察，发现包含标题的网页源代码有如下规律：

 <div><h3 class="news-title_1YtI1"><a href="https://baijiahao.baidu.com/s?id=1727965931596949939&wfr=spider&for=pc" target="_blank" class="news-title-font_1xS-F" aria-label="标题：阿里巴巴将回购250亿美元股票" data-click="{
            'f0':'77A717EA',
            'f1':'9F73F1E4',
            'f2':'4CA6DE6E',
            'f3':'54E5243F',
            't':'1647917225',
        }"><!--s-text--><em>阿里巴巴</em>将回购250亿美元股票<!--/s-text--></a></h3>

<h3 class="news-title_1YtI1">一些不关心的内容（含换行）>标题</a>

根据上述规律，编写出正则表达式提取标题的代码如下：

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=阿里巴巴'
res = requests.get(url,headers=headers).text
#print(res)

import re
p_date = '= 'date = re.findall(p_date,res)
source = re.findall(p_source,res)
# print(date)
# print(source)

p_href = '
href = re.findall(p_href,res) #不存在换行，无须添加re.S
#print(href)

p_title = '.*?>(.*?)' #用“.*?”代替不关心的内容，用“(.*?)”提取需要的内容
title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S
print(title)

提取所需数据后，可用print()打印输出数据内容进行查看，结果如下图所示。还可以用len()函数查看获取的各项内容的条数是否一直，已验证正则表达式是否编写正确。

['阿里巴巴扩大股份回购规模至250亿美元,委任新独立董事', '阿里回购规模扩大至250亿美元,为中概股史上最大回购计划', '话题:250亿美元!阿里巴巴开启中概股史上最大规模回购', '创中概股回购规模纪录!阿里巴巴扩大股份回购规模至250亿美元', '阿里巴巴将回购250亿美元股票', '阿里巴巴扩大股份回购规模至250亿美元 或开启新一轮中概股回购热', '阿里巴巴扩大股份回购规模至250亿美元 创中概股回购新高', '港股开盘(3.22)︱恒指涨0.46% 阿里巴巴-SW(09988)高开逾3%领涨蓝筹', '阿里巴巴宣布扩大回购规模至250亿美元,创中概股回购纪录', '阿里巴巴加码股份回购 回购规模相当于近十分之一市值']

可看到网址、日期、来源基本没有问题，但是标题中含有与“ ”“ ”“”“”等无用的字符串，需要进行数据清洗。

（3）数据清洗和打印输出

用re库中的sub()函数删除“”等无用的字符，然后用“+”运算符将各项内容拼接起来，用print()函数打印输出，代码如下：

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=阿里巴巴'
res = requests.get(url,headers=headers).text
#print(res)

import re
p_date = '(.*?)'
p_source = '(.*?)'
date = re.findall(p_date,res)
source = re.findall(p_source,res)
# print(date)
# print(source)

p_href = '
href = re.findall(p_href,res) #不存在换行，无须添加re.S
#print(href)

p_title = '.*?>(.*?)' #用“.*?”代替不关心的内容，用“(.*?)”提取需要的内容
title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S
# print(title)

for i in range(len(title)):
    title[i] = re.sub('<.*?>','',title[i])
    print(str(i+1) + '.' + title[i] + '(' + source[i] + ' '+ date[i] + ')')
    print(href[i])

最终结果，并没有十条新闻，只是爬出了九条新闻。

Traceback (most recent call last):
  File "D:\works\python_crawl1\04.py", line 25, in <module>
    print(str(i+1) + '.' + title[i] + '(' + source[i] + ' '+ date[i] + ')')
IndexError: list index out of range
1.阿里巴巴启动中概股史上最大规模回购 背后有三大积极信号(网易 5分钟前)
https://www.163.com/dy/article/H32RDVRU0550C0ON.html
2.阿里巴巴港股涨超10%,此前宣布中概股最大规模回购计划(新浪财经 12分钟前)
https://cj.sina.com.cn/articles/view/7517400647/1c0126e47059036kgx
3.港股阿里巴巴涨超10%(东方财富网 12分钟前)
http://emwap.eastmoney.com/info/detail/202203222318789447
4.阿里巴巴涨超10%此前宣布回购额度上调至250亿美元(营口新闻网 15分钟前)
https://www.yingkounews.com/yaowen/202203/43160.html
5.阿里巴巴涨超10%,报109.3港元(网易 20分钟前)
https://www.163.com/dy/article/H32QI7UQ0539AP40.html
6.阿里巴巴午后涨超10%,贡献恒指点数超160点(中国财经时报网 52分钟前)
https://www.3news.cn/news/guonei/2022/0322/671019.html
7.话题:港股阿里巴巴股价走高涨近9%,此前宣布扩大股份回购规模至250...(同花顺财经 1小时前)
http://news.10jqka.com.cn/comment/637676515.shtml
8.阿里巴巴投资乐创互动娱乐,后者经营范围含动漫游戏开发(腾讯网 1小时前)
https://view.inews.qq.com/a/20220322A05MZW00
9.阿里巴巴云原生大数据运维平台 SREWorks 正式开源(站长之家 1小时前)
https://www.chinaz.com/2022/0322/1376715.shtml

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
有舍才有得 _清净_
为什么经常讲放下？放下就是让你要舍得、舍去。喜舍心就是把自己喜欢的，用慈悲心喜舍出去。这就锻炼了你们在人间，学会放下原本不舍得的东西或一些事物，学会舍出去，学会帮助别人，学会多付出。你今天付出了慈悲心、喜舍心，以后会得到更多的缘助力。缘助力是什么？——贵人缘啊。今天没有付出，不懂得付出，什么都只会想到自己，那你也得不到缘助力。慈悲喜舍就是用慈悲心去帮助别人，用喜舍心去付出，最后也会得到别人回报。别
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
log4j配置 yy爱yy
#log4j.rootLogger配置的是大于等于当前级别的日志信息的输出#log4j.rootLogger用法:（注意appenderName可以是一个或多个）#log4j.rootLogger=日志级别,appenderName1,appenderName2,....#log4j.appender.appenderName2定义的是日志的输出方式，有两种：一种是命令行输出或者叫控制台输出，另一
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

数据解析与提取（3.1 用正则表达式解析和提取数据）

3.1.1 正则表达式基础1：findall()函数

3.1.2 正则表达式基础2：非贪婪匹配值“（.*?）”

3.1.3 正则表达式基础3：非贪婪模式值“.*?”

文本C<变化的网址>文本D新闻标题

文本C.?文本D(.?)

3.1.4 正则表达式基础4：自动考虑换行的修饰符re.S

3.1.5 正则表达式基础5：知识点补充

1.sub()函数

2.中括号“[]”的用法

3.1.6 案例实战：提取百度新闻的标题、网址、日期和来源

1.获取网页源代码

2.编写正则表达式提取数据

（1.）提取新闻的来源和日期

（2.）提取新闻的网址和标题

`href = re.findall(p_href,res) #不存在换行，无须添加re.S print(href)`

href = re.findall(p_href,res) #不存在换行，无须添加re.S #print(href) p_title = '
.?>(.?)' #用“.?”代替不关心的内容，用“(.?)”提取需要的内容 title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S print(title)

.?>(.?)' #用“.?”代替不关心的内容，用“(.?)”提取需要的内容 title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S print(title)

（3）数据清洗和打印输出

你可能感兴趣的:(爬虫相关案例或知识,python,爬虫)

数据解析与提取（3.1 用正则表达式解析和提取数据）

3.1.1 正则表达式基础1：findall()函数

3.1.2 正则表达式基础2：非贪婪匹配值“（.*?）”

3.1.3 正则表达式基础3：非贪婪模式值“.*?”

文本C<变化的网址>文本D新闻标题

文本C.*?文本D(.*?)

3.1.4 正则表达式基础4：自动考虑换行的修饰符re.S

3.1.5 正则表达式基础5：知识点补充

1.sub()函数

2.中括号“[]”的用法

3.1.6 案例实战：提取百度新闻的标题、网址、日期和来源

1.获取网页源代码

2.编写正则表达式提取数据

（1.） 提取新闻的来源和日期

（2.）提取新闻的网址和标题

href = re.findall(p_href,res) #不存在换行，无须添加re.S print(href)

href = re.findall(p_href,res) #不存在换行，无须添加re.S #print(href) p_title = '.*?>(.*?)' #用“.*?”代替不关心的内容，用“(.*?)”提取需要的内容 title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S print(title)

.*?>(.*?)' #用“.*?”代替不关心的内容，用“(.*?)”提取需要的内容 title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S print(title)

（3）数据清洗和打印输出

你可能感兴趣的:(爬虫相关案例或知识,python,爬虫)

文本C.?文本D(.?)

（1.）提取新闻的来源和日期

`href = re.findall(p_href,res) #不存在换行，无须添加re.S print(href)`

href = re.findall(p_href,res) #不存在换行，无须添加re.S #print(href) p_title = '
.?>(.?)' #用“.?”代替不关心的内容，用“(.?)”提取需要的内容 title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S print(title)

.?>(.?)' #用“.?”代替不关心的内容，用“(.?)”提取需要的内容 title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S print(title)