Kali与编程～

爬虫实战案例

预计更新
一、爬虫技术概述
1.1 什么是爬虫技术
1.2 爬虫技术的应用领域
1.3 爬虫技术的工作原理

二、网络协议和HTTP协议
2.1 网络协议概述
2.2 HTTP协议介绍
2.3 HTTP请求和响应

三、 Python基础
3.1 Python语言概述
3.2 Python的基本数据类型
3.3 Python的流程控制语句
3.4 Python的函数和模块
3.5 Python的面向对象编程

四、爬虫工具介绍
4.1 Requests库
4.2 BeautifulSoup库
4.3 Scrapy框架

五、数据存储和处理
5.1 数据存储格式介绍
5.2 数据库介绍
5.3 数据处理和分析

六、动态网页爬取
6.1 动态网页概述
6.2 Selenium工具介绍
6.3 PhantomJS工具介绍

七、反爬虫技术
7.1 反爬虫技术概述
7.2 User-Agent伪装
7.3 IP代理池

八、数据清洗和预处理
8.1 数据清洗和去重
8.2 数据预处理和分析

九、分布式爬虫和高并发
9.1 分布式爬虫概述
9.2 分布式爬虫框架介绍
9.3 高并发爬虫实现

十、爬虫实战
10.1 爬取豆瓣电影排行榜
10.2 爬取天气数据
10.3 爬取新闻网站数据

十、	爬虫实战
10.1 爬取豆瓣电影排行榜
10.2 爬取天气数据
10.3 爬取新闻网站数据

爬取豆瓣电影排行榜

以下将讲解详细的爬虫实战教程，包括爬取豆瓣电影排行榜、数据分析、数据处理和数据可视化等方面。

确定目标和分析目标网页

首先，我们需要确定我们的目标是爬取豆瓣电影排行榜的数据。豆瓣电影排行榜是一个非常有用的资源，可以帮助我们了解当前最热门的电影和电影的评分信息。我们的爬虫目标是从豆瓣电影排行榜页面上爬取电影的名称、评分、评价人数、导演、主演、电影类型、上映日期等信息。

接下来，我们需要分析目标网页的 HTML 结构和 CSS 样式，找出需要爬取的数据所在的标签和类名。我们可以使用 Chrome 浏览器的开发者工具进行分析。打开豆瓣电影排行榜页面，按下 F12 键打开开发者工具，选择 Elements 标签，可以看到页面的 HTML 结构和 CSS 样式。通过分析，我们可以发现电影的名称、评分、评价人数、导演、主演、电影类型、上映日期等信息分别位于页面的以下标签中：

电影名称：div[class=“pl2”] > a
电影评分：div[class=“star clearfix”] > span[class=“rating_nums”]
电影评价人数：div[class=“star clearfix”] > span[class=“pl”]
电影导演和主演：div[class=“pl2”] > p
电影类型和上映日期：div[class=“pl2”] > p

构建爬虫程序

在分析目标网页的结构和数据之后，我们需要构建爬虫程序。爬虫程序的主要任务是下载目标网页，并从网页中提取需要的数据。在 Python 中，我们可以使用 Requests 库进行网页的下载，使用 Beautiful Soup 库进行网页解析。

以下是一个完整的爬虫程序的代码示例：

import requests
from bs4 import BeautifulSoup
import time
import random

def get_movie_info(movie_url):
    response = requests.get(movie_url)
    soup = BeautifulSoup(response.text, 'html.parser')
    title = soup.select('h1 > span')[0].text
    rating = soup.select('strong[class="ll rating_num"]')[0].text
    votes = soup.select('span[property="v:votes"]')[0].text
    director = soup.select('a[rel="v:directedBy"]')[0].text
    actors = [actor.text for actor in soup.select('a[rel="v:starring"]')]
    genre = [genre.text for genre in soup.select('span[property="v:genre"]')]
    date = soup.select('span[property="v:initialReleaseDate"]')[0].text

    return {'title': title, 'rating': rating, 'votes': votes, 'director': director, 'actors': actors, 'genre': genre, 'date': date}

def get_movies_info(start, end):
    for i in range(start, end, 20):
        url = f'https://movie.douban.com/chart?start={i}&type=D'
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        for movie in soup.select('.pl2'):
            movie_url = movie.select('a')[0]['href']
            movie_info = get_movie_info(movie_url)
            print(movie_info)
            time.sleep(random.randint(1,5))

if __name__ == '__main__':
    get_movies_info(0, 100)

该程序分为两个函数：get_movie_info() 和 get_movies_info()。get_movie_info() 函数用于从电影详情页面中提取电影的名称、评分、评价人数、导演、主演、电影类型、上映日期等信息，并将这些信息存储在一个字典中返回。get_movies_info() 函数用于爬取豆瓣电影排行榜页面，并调用 get_movie_info() 函数获取每部电影的详细信息。

get_movies_info() 函数的参数 start 和 end 分别表示要爬取的电影排行榜的起始位置和结束位置。我们可以通过循环遍历每个页面，获取每个页面中的电影信息。在获取每部电影的详细信息时，我们还需要使用 time 和 random 模块设置随机的延迟时间，以避免被网站的反爬虫机制检测出来。

数据存储和处理

当我们成功地爬取了豆瓣电影排行榜的数据后，我们需要将这些数据存储到数据库或文件中，以便进行后续的数据分析和处理。在这里，我们将使用 MongoDB 数据库进行数据存储。

在 Python 中，我们可以使用 pymongo 库连接 MongoDB 数据库，并将数据存储到数据库中。以下是一个存储数据到 MongoDB 数据库的代码示例：

import pymongo
from pymongo import MongoClient

client = MongoClient('mongodb://localhost:27017/')
db = client['douban_movie']
collection = db['movie_info']

def save_to_mongo(movie_info):
    collection.insert_one(movie_info)

在上面的代码中，我们首先使用 MongoClient 类连接 MongoDB 数据库，然后选择要使用的数据库和集合。在 get_movie_info() 函数中，我们将每部电影的详细信息存储在一个字典中，并调用 save_to_mongo() 函数将数据存储到 MongoDB 数据库中。

除了存储数据到数据库中，我们还可以将数据保存到文件中。在 Python 中，我们可以使用 pandas 库将数据保存为 CSV 或 Excel 格式的文件。以下是一个将数据保存到 CSV 文件的代码示例：

import pandas as pd

def save_to_csv(movie_info):
    df = pd.DataFrame(movie_info)
    df.to_csv('douban_movie.csv', mode='a', encoding='utf-8', index=False, header=False)

在上面的代码中，我们首先将每部电影的详细信息存储在一个字典中，并调用 save_to_csv() 函数将数据保存到 CSV 文件中。在 save_to_csv() 函数中，我们将字典转换成 DataFrame 对象，并调用 to_csv() 方法保存为 CSV 格式的文件。

数据分析和可视化

在成功地爬取了豆瓣电影排行榜的数据并将数据存储到数据库或文件中后，我们可以进行后续的数据分析和可视化。在这里，我们将使用 pandas 和 matplotlib 库进行数据分析和可视化。

以下是一个统计豆瓣电影排行榜中不同类型电影数量的代码示例：

import pymongo
from pymongo import MongoClient
import pandas as pd
import matplotlib.pyplot as plt

client = MongoClient('mongodb://localhost:27017/')
db = client['douban_movie']
collection = db['movie_info']

def get_movies_data():
    movies_data = []
    for movie in collection.find():
        movies_data.append(movie)
    return movies_data

def plot_genre_count():
    movies_data = get_movies_data()
    genres = []
    for movie in movies_data:
        genres.extend(movie['genre'])
    genres_count = pd.Series(genres).value_counts()
    genres_count.plot(kind='bar')
    plt.title('Genres Count in Top 100 Movies')
    plt.xlabel('Genres')
    plt.ylabel('Count')
    plt.show()

if __name__ == '__main__':
    plot_genre_count()

在上面的代码中，我们首先使用 get_movies_data() 函数从 MongoDB 数据库中获取所有电影的数据，并将这些数据存储在一个列表中。然后，我们使用 pandas 库将 genres 列表转换成一个 Series 对象，并使用 value_counts() 方法统计不同类型电影的数量。最后，我们使用 matplotlib 库绘制一个柱状图来可视化不同类型电影的数量。

除了统计不同类型电影的数量外，我们还可以进行其他的数据分析和可视化，比如统计不同导演或演员的电影数量、分析电影评分的分布、探索电影时长和上映年份等等。在进行数据分析和可视化时，我们可以根据具体的问题和需求选择合适的方法和工具。

以下是一个统计豆瓣电影排行榜中不同国家/地区电影数量的代码示例：

import pymongo
from pymongo import MongoClient
import pandas as pd
import matplotlib.pyplot as plt

client = MongoClient('mongodb://localhost:27017/')
db = client['douban_movie']
collection = db['movie_info']

def get_movies_data():
    movies_data = []
    for movie in collection.find():
        movies_data.append(movie)
    return movies_data

def plot_country_count():
    movies_data = get_movies_data()
    countries = []
    for movie in movies_data:
        countries.extend(movie['country'])
    countries_count = pd.Series(countries).value_counts()
    countries_count.plot(kind='bar')
    plt.title('Countries Count in Top 100 Movies')
    plt.xlabel('Countries')
    plt.ylabel('Count')
    plt.show()

if __name__ == '__main__':
    plot_country_count()

在上面的代码中，我们首先使用 get_movies_data() 函数从 MongoDB 数据库中获取所有电影的数据，并将这些数据存储在一个列表中。然后，我们使用 pandas 库将 countries 列表转换成一个 Series 对象，并使用 value_counts() 方法统计不同国家/地区电影的数量。最后，我们使用 matplotlib 库绘制一个柱状图来可视化不同国家/地区电影的数量。

总结

本文介绍了如何使用 Python 爬取豆瓣电影排行榜的数据，并将数据存储到 MongoDB 数据库或文件中，以及如何使用 pandas 和 matplotlib 库进行数据分析和可视化。Python 爬虫是一种强大的工具，可以帮助我们快速获取大量的数据，并进行后续的数据分析和处理。在进行爬虫时，我们需要遵守网站的规则和协议，以避免对网站造成不必要的负担和影响。同时，我们还需要注意数据的隐私和安全，避免泄露敏感信息或被恶意利用。

爬取天气数据

本文将介绍如何使用 Python 爬虫爬取天气数据，并使用 pandas 和 matplotlib 库进行数据分析和可视化。本文的目标是爬取某个城市一段时间内的天气数据，并通过数据分析和可视化来了解该城市的气候特点和变化趋势。本文将按照以下步骤进行：

网站分析和数据获取
数据清洗和整理
数据分析和可视化

在开始之前，我们需要安装一些必要的 Python 库，包括 requests, beautifulsoup4, pandas 和 matplotlib。可以使用 pip 命令进行安装。

网站分析和数据获取

在进行爬虫之前，我们需要了解要爬取的网站的结构和数据获取的方法。在这里，我们将使用中国天气网（http://www.weather.com.cn/）爬取天气数据。中国天气网提供了全国各地的天气预报和历史天气数据，我们可以根据城市和日期来获取相应的天气数据。

首先，我们需要确定要爬取的城市和日期范围。在这里，我们选择爬取北京市 2020 年 1 月至 6 月的天气数据。在浏览器中打开中国天气网的北京市天气页面（http://www.weather.com.cn/weather/101010100.shtml），可以看到该页面包含了当前天气预报、未来几天的天气预报以及历史天气数据等信息。我们需要爬取的是历史天气数据，该数据位于页面底部的“历史天气查询”部分。

点击“历史天气查询”链接，可以打开历史天气查询页面（http://www.weather.com.cn/weather/101010100.shtml#dt=20190101），该页面包含了北京市 2019 年 1 月 1 日至当前日期的历史天气数据。我们可以通过修改 URL 中的日期参数来获取不同日期范围内的天气数据。

在这里，我们将使用 requests 和 beautifulsoup4 库来获取和解析网页。以下是获取北京市 2020 年 1 月至 6 月的天气数据的代码示例：

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd

# 定义要爬取的城市和日期范围
city = '101010100'  # 北京市的城市代码
start_date = '20200101'  # 开始日期
end_date = '20200630'  # 结束日期

# 定义请求的 URL
url = f'http://www.weather.com.cn/weather/{city}.shtml#dt={start_date}'

# 发送 HTTP 请求并获取响应内容
response = requests.get(url)

# 使用 BeautifulSoup 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')

# 获取天气数据表格
table = soup.find('table', class_='table_day')

# 遍历表格中的行并提取数据
data = []
for tr in table.find_all('tr')[1:]:
    tds = tr.find_all('td')
    date = tds[0].text.strip()
    temperature = tds[1].text.strip()
    weather = tds[2].text.strip()
    wind_direction = tds[3].text.strip()
    wind_speed = tds[4].text.strip()
    quality = tds[5].text.strip()
    data.append([date, temperature, weather, wind_direction, wind_speed, quality])

# 将数据转换成 DataFrame 对象
df = pd.DataFrame(data, columns=['date', 'temperature', 'weather', 'wind_direction', 'wind_speed', 'quality'])

# 打印数据
print(df.head())

在上面的代码中，我们首先定义了要爬取的城市和日期范围，并将其作为参数构造了请求的 URL。然后，我们使用 requests 库发送 HTTP 请求，并获取响应内容。接下来，我们使用 beautifulsoup4 库解析响应内容，并使用 find() 方法获取天气数据表格。在表格中，每一行对应一天的天气数据，我们遍历表格中的行并提取日期、温度、天气、风向、风速和空气质量等数据。最后，我们将数据转换成 DataFrame 对象，并打印出前几行数据。

数据清洗和整理

在获取天气数据之后，我们需要对数据进行清洗和整理，以便后续的数据分析和可视化。具体来说，我们需要做以下几个步骤：

将日期转换成日期类型，并设置为索引；
将温度、风速和空气质量等数据转换成数值类型；
去除重复的数据；
处理缺失数据；
添加一些新的特征，如月份、季节等。

以下是对天气数据进行清洗和整理的代码示例：

# 将日期转换成日期类型，并设置为索引
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)

# 将温度、风速和空气质量等数据转换成数值类型
df['temperature'] = df['temperature'].str.extract('(\d+)', expand=False).astype(int)
df['wind_speed'] = df['wind_speed'].str.extract('(\d+)', expand=False).astype(int)
df['quality'] = df['quality'].str.extract('(\d+)', expand=False).astype(int)

# 去除重复的数据
df.drop_duplicates(inplace=True)

# 处理缺失数据
df.fillna(method='ffill', inplace=True)

# 添加新的特征
df['month'] = df.index.month
df['season'] = (df.index.month % 12 + 3) // 3

在上面的代码中，我们首先将日期列转换成日期类型，并将其设置为 DataFrame 的索引。然后，我们使用 str.extract() 方法从温度、风速和空气质量等列中提取数值，并将其转换成数值类型。接下来，我们使用 drop_duplicates() 方法去除重复的数据，并使用 fillna() 方法处理缺失数据（在这里，我们使用前向填充的方式）。最后，我们添加了新的特征，包括月份和季节。

数据分析和可视化

在清洗和整理完数据之后，我们可以开始进行数据分析和可视化了。我们将使用 pandas 和 matplotlib 库来完成这些任务。具体来说，我们将分析天气数据的统计特征和变化趋势，并通过图表来展示这些结果。

首先，我们可以使用 describe() 方法来查看天气数据的统计特征，包括平均温度、最高温度、最低温度等。以下是查看天气数据统计特征的代码示例：

# 查看天气数据的统计特征
print(df.describe())

接着，我们可以使用 groupby() 方法对天气数据按月份和季节进行分组，并计算每组的平均值。以下是按月份和季节分组并计算平均值的代码示例：

# 按月份和季节分组并计算平均值
by_month = df.groupby('month').mean()
by_season = df.groupby('season').mean()

然后，我们可以使用 matplotlib 库来绘制各种图表，如折线图、柱状图、散点图等。以下是绘制折线图和柱状图的代码示例：

import matplotlib.pyplot as plt

# 绘制折线图
plt.plot(by_month['temperature'])
plt.xlabel('Month')
plt.ylabel('Temperature')
plt.title('Temperature by Month')
plt.show()

# 绘制柱状图
plt.bar(['Spring', 'Summer', 'Fall', 'Winter'], by_season['temperature'])
plt.xlabel('Season')
plt.ylabel('Temperature')
plt.title(' Temperature by Season')
plt.show()

在上面的代码中，我们首先导入了 matplotlib 库，并使用 plot() 方法绘制了按月份分组的平均温度的折线图。然后，我们使用 bar() 方法绘制了按季节分组的平均温度的柱状图。

除了折线图和柱状图之外，我们还可以使用散点图、箱线图、热力图等图表来展示天气数据的变化趋势和相关性。以下是绘制散点图和箱线图的代码示例：

# 绘制散点图
plt.scatter(df['wind_speed'], df['quality'])
plt.xlabel('Wind Speed')
plt.ylabel('Air Quality')
plt.title('Wind Speed vs Air Quality')
plt.show()

# 绘制箱线图
df.boxplot(column='temperature', by='season')
plt.xlabel('Season')
plt.ylabel('Temperature')
plt.title('Temperature by Season')
plt.show()

在上面的代码中，我们使用 scatter() 方法绘制了风速和空气质量之间的散点图，并使用 boxplot() 方法绘制了按季节分组的温度的箱线图。

通过上述数据分析和可视化的过程，我们可以更加深入地了解天气数据的统计特征和变化趋势，为后续的天气预测和决策提供参考。

爬取新闻网站数据

本篇文章将介绍如何使用 Python 爬虫从新闻网站上获取数据，并进行数据的清洗、分析和可视化。我们将以中国新闻网为例，演示如何从该网站上获取新闻标题、发布时间、链接和正文等数据，并使用 pandas 和 matplotlib 库对数据进行清洗、分析和可视化。

一、准备工作

在开始爬取新闻网站数据之前，我们需要做一些准备工作：

安装 Python 和相关库

为了使用 Python 爬虫，我们需要先安装 Python 和相关库。具体来说，我们需要安装 requests、beautifulsoup4 和 pandas 库。可以使用 pip 命令来安装这些库，例如：

pip install requests
pip install beautifulsoup4
pip install pandas

确定爬取目标

在开始爬取新闻网站数据之前，我们需要确定爬取的目标。在本篇文章中，我们选择中国新闻网作为爬取目标，爬取该网站上的新闻标题、发布时间、链接和正文等数据。

分析网页结构

在开始编写爬虫代码之前，我们需要分析网页的结构，以便确定需要爬取的数据在哪些 HTML 标签中。在本篇文章中，我们将使用 Chrome 浏览器的开发者工具来分析网页结构。

二、爬取新闻网站数据

在完成准备工作之后，我们可以开始编写爬虫代码来爬取新闻网站数据了。以下是爬虫代码的详细步骤：

发送 HTTP 请求

我们首先需要向网站发送 HTTP 请求，以获取网页的 HTML 代码。可以使用 requests 库来发送 HTTP 请求，例如：

import requests

url = 'http://www.chinanews.com/'
response = requests.get(url)
html = response.text

在上面的代码中，我们首先定义了要爬取的网站的 URL，然后使用 requests 库的 get() 方法发送 HTTP GET 请求，并将响应的 HTML 代码保存在 html 变量中。

解析 HTML 代码

接下来，我们需要使用 beautifulsoup4 库来解析 HTML 代码，并提取需要的数据。可以使用 BeautifulSoup 类来解析 HTML 代码，例如：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

在上面的代码中，我们使用 BeautifulSoup 类来解析 HTML 代码，并将解析器指定为 html.parser。

提取新闻链接

我们可以使用 find_all() 方法来查找 HTML 标签，并提取其中的链接。在本篇文章中，我们需要提取首页上所有新闻的链接。可以使用以下代码来提取链接：

links = []
for a in soup.find_all('a'):
    href = a.get('href')
    if href and href.startswith('http://www.chinanews.com/'):
        links.append(href)

在上面的代码中，我们首先定义了一个空列表 links 用于存储所有新闻的链接。然后，我们使用 find_all() 方法查找所有的 a 标签，并使用 get() 方法获取标签的 href 属性。如果链接以 http://www.chinanews.com/ 开头，则将其添加到 links 列表中。

爬取新闻内容

有了新闻的链接，我们就可以进一步爬取新闻的标题、发布时间和正文等内容了。可以使用以下代码来爬取新闻内容：

import re

news_list = []
for link in links:
    response = requests.get(link)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    title = soup.find('h1').text.strip()
    pub_time = soup.find('div', class_='left-t').text.strip()
    content = soup.find('div', class_='left_zw').text.strip()
    content = re.sub(r'\s+', '\n', content)
    news_list.append({'title': title, 'pub_time': pub_time, 'content': content})

在上面的代码中，我们首先定义了一个空列表 news_list 用于存储所有新闻的标题、发布时间和正文等内容。然后，我们遍历所有新闻的链接，并使用 requests 库发送 HTTP GET 请求。然后，我们使用 BeautifulSoup 类来解析 HTML 代码，并查找标题、发布时间和正文等内容。其中，标题和发布时间分别在 h1 标签和 class 为 left-t 的 div 标签中，正文在 class 为 left_zw 的 div 标签中。最后，我们使用正则表达式将正文中的空格、制表符等空白字符替换为换行符，以便后续的数据清洗。

存储新闻数据

有了爬取到的新闻数据，我们可以将其存储到文件或数据库中，以便后续的数据清洗、分析和可视化。在本篇文章中，我们选择将数据存储到 CSV 文件中。可以使用 pandas 库来创建并写入 CSV 文件，例如：

import pandas as pd

df = pd.DataFrame(news_list)
df.to_csv('news.csv', index=False)

在上面的代码中，我们首先使用 pandas 库的 DataFrame 类创建数据框，并将新闻数据存储到数据框中。然后，我们使用 to_csv() 方法将数据框写入 CSV 文件中。

三、数据清洗、分析和可视化

在完成数据爬取之后，我们需要对数据进行清洗、分析和可视化，以便更好地理解和利用数据。以下是数据清洗、分析和可视化的详细步骤：

数据清洗

在进行数据分析和可视化之前，我们需要对数据进行清洗，以去除重复值、缺失值和异常值等问题。可以使用 pandas 库来进行数据清洗，例如：

import pandas as pd

df = pd.read_csv('news.csv')
df.drop_duplicates(subset=['title'], keep='first', inplace=True)
df.dropna(inplace=True)

在上面的代码中，我们首先使用 pandas 库的 read_csv() 方法从 CSV 文件中读取数据框。然后，我们使用 drop_duplicates() 方法去除标题重复的新闻，使用 dropna() 方法去除缺失值。

数据分析

有了干净的数据，我们可以使用 pandas 库来进行数据分析，以了解新闻的分布、发布时间和关键词等信息。以下是数据分析的示例代码：

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('news_cleaned.csv')

# 统计新闻来源
source_counts = df['source'].value_counts()
plt.pie(source_counts, labels=source_counts.index)
plt.title('Source Distribution')
plt.show()

# 统计新闻发布时间
df['pub_time'] = pd.to_datetime(df['pub_time'])
df['year'] = df['pub_time'].dt.year
df['month'] = df['pub_time'].dt.month
df['day'] = df['pub_time'].dt.day
month_counts = df['month'].value_counts().sort_index()
plt.plot(month_counts.index, month_counts.values)
plt.title('Monthly News Count')
plt.xlabel('Month')
plt.ylabel('Count')
plt.show()

# 分析新闻关键词
from jieba import cut
from collections import Counter

keywords = []
for content in df['content']:
    words = cut(content)
    keywords.extend(words)
counter = Counter(keywords)
top_keywords = counter.most_common(20)
x = [w[0] for w in top_keywords]
y = [w[1] for w in top_keywords]
plt.bar(x, y)
plt.title('Top 20 Keywords')
plt.xlabel('Keyword')
plt.ylabel('Count')
plt.xticks(rotation=90)
plt.show()

在上面的代码中，我们首先使用 pandas 库的 read_csv() 方法从 CSV 文件中读取数据框。然后，我们分别分析了新闻来源、发布时间和关键词等信息。

对于新闻来源，我们使用 value_counts() 方法统计了各个来源的新闻数量，并使用饼图进行了可视化。

对于新闻发布时间，我们首先使用 to_datetime() 方法将发布时间转换为 pandas 的时间格式，并提取出年份、月份和日期等信息。然后，我们使用 value_counts() 方法统计了每个月份的新闻数量，并使用折线图进行了可视化。

对于新闻关键词，我们使用 jieba 库对新闻正文进行了分词，并使用 Counter 类统计了每个关键词出现的次数。然后，我们选取了出现次数最多的前 20 个关键词，并使用柱状图进行了可视化。

数据可视化

数据可视化是数据分析的重要环节，可以帮助我们更直观地理解和展示数据。在本篇文章中，我们使用了 matplotlib 库和 pandas 库的可视化功能来展示新闻数据的分布、趋势和关键词等信息。以下是数据可视化的示例代码：

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('news_cleaned.csv')

# 统计新闻来源
source_counts = df['source'].value_counts()
plt.pie(source_counts, labels=source_counts.index)
plt.title('Source Distribution')
plt.show()

# 统计新闻发布时间
df['pub_time'] = pd.to_datetime(df['pub_time'])
df['year'] = df['pub_time'].dt.year
df['month'] = df['pub_time'].dt.month
df['day'] = df['pub_time'].dt.day
month_counts = df['month'].value_counts().sort_index()
plt.plot(month_counts.index, month_counts.values)
plt.title('Monthly News Count')
plt.xlabel('Month')
plt.ylabel('Count')
plt.show()

# 分析新闻关键词
from jieba import cut
from collections import Counter

keywords = []
for content in df['content']:
    words = cut(content)
    keywords.extend(words)
counter = Counter(keywords)
top_keywords = counter.most_common(20)
x = [w[0] for w in top_keywords]
y = [w[1] for w in top_keywords]
plt.bar(x, y)
plt.title('Top 20 Keywords')
plt.xlabel('Keyword')
plt.ylabel('Count')
plt.xticks(rotation=90)
plt.show()

在上面的代码中，我们使用了 matplotlib 库和 pandas 库的可视化功能来展示新闻数据的分布、趋势和关键词等信息。具体地，我们使用了饼图、折线图和柱状图等图表来展示不同方面的数据信息。同时，我们也可以根据需要使用其他库如 seaborn 来进行更复杂的数据可视化。

四、总结

本篇文章介绍了使用 Python 技术爬取、清洗、分析和可视化新闻数据的详细步骤。通过这个示例，我们可以了解到如何使用 requests、BeautifulSoup、pandas、matplotlib 等常用库来实现数据处理和可视化。同时，我们也可以根据需要对代码进行修改和扩展，以满足不同的数据处理和分析需求。

你可能感兴趣的:(爬虫入门到高级,爬虫,python,开发语言)

python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
安装配置MAVEN ByteVoyager maven java
安装配置MAVEN1.获取安装包下载apache-maven-3.8.1-bin.zip，下载地址：https://archive.apache.org/dist/maven/maven-3/3.8.1/binaries/apache-maven-3.8.1-bin.zip。2.解压maven压缩包3.配置maven环境变量新建环境变量MAVEN_HOME:右击【此电脑】->【属性】->【高级系统
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
【后端】k8s 骑鱼过海的猫123 kubernetes 容器云原生
1.命令1.1获取service服务获取集群内所有命名空间的service服务sudokubectlgetservice--all-namespaces获取集群内指定命名空间的service服务sudokubectlgetservice-n命名空间当权限限制到一个命名空间时,只能使用下面这个sudokubectl-n命名空间getservice获取集群内当前命名空间的service服务sudoku
python 快速实现链接转 word 文档嘿嘿潶黑黑 python word
python快速实现链接转word文档演示代码展示最后演示代码展示fromnewspaperimportArticlefromdocximportDocumentfromdocx.sharedimportPt,RGBColorfromdocx.enum.styleimportWD_STYLE_TYPEfromdocx.oxml.nsimportqn#tkinterGUIimporttkintera
redis的主从复制配置 zhaikaiyun redis
通过持久化功能，redis保证了即使在服务器重启的情况下也不会丢失或少量丢失数据，但是由于数据存储在一台服务器上，如果这台服务器出现故障，比如磁盘坏了，也会导致数据丢失。为了避免这个单点故障，可以使用主从复制的方式，将主更新的数据，自动更新同步到其他服务器上。主从节点配置[root@k8smasterconfig]#moreredis6380.confinclude/data/redis/redi
flutter pigeon gomobile 插件中使用go工具类 yujunlong3919 flutter golang swift kotlin
文章目录为什么flutter要用go写工具类1.下载pigeon插件模版2.编写go代码3.生成greeting.aar，Greeting.xcframework4.ios5.android6.dart中使用为什么flutter要用go写工具类在Flutter应用中，有些场景涉及到大量的计算，比如复杂的加密算法、数据压缩/解压缩或者图形处理中的数学计算等1.下载pigeon插件模版base_plu
事件驱动-事件驱动应用于软件开发海水天涯事件驱动驱动开发
一、前言1.1软件开发概述软件开发是一个涉及计算机科学、工程学、设计和项目管理等领域的广泛概念。它指的是创建、部署和维护软件应用程序或系统的整个过程。这包括从最初的构思和需求分析，到设计、编码、测试、部署，以及后续的维护和更新。在软件开发过程中，通常会遵循一定的方法论或开发模型，如瀑布模型、敏捷开发等，以确保项目能按时、按质完成。软件开发工具如集成开发环境（IDE）、版本控制系统等，也在这个过程中
Python入门笔记「已注销」计算机
文章目录第0周课程导学第1周Python基本语法元素保留字数据类型语句与函数输入函数第2周Python基本图形绘制turtle库绝对坐标海龟坐标turtle角度坐标体系RGB色彩体系画笔控制函数运动控制函数方向控制函数循环语句第3周基本数据类型整型浮点数科学计数法复数类型数值运算操作符二元操作符有对应的增强赋值操作符数值运算函数字符串类型的表示字符串切片字符串类型及操作字符串类型格式化time库时
Redis主从复制小松聊PHP进阶 Redis 后端 redis 服务器 nosql 数据库 sql 架构
主从复制官方文档：https://redis.io/docs/latest/operate/oss_and_stack/management/replication/极简概括：将一个主Redis服务器的数据复制到其它从Redis服务器的过程。角色：主节点（Master）：负责处理客户端的写（或者读）请求，并将写操作同步到从节点。从节点（Slave）：负责处理客户端的读请求，并将主节点发送过来的数据
pythonxml模块高级用法_Python minidom模块用法示例【DOM写入和解析XML】 Lucy-露西娅 pythonxml模块高级用法
本文实例讲述了Pythonminidom模块用法。分享给大家供大家参考，具体如下：一、DOM写XML文件#-*-coding:utf-8-*-#!python3#导入minidomfromxml.domimportminidom#1.创建DOM树对象dom=minidom.Document()#2.创建根节点。每次都要用DOM对象来创建任何节点。root_node=dom.createElemen
xml DOM高级夜夜yaya WSDL解析
XMLDOM(DocumentObjectModel)定义了访问和操作XML文档的标准方法。XMLDOMDOM把XML文档视为一种树结构。通过这个DOM树，可以访问所有的元素。可以修改它们的内容（文本以及属性），而且可以创建新的元素。元素，以及它们的文本和属性，均被视为节点。在本教程的较早章节中，我们介绍了XMLDOM，并使用了XMLDOM的getElementsByTagName()从DOM树中
JavaScript的魔法世界：巧妙之处与实战技巧 skyksksksksks 综合个人杂记 javascript 开发语言 html5 css 前端
一、从浏览器玩具到全栈利器的蜕变之路JavaScript诞生于1995年，原本只是网景公司为浏览器设计的"小脚本"。谁能想到这个曾被戏称为"玩具语言"的家伙，如今已蜕变成支撑现代Web开发的擎天柱？就像一只破茧成蝶的幼虫，JavaScript经历了ECMAScript标准的持续进化，在Node.js的加持下突破了浏览器的桎梏，实现了从客户端到服务端的华丽转身。V8引擎的涡轮增压让它跑得比猎豹还快，
深入解析 Flutter Riverpod：从原理到实战陈皮话梅糖@ flutter Riverpod
深入解析FlutterRiverpod：从原理到实战Riverpod是Flutter社区中一个强大且灵活的状态管理工具，被称为Provider的升级版。它解决了Provider的一些局限性，比如类型安全、全局状态管理的灵活性、不依赖BuildContext等。Riverpod的设计理念是简洁、灵活和高性能，适合从小型到大型项目的状态管理需求。本篇博客将详细分析Riverpod的核心原理、常见用法，
XML的介绍及使用DOM，DOM4J解析xml文件 late summer182 xml java
1XML简介XML（可扩展标记语言，ExtensibleMarkupLanguage）是一种用于定义文档结构和数据存储的标记语言。它主要用于在不同的系统之间传输和存储数据。作用：数据交互配置应用程序和网站Ajax基石特点XML与操作系统、编程语言的开发平台无关实现不同系统之间的数据交换2XML文档结构王珊.NET高级编程包含C#框架和网络编程等李明明XML基础编程包含XML基础概念和基本作用2.1
Redis 全方位解析：从入门到实战 kiss strong redis 数据库缓存
引言在当今互联网快速发展的时代，高并发、低延迟的应用场景越来越普遍。Redis，作为一款高性能的开源数据库，以其卓越的性能和灵活的功能，成为了许多开发者的首选工具。无论是在缓存、消息队列，还是在实时数据分析等领域，Redis都展现出了强大的能力。本文将从Redis的基本介绍、官网、安装、特性，到具体的存储类型、Java代码实例、SpringBoot整合，以及Redis的主要作用和应用场景，进行全面
Redis设置密码保姆级教程 Excellent的崽子 Redis windows redis 数据库
在Windows系统上设置Redis密码在Windows系统上设置Redis密码的过程与Linux系统类似，但需注意几个关键步骤以确保正确配置。以下是一步一步的指导：步骤一：编辑配置文件定位配置文件：首先，找到Redis的安装目录，并定位到redis.windows.conf文件。这个文件通常包含了Redis的所有配置选项。修改密码设置：使用文本编辑器打开redis.windows.conf文件，
《Java高级-Xml：利用DOM4j解析XML》大大大钢琴 #Java：经验总结 java xml 开发语言
利用DOM4j解析XMLdom4j是一个简单的开源库，用于处理XML、XPath和XSLT，它基于Java平台，使用Java的集合框架，全面集成了DOM，SAX和JAXP。dom4j是目前在xml解析方面是最优秀的(Hibernate、Sun的JAXM也都使用dom4j来解析XML)，它合并了许多超出基本XML文档表示的功能，包括集成的XPath支持、XMLSchema支持以及用于大文档或流化文档
React 渲染 Flash 接口数据 ox0080 #北漂+滴滴出行 VIP 激励 Web react.js 前端前端框架
1.后端Python代码使用Flask创建多个接口，每个接口返回不同的数据，并使用自定义装饰器来绑定路由。代码：#app.pyfromflaskimportFlask,jsonifyapp=Flask(__name__)defapi_route(route,methods=['GET']):"""自定义装饰器，用于将函数与HTTP路由绑定"""defdecorator(func):app.rout
事件驱动框架 MacRsh 开源单片机 stm32 c语言设计模式
事件驱动框架文档事件驱动框架是一种异步事件处理机制,它通过事件分发和回调的方式,可以有效地提高系统的异步处理能力、解耦性和可扩展性。事件驱动框架包含两个主要组件:事件服务器和事件客户端。事件服务器用于接收和分发事件,它内部维护一个事件队列用于存储待处理事件和一个事件列表用于存储注册的事件客户端。事件客户端用于处理特定类型的事件,它需要注册到事件服务器并提供一个回调函数。当事件发生时,事件服务器会将
docker配置Redis主从复制原理及操作纪佰伦 docker redis 主从分布式
一、前言要配置Redis主从复制，我默认是了解过Redis的持久化功能的，也就是RDB和AOF，只需要简单了解过即可。持久化的一个作用就是可以定期将内存中的数据备份到硬盘，在系统发生故障的时候，也可以通过持久化文件回复数据，二、关于主从复制1、什么是主从复制主从复制是一种分布式系统数据同步技术，其中主服务器负责处理所有写操作并将变更同步到一个或多个从服务器。从服务器接收这些变更并复制主服务器的数据
LQB---基础练习---十六进制转八进制「已注销」 #LQB LQB
试题基础练习十六进制转八进制资源限制内存限制：512.0MBC/C++时间限制：1.0sJava时间限制：3.0sPython时间限制：5.0s问题描述给定n个十六进制正整数，输出它们对应的八进制数。输入格式输入的第一行为一个正整数n（1<=n<=10）。接下来n行，每行一个由09、大写字母AF组成的字符串，表示要转换的十六进制正整数，每个十六进制数长度不超过100000。输出格式输出n行，每行为
js如何直接下载文件流涔溪 js javascript 前端开发语言
在JavaScript中直接处理文件下载，尤其是在处理文件流的情况下，通常涉及到使用fetchAPI或者XMLHttpRequest来获取文件流，并通过创建一个临时的标签（锚点元素）触发下载。以下是使用fetchAPI的一个示例：fetch('你的文件URL',{method:'GET',headers:{//如果需要的话，可以在这里添加请求头}}).then(response=>response
部署前端项目2 augenstern416 前端
前端项目的部署是将开发完成的前端代码发布到服务器或云平台，使其能够通过互联网访问。以下是前端项目部署的常见步骤和工具：1.准备工作在部署之前，确保项目已经完成以下步骤：代码优化：压缩JavaScript、CSS和图片文件，减少文件体积。环境配置：区分开发环境和生产环境（如API地址、环境变量等）。测试：确保项目在本地测试通过，没有明显Bug。2.部署流程1.构建项目大多数前端项目（如React、V
Linux搭建FTP服务器见字如晤X. 服务器 linux 运维
FTP概述FTP服务（FileTransferProtocol服务，文件传输协议服务）是一种用于在网络上传输文件的协议。FTP服务允许用户将文件从一个计算机（本地主机）传输到另一个计算机（远程主机），或者从远程主机接收文件到本地主机。这种传输是基于客户端-服务器模式的，其中用户使用的本地计算机作为客户端，而提供文件存储和访问的远程计算机作为服务器传输连接与传输模式FTP客户端和服务器之间的连接，主
人生建议往死里学网络安全！零基础也能跨行学习！！漏洞挖掘还能做副业黑客老哥 web安全学习安全 php 网络安全
一、网络安全的重要性：从‘不学会被黑’到‘学会保护别人’网络安全的概念现在不再是技术圈的独立话题，它已经渗透到社会的各个领域。从个人的隐私保护、企业的数据安全，到国家的信息防护，网络安全几乎影响了每一个人的生活。无论是黑客攻击、勒索病毒、数据泄露，还是国家间的信息战，网络安全已经成为现代社会的基础设施之一。所以，首先要明白学习网络安全的重要性：你不仅是在学习技术，更多的是在为自己和他人的安全“筑城
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟