OpenPie｜拓数派

数据科学在文本分析中的应用：中英文 NLP（上）

在《后疫情时代，数据科学赋能旅游行业服务质量提升》这篇博文中，我们介绍了猫途鹰文本分析项目的背景和解决方案，并展示了最终的分析结果。接下来，对于中英文 NLP 感兴趣的读者，我们会为大家详细讲解数据采集、数据入库、数据清理和数据建模步骤中涉及的原理和代码实现。由于篇幅的限制，上篇会重点讲解数据采集、数据入库和数据清理这三个步骤，下篇则会讲解数据建模的完整流程。

数据采集

1. 抓取工具分析

网页内容抓取是从互联网上获取数据的方式之一。对于使用 Python 进行网页抓取的开发者，比较主流的工具有以下几种：

Beautiful Soup

Beautiful Soup 是几种工具中最容易上手的网页抓取库，它可以快速帮助开发者从 HTML 或 XML 格式的文件中获取数据。在这个过程中，Beautiful Soup 会一定程度上读取这类文件的数据结构，并在此基础上提供许多与查找和获取数据内容相关的方程。除此之外，Beautiful Soup 完善、易于理解的文档和活跃的社区使得开发者不仅可以快速上手，也能快速精通，并灵活运用于开发者自己的应用当中。

不过正因为这些工作特性，相较于其他库而言，Beautiful Soup也有比较明显的缺陷。首先，Beautiful Soup 需要依赖其他 Python库（如 Requests）才能向对象服务器发送请求，实现网页内容的抓取；也需要依赖其他 Python 解析器（如 html.parser）来解析抓取的内容。其次，由于Beautiful Soup需要提前读取和理解整个文件的数据框架以便之后内容的查找，从文件读取速度的角度来看，Beautiful Soup 相对较慢。在许多网页信息抓取的过程中，需要的信息可能只占一小部分，这样的读取步骤并不是必需的。

Scrapy

Scrapy 是非常受欢迎的开源网页抓取库之一，它最突出的特性是抓取速度快，又因为它基于 Twisted 异步网络框架，用户发送的请求是以无阻塞机制发送给服务器的，比阻塞机制更灵活，也更节省资源。因此，Scrapy 拥有了以下这些特性：

对于 HTML 类型网页，使用XPath或者CSS表述获取数据的支持
可运行于多种环境，不仅仅局限于 Python。Linux、Windows、Mac 等系统都可以使用 Scrapy 库。
扩展性强
速度和效率较高
需要的内存、CPU 资源较少

纵然 Scrapy 是功能强大的网页抓取库，也有相关的社区支持，但生涩难懂的文档使许多开发者望而却步，上手比较难。

Selenium

Selenium 的起源是为了测试网页应用程序而开发的，它获取网页内容的方式与其他库截然不同。Selenium 在结构设计上是通过自动化网页操作来获取网页返回的结果，和 Java 的兼容性很好，也可以轻松应对 AJAX 和 PJAX 请求。和 Beautiful Soup 相似，Selenium 的上手相对简单，但与其他库相比，它最大的优势是可以处理在网页抓取过程中出现的需要文本输入才能获取信息、或者是弹出页面等这种需要用户在浏览器中有介入动作的情况。这样的特性使得开发者对网页抓取的步骤更加灵活，Selenium 也因此成为了最流行的网页抓取库之一。

由于在获取景点评论的过程中需要应对搜索栏输入、弹出页面和翻页等情况，在本项目中，我们会使用 Selenium 进行网页文本数据的抓取。

2. 网页数据和结构的初步了解

各个网站在开发的过程中都有自己独特的结构和逻辑。同样是基于 HTML 的网页，即使 UI 相同，背后的层级关系都可能大相径庭。这意味着理清网页抓取的逻辑不仅要了解目标网页的特性，也要对未来同一个网址的更新换代、同类型其他平台的网页特性有所了解，通过比较相似的部分整理出一个相对灵活的抓取逻辑。

猫途鹰国际版网站的网页抓取步骤与中文版网站的步骤相似，这里我们以 www.tripadvisor.cn 为例，先观察一下从首页到景点评论的大致步骤。

步骤一：进入首页，在搜索栏中输入想要搜索的景点名称并回车

步骤二：页面更新，出现景点列表，选择目标景点

在搜索景点名称后，我们需要在图中所示的列表里锁定目标景点。这里可以有两层逻辑叠加帮助我们达到这个目的：

猫途鹰的搜索引擎本身会对景点名称和搜索输入进行比较，通过自己内部的逻辑将符合条件的景点排名靠前
我们可以在结果出现后使用省份、城市等信息筛选得到目标景点

步骤三：点击目标景点，弹出新页面，切换至该页面并寻找相关评论

根据评论格式的特点，我们可以抓取的信息如下：

用户
用户所在地
评分
点评标题
到访日期
旅行类型
详细点评
撰写日期

步骤四：翻页获取更多评论

可以看到，在获取相关网页的过程中有许多需要浏览器去完成的动作，这也是我们选择 Selenium 的原因。因此，我们的网页抓取程序会在数据抓取之前，进行相同的步骤。

开发网页抓取程序时一个非常便利的定位所需内容在 HTML 代码中位置的方法是，在浏览器中将鼠标移至内容所在的区域，右键选择 “Inspect”，浏览器会弹出网页 HTML 元素并定位到和内容相关的代码。基于这种方法，我们可以使用 Selenium 进行自动化操作和数据抓取。

以上述评论为例，它在 HTML 结构中的位置如下：

在使用 Selenium 时，元素类别和 class 名称可以帮助我们定位到相关内容，进行进一步操作，抓取相关文本数据。我们可以使用这两种定位方法：CSS 或 XPATH，开发者可以根据自身需求进行选择。最终，我们执行的网页抓取程序大致可以分成两个步骤：

第一步：发送请求，使用 Selenium 操作浏览器找到指定景点的评论页面
第二步：进入评论页面，抓取评论数据

3. 获取评论数据

这部分的功能实现需要先安装和导入以下 Python 库：

from selenium import webdriver
import chromedriver_binary
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
import datetime
import re
import pandas as pd
from utility import print_log_message, read_from_config

其中，utility 是一个辅助模块，包含打印会话和发生时间的方程，以及从 ini 设置文件中读取程序信息的方程。utility 中的辅助方程可以反复出现在需要的模块中。

#utility.py
import time
import configparser
def print_log_message(app_name, procedure, message):
   ts = time.localtime()
   print(time.strftime("%Y-%m-%d %H:%M:%S", ts) + " **" + app_name + "** " + procedure + ":", message)
   return
def read_from_config(file_name, section, var):
   config = configparser.ConfigParser()
   config.read(file_name)
   var_value = config.get(section, var)
   return var_value

在开始网页抓取之前，我们需要先启动一个网页会话进程。

# Initiate web session
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--no-sandbox')     
chrome_options.add_argument('--window-size=1920,1080')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome(ChromeDriverManager().install(),chrome_options=chrome_options)
wd.get(self.web_url)
wd.implicitly_wait(5)
review_results = {}

考虑到运行环境不是 PC 或资源充足的实例，我们需要在代码中说明程序没有显示方面的需求。ChromeDriverManager() 可以帮助程序在没有 Chrome 驱动的环境中下载需要的驱动文件，并传递给 Selenium 的会话进程。

注意，许多网页内容与 Chrome 版本、资源和系统环境、时间有关。本项目中使用的网页并不受这类信息或环境的影响，但会受浏览器显示设置的限制，进而影响被抓取的内容。请大家在开发此类抓取程序时，注意核对网页显示信息与实际抓取数据是否吻合。

进入猫途鹰主页（https://www.tripadvisor.cn/）后，在搜索栏输入目标景点名称并回车，进入新页面后，在景点列表里根据搜索引擎排序、省份和城市，寻找并点击进入正确的景点页面。这里，我们以“外滩”为例：

location_name = '外滩' 
city = '上海' 
state = '上海'

# Find search box
wd.find_element(By.CSS_SELECTOR, '.weiIG.Z0.Wh.fRhqZ>div>form>input').click()

# Enter location name
wd.find_element(By.XPATH, '//input[@placeholder="去哪里？"]').send_keys(f'{location_name}')
wd.find_element(By.XPATH, '//input[@placeholder="去哪里？"]').send_keys(Keys.ENTER)

# Find the right location with city + province info
element = wd.find_element(By.XPATH,
                                 f'//*[@class="address-text" and contains(text(), "{city}") and contains(text(), "{state}")]')
element.click()

在点击目标景点后，切换至跳转出的新页面。进入景点评论页面之后，我们就可以根据页面 HTML 的结构和评论在其代码层级中的位置将所需信息抓取下来。Selenium 在寻找某一个元素时，会在整个网页框架中寻找相关信息，并不能像其他一些网页抓取库一样锁定某一个部分并只在该部分中寻找想要的元素。因此，我们需要将一类信息统一抓取出来，然后剔除一些不需要的信息。这一过程需要反复核对真实网页上显示的信息，以防将不需要的内容抓取出来，影响数据质量。

抓取使用的代码如下：

comment_section = wd.find_element(By.XPATH, '//*[@data-automation="WebPresentation_PoiReviewsAndQAWeb"]')

# user id
user_elements = comment_section.find_elements(By.XPATH, '//div[@class="ffbzW _c"]/div/div/div/span[@class="WlYyy cPsXC dTqpp"]')
user_list = [x.text for x in user_elements]

对于英文评论数据的抓取，除了网页框架有一些区别以外，关于地点的数据要更复杂一些，需要进一步的处理。我们在抓取的过程中，默认逗号为分隔符，逗号前的值为城市，逗号后的值为国家地区。

# location
loca_elements = comment_section.find_elements(By.XPATH,
                                                         '//div[@class="ffbzW _c"]/div/div/div/div/div[@class="WlYyy diXIH bQCoY"]')
loca_list = [x.text[5:] for x in loca_elements]

# trip type
trips_element = comment_section.find_elements(By.XPATH, '//*[@class="eRduX"]')
trip_types = [self.separate_trip_type(x.text) for x in trips_element]

注意，由于评价时间的定位相对困难，文本 class 类别会包含网页景点介绍的信息，我们需要把这部分不需要的数据剔除。

# comment date
comments_date_element = comment_section.find_elements(By.CSS_SELECTOR, '.WlYyy.diXIH.cspKb.bQCoY')

# drop out the first element
comments_date_element.pop(0)
comments_date = [x.text[5:] for x in comments_date_element]

由于用户评分并非文本，我们需要从 HTML 的结构中找到代表它的元素，以此来计算星级多少。在猫途鹰的网页 HTML 中，代表星级的元素是 “bubble”，我们需要在 HTML 结构中找到相关的代码，将代码中的星级数据提取出来。

# rating
rating_element = comment_section.find_elements(By.XPATH,
                                                         '//div[@class="dHjBB"]/div/span/div/div[@style="display: block;"]')
rating_list = []
for rating_code in rating_element:
       code_string = rating_code.get_attribute('innerHTML')
       s_ind = code_string.find(" bubble_")
       rating_score = code_string[s_ind + len(" bubble_"):s_ind + len(" bubble_") + 1]
       rating_list.append(rating_score)

# comments title
comments_title_elements = comment_section.find_elements(By.XPATH,
                                                                   '//*[@class="WlYyy cPsXC bLFSo cspKb dTqpp"]')
comments_title = [x.text for x in comments_title_elements]

# comments content
comments_content_elements = wd.find_element(By.XPATH,
                                                       '//*[@data-automation="WebPresentation_PoiReviewsAndQAWeb"]'
                                                       ).find_elements(By.XPATH, '//*[@class="duhwe _T bOlcm dMbup "]')
comments_content = [x.text for x in comments_content_elements]

在评论中查找图片和寻找星级的逻辑一样，先要在 HTML 结构中找到代表图片的部分，然后在代码中确认评论中是否包含图片信息。

# if review contains pictures
pic_sections = comment_section.find_elements(By.XPATH,
                                                        '//div[@class="ffbzW _c"]/div[@class="hotels-community-tab-common-Card__card--ihfZB hotels-community-tab-common-Card__section--4r93H comment-item"]')
pic_list = []
for r in pic_sections:
       if 'background-image' in r.get_attribute('innerHTML'):
                     pic_list.append(1)
                 else:
                     pic_list.append(0)

综上所述，我们可以将评论数据按照输入景点名和所需评论页数从猫途鹰网站抓取下来并进行整合，最终保存为一个 Pandas DataFrame。

整个过程可以实现自动化，打包成一个名为 data_processor 的 .py 格式文件。如需获取评论数据，我们只需运行以下方程，即可获得 Pandas DataFrame 格式的景点评论信息。

#引入之前定义的Python Class：
from data_processor import WebScrapper
scrapper = WebScrapper()

#运行网页抓取方程抓取中文语料：
trip_review_data = scrapper.trip_advisor_zh_scrapper_runner(location, location_city, location_state, page_n=int(n_pages))

其中 location 代表景点名称，location_city 和 location_state 代表景点所在的城市和省份，page_n 代表需要抓取的页数。

数据入库

在得到抓取的评论数据后，我们可以将数据存进数据库，以便数据分享，进行下一步的分析和建模。以 PieCloudDB Database 为例，我们可以使用 Python 的 Postgres SQL 驱动与 PieCloudDB 进行连接。

本项目实现数据入库的方式是，在获取了评论数据并整合为 Pandas DataFrame 后，我们将借助 SQLAlchemy 引擎将 Pandas 数据通过 psycopg2 上传至数据库。首先，我们需要定义连接数据库的引擎：

from sqlalchemy import create_engine
import psycopg2
engine = create_engine('postgresql+psycopg2://user_name:password@db_ip:port /database')

其中 postgresql + psycopg2 是我们在连接数据库时需要使用的驱动，user_name 是数据库用户名，password 是对应的登陆密码，db_ip 为数据库 ip 或 endpoint，port 为数据库外部连接接口，database 是数据库名称。

将引擎传递给 Pandas 后，我们就可以轻松地将 Pandas DataFrame 上传至数据库，完成入库操作。

data.to_sql(table_name, engine, if_exists=‘replace’, index=False)

data 是我们需要入库的 Pandas DataFrame 数据，table_name 是表名，engine 是我们之前定义的 SQLAlchemy 引擎, if_exists=‘replace’ 和 index=False 则是 Pandas to_sql() 方程的选项。这里选项的含义是，如果表已存在则用现有数据替代已有数据，并且在入库过程中，我们不需要考虑索引。

数据清洗

在这个步骤中，我们会根据原数据的特性对评论数据进行清理，为后续的建模做准备。抓取下来的评论数据包含以下三种类别的信息：

用户信息（如所在地等）
评论信息（如是否包含图片信息等）
评论语料

在正式进入这个步骤前，我们需要导入以下代码库，其中部分代码库会在数据建模步骤使用：

import numpy as np
import pandas as pd
import psycopg2
from sqlalchemy import create_engine
import langid
import re
import emoji
from sklearn.preprocessing import MultiLabelBinarizer
import demoji
import random
from random import sample
import itertools
from collections import Counter
import matplotlib.pyplot as plt

用户信息与评论信息的运用主要在 BI 部分体现，建模部分主要依靠评论语料数据。我们需要根据评论语言采取合适的清理、分词和建模方法。首先，我们从数据库中调取数据，通过以下代码可以实现。

中文评论数据：

df = pd.read_sql('SELECT * FROM "上海_上海_外滩_source_review"', engine)
df.shape

英文评论数据：

df = pd.read_sql('SELECT * FROM "Shanghai_Shanghai_The Bund (Wai Tan)_source_review_EN"', engine)
df.shape

我们在中文版网站抓取了171页评论，每页有10个评论，合计1710条评论；在国际版网站抓取了200页评论，合计2000条评论。

1. 数据类型处理

由于写入数据库的数据都是字符串类型，我们需要先对每一列数据的数据类型进行校对和转换。在中文评论数据中，需要转换的变量是评论时间和评分。

df['comment_date'] = pd.to_datetime(df['comment_date'])
df['rating'] = df['rating'].astype(str)
df['comment_year'] = df['comment_date'].dt.year
df['comment_month'] = df['comment_date'].dt.month

2. 了解数据状况

在处理空值和转换数据之前，我们可以大致浏览一下数据，对空值状况有一个初步的了解。

df.isnull().sum()

中文评论数据的空值大致情况如下：

与中文评论数据不同的是，英文评论数据中需要处理的空白数据要多一些，主要集中在用户所在地和旅行类型两个变量当中。

3. 处理旅行类型空值

对于存在空值的变量，我们可以通过对变量各类别的统计来大致了解其特性。以旅行类型（trip_type）为例，该变量有6种类型，其中一种是用户未表明的旅行类型，这类数据都以空值形式存在：

df.groupby(['trip_type']).size()

因为旅行类型是分类变量，在本项目的情况下，我们用类别“未知”或“NA”填充空值。

中文评论数据：

df['trip_type'] = df['trip_type'].fillna('未知')

英文评论数据：

df['trip_type'] = df['trip_type'].fillna('NA')

在中文评论的文本分析中，旅行类型分为以下六种，与英文是对应的关系：全家游、商务行、情侣游、独自旅行、结伴旅行、未知。为了方便之后的分析，我们需要建立一个查询表，将两种语言的旅行类型对应起来。

zh_trip_type = ['全家游', '商务行', '情侣游', '独自旅行', '结伴旅行', '未知']
en_trip_type = ['Family', 'Business', 'Couples', 'Solo', 'Friends', 'NA']
trip_type_df = pd.DataFrame({'zh_type':zh_trip_type, 'en_type':en_trip_type})

然后将该表写进数据库，以便后续的可视化分析。

trip_type_df.to_sql("tripadvisor_TripType_lookup", engine, if_exists="replace", index=False)

4. 处理英文评论数据中用户所在地信息

在英文评论数据中，由于用户所在地为用户自行填充的信息，地区数据非常混乱，并非按照某一个顺序或者逻辑来填充。城市和国家字段不仅需要处理空值，还需要校正。在抓取数据时，我们抓取地区信息的逻辑为：

如果地区信息用逗号隔开，前一个词为城市，后一个词为国家/省份
如果没有逗号，则默认该信息为国家信息

对于国际版网站的评论分析，我们选择细分用户所在地到国家层级。注意，由于很多用户有拼写错误或填写虚假地名的问题，我们的目标是尽可能地在力所能及的范围内修正信息，如校正大小写、缩写、对应城市信息等。这里，我们的具体解决方法是：

将缩写的国家/省份提取出来并单独处理（以美国为主，用户在填写地区信息时只填写州名）
查看除缩写以外的国家信息，如国家名称未出现在国家列表里，则认为是城市信息
国家字段中出现的城市名错填（如大型城市）和拼写错误问题，则手动修改处理

注意，本项目中使用的国家、地区名参考自国家名称信息来源和美国各州及其缩写来源。

首先，我们从文件系统中读取国家信息：

country_file = open("countries.txt", "r")
country_data = country_file.read()
country_list = country_data.split("\n")
countries_lower = [x.lower() for x in country_list]
读取美国州名及其缩写信息：
state_code = pd.read_csv("state_code_lookup.csv")

下列方程可以读取一个国家名字符串，并判断是否需要清理和修改：

def formating_country_info(s_input):
   if s_input is None: #若字符串输入为空值，返回空值
       return None
   if s_input.strip().lower() in countries_lower: #若字符串输入在国家列表中，返回国家名
       c_index = countries_lower.index(s_input.strip().lower())
       return country_list[c_index]
   else:
       if len(s_input) == 2: #若输入为缩写，在美国州名、墨西哥省名和英国缩写中查找，若可以找到，返回对应国家名称
           if s_input.strip().upper() in state_code["code"].to_list():
               return "United States"
           elif s_input.strip().upper() == "UK":
               return "United Kingdom"
           elif s_input.strip().upper() in ("RJ", "GO", "CE"):
               return "Mexico"
           elif s_input.strip().upper() in ("SP", "SG"):
               return "Singapore"
           else:
               # could not detect country info
               return None
       else: #其他情况，需要手动修改国家名称
           if s_input.strip().lower() == "caior":
               return "Egypt"
           else:
               return None

拥有了清理单个值的方程后，我们可以通过 .apply() 函数将该方程应用至 Pandas DataFrame 中代表国家信息的列中。

df["location_country"] = df["location_country"].apply(formating_country_info)

然后，检查一下清理后的结果：

df["location_country"].isnull().sum()

我们注意到空值的数量有所增加，除了修正部分数据以外，对于一些不存在的地名，以上方程会将其转换为空值。接下来，我们来处理城市信息，并将可能被分类为城市的国家信息补充至国家变量中。我们可以根据国家的名称筛选可能错位的信息，将这类信息作为国家信息的填充，剩下的默认为城市名称。

def check_if_country_info(city_list):
   clean_list = []
   country_fill_list = []
   for city in city_list:
       if city is None:
           clean_list.append(None)
           country_fill_list.append(None)
       elif city.strip().lower() in countries_lower: #如城市变量中出现的是国家名，记录国家名称
           c_index = countries_lower.index(city.strip().lower())
           country_name = country_list[c_index]
           if country_name == "Singapore": #如城市名为新加坡，保留城市名，如不是则将原先的城市名转换为空值
               clean_list.append(country_name)
           else:
               clean_list.append(None)
           country_fill_list.append(country_name)
       else:
           # format city string
           city_name = city.strip().lower().capitalize()
           clean_list.append(city_name)
           country_fill_list.append(None)
   return clean_list, country_fill_list

运行上述方程，我们会得到两个数列，一个为清理后的城市数据，一个为填充国家信息的数据。

city_list, country_fillin = check_if_country_info(df["location_city"].to_list())

在数据中新建一个列，存储填充国家信息的数列。

df["country_fill_temp"] = country_fillin

替换英文评论数据中的城市信息，并将新建的列填充进国家信息的空值中，再将用来填充的列删除。

df["location_city"] = city_list
df["location_country"] = df["location_country"].fillna(df["country_fill_temp"])
df = df.drop(columns=["country_fill_temp"])

至此，我们就讲解完成了本项目中数据采集、数据入库和数据清理步骤的原理和代码实现。虽然处理数据的过程艰辛且漫长，但因此能将大量原始数据转换成有用的数据是非常有价值的。如果大家对于更高阶的数据建模步骤感兴趣，想知道如何实现文本数据的 emoji 分析、分词关键词、文本情感分析、词性词频分析和主题模型文本分类，请持续关注 Data Science Lab 的后续博文。

参考资料：

戴斌 | 春节旅游市场高开全年旅游经济稳增
西湖景区春节接待游客292.86万人次
Scrapy Vs Selenium Vs Beautiful Soup for Web Scraping
Extract Emojis from Python Strings and Chart Frequency using Spacy, Pandas, and Plotly
Topic Modeling with LSA, PLSA, LDA & lda2Vec

本文中部分数据来自互联网，如若侵权，请联系删除

你可能感兴趣的:(Data,Science｜拓数派,python,数据库,数据分析)

MySQL慢SQL优化方案详解：从诊断到根治的完整指南代码剑客588 mysql sql ffmpeg
MySQL慢SQL优化方案详解：从诊断到根治的完整指南一、慢SQL的致命影响当数据库响应时间超过500ms时，系统将面临三大灾难链式反应：用户体验崩塌页面加载超时率上升37%用户跳出率增加52%核心业务转化率下降29%系统稳定性危机连接池耗尽风险提升4.8倍主从同步延迟突破10秒阈值磁盘IO利用率长期超90%运维成本飙升DBA故障处理时间增加65%硬件扩容频率提高3倍夜间告警量激增80%通过监控系
基于IBM Tivoli TSM系统构建某局备份系统实施方案 jaminwm 项目日志
本实施TSM的关键字解释文件备份：指文件级别的数据备份，基于操作系统的文件系统进行备份。数据库备份：指数据库基本的备份。在数据库处于open状态下，对数据库数据进行备份，并保持备份数据的一致性。离线备份：也叫冷备份或脱机备份，一种备份方法，在离线备份中，正在备份的数据在备份过程中不能被应用程序访问。通常用于普通文件备份。在线备份：也叫热备份或联机备份，一种备份方法，在线备份一般使用即时技术来构造原
【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
Python 常用函数全解析，轻松提升编码效率 yang789022 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
全自动文章生成发布构建 PyAIGCMaster 我的学习笔记 python
单机版、定时生成文章和分平台发布，以下是优化后的解决方案及代码示例：---###**推荐方案：APScheduler+内置调度逻辑**选择**APScheduler**是最佳方案，原因：1.**轻量级**：纯Python实现，无需额外服务（如Redis/CeleryWorker）。2.**精准调度**：支持Cron式定时任务（如每天3点生成、8点发布）。3.**单机友好**：直接嵌入代码中，适合打
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
手机租赁系统开发全面解析与实现指南红点租赁系统开发其他
内容概要手机租赁系统的设计理念是为了满足用户对便捷、灵活的手机使用需求。想象一下，谁还愿意花大价钱买一部手机呢？尤其是当新款手机频繁推出时，租赁似乎成了更受欢迎的选择。这个系统旨在让用户可以随时随地选择租用不同型号的手机，极大提升了用户体验。接下来，我们将深入探讨这个系统的技术架构。它通常包含前端界面、后端处理和数据库管理三个核心部分。前端负责与用户交互，后端则处理数据逻辑，而数据库则是存储所有租
Spring Boot实战：MySQL与Redis数据一致性深度解析与代码实战算法探险家 spring boot mysql redis
SpringBoot实战：MySQL与Redis数据一致性深度解析与代码实战一、数据一致性问题概述二、常见解决方案三、选择合适的解决方案四、总结在SpringBoot开发中，MySQL作为关系型数据库，提供了强大的数据存储和查询能力；而Redis作为内存数据库，以其高速读写性能成为缓存层的首选。然而，当这两者共同服务于一个系统时，如何确保它们之间的数据一致性，成为了一个不可忽视的问题。本文将深入探
MySQL常用函数详解及SQL代码示例星河浪人 mysql sql android
MySQL常用函数详解及SQL代码示例引言当前日期和时间函数字符串函数数学函数聚合函数结论引言MySQL作为一种广泛使用的关系型数据库管理系统，提供了丰富的内置函数来简化数据查询、处理和转换。掌握这些函数可以大大提高数据库操作的效率和准确性。本文将详细介绍MySQL中一些常用的函数，并配以SQL代码示例，帮助读者更好地理解和应用这些函数。当前日期和时间函数在当前时间（中国北京时间2025年03月1
OmniParser V2 安装与使用教程 Leaton Lee OmniParser V2 人工智能 deepseek
1.环境准备操作系统：支持Windows/macOS/Linux。Python版本：确保已安装Python3.7或更高版本。包管理工具：使用pip（Python自带）。安装环境：condacreate-n"omni"python==3.12condaactivateomnipipinstall-rrequirements.txt确保您已将V2权重下载到weights文件夹中（确保标题权重文件夹名为
解决Python中递归报错的问题硫酸锌01 Python python
1、问题背景Duringhandlingoftheaboveexception,anotherexceptionoccurred:有没有见到过这个报错？当出现这个报错的时候，意味着报错信息特别特别地长，难以关注到有效信息。那么这种报错是如何产生的？以及如何设计才能避免产生这种冗长的报错？2、我的需求如果我有一个Python的多维数组列表：lst=[[[1,2],[3,4]],[[5,6],[7,8
蓝桥杯Python赛道备赛——Day6：算术（二）（数学问题） SKY YEAM 蓝桥杯备赛蓝桥杯 python 职场和发展
本期博客是蓝桥杯备赛中算术（数学问题）的第二期，包括：快速幂算法、逆元（模意义下的倒数）、组合数计算和排列数计算。每一种数学问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法算术（二）（数学问题）一、快速幂算法二、逆元（模意义下的倒数）三、组合数计算四、排列数计算一、快速幂算法1.定义：快速计算大指数幂的算法。2.算法原理：二进
蓝桥杯Python赛道备赛——Day1：基础算法 SKY YEAM 蓝桥杯备赛蓝桥杯 python 算法
本博客就蓝桥杯中的基础算法（这一部分说是算法，但更是一些简单的操作）进行罗列，包括：枚举、模拟、前缀和、差分、二分查找、进制转换、贪心、位运算和双指针。每一个算法都在给出概念解释的同时，给出了示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法（2）PythonOOP（面向对象编程）基础算法（操作）一、枚举二、模拟三、前缀和四、差分五、二分查找六、进制转换七、贪心八、位运
如何用python做一个小程序进行炒股？大懒猫软件 python 小程序开发语言
使用Python分析股票的完整程序以下是一个完整的Python程序，展示如何获取股票数据、进行数据清洗、计算技术指标、并进行简单的价格走势分析。1.安装必要的库首先，确保安装了必要的库：bash复制pipinstallrequestspandasmatplotlibyfinance2.获取股票数据使用yfinance库获取股票数据。yfinance是一个流行的库，可以方便地从雅虎财经获取股票数据。
Spring Boot 整合 Redis 使用教程小小鸭程序员 spring java spring boot mysql redis
Redis是一种高性能的键值存储数据库，常用于缓存、会话管理和消息队列等场景。SpringBoot通过SpringDataRedis提供了简洁的整合方式。1.环境准备1.1添加依赖在pom.xml中添加Redis依赖（SpringBoot3.x）：org.springframework.bootspring-boot-starter-data-redisredis.clientsjedis2.配置
蓝桥杯Python赛道备赛——Day7：动态规划（基础） SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就蓝桥杯中所涉及的动态规划基础问题进行讲解，包括：递推、记忆化搜索、最长公共子序列（LCS）和最长上升子序列（LIS）。每一种动态规划问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法动态规划（基础）一、递推（迭代法）二、记忆化搜索（递归+缓存）三、最长公共子序列（LCS）四、最长上升子序列（LIS）一、递推（迭代法）定义
链上赋能：智能合约重塑供应链管理 Echo_Wish 前沿技术人工智能智能合约 linux 运维
链上赋能：智能合约重塑供应链管理供应链是现代经济活动的核心，而复杂的供应链环节常常面临诸多挑战：数据孤岛、信息不透明、操作低效甚至信任危机。这些问题不仅增加了运营成本，还导致资源浪费。随着区块链技术的兴起，供应链管理迎来了新的解决方案，其中智能合约（SmartContract）作为区块链的重要组成部分，正在颠覆传统的供应链管理模式。在本文中，我将结合Python开发与智能合约，探讨智能合约在供应链
数字孪生技术在工业制造中的应用探索知识产权13937636601 计算机制造人工智能
一、数字孪生：工业4.0的虚实纽带1.1技术定义与发展脉络数字孪生（DigitalTwin）通过实时数据映射，在虚拟空间构建物理实体的动态镜像。其演进历程：概念萌芽（2002年）：NASA首次提出用于航天器健康监测技术成型（2012年）：通用电气（GE）将其引入工业领域规模化应用（2020年至今）：全球市场规模达$86亿美元，年增速31%（Gartner数据）1.2工业场景的核心价值维度传统模式数
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
如何在Spring Boot中配置和使用MyBatis-Plus 字节王德发 java技术 spring boot mybatis 后端
在当今的Java开发中，SpringBoot已经成为了一个非常流行的框架，而MyBatis-Plus则是一个强大的ORM框架，为开发人员提供了更简便的数据库操作方式。很多开发者都在使用SpringBoot和MyBatis-Plus的组合来快速构建高效的应用。今天就来聊聊如何在SpringBoot项目中配置和使用MyBatis-Plus，帮助你更好地理解这两者的结合。创建SpringBoot项目首先
1.4使用pandas读取和写入Excel文件的基本操作林伽一 python处理excel pandas excel python
读取和写入Excel文件是使用Python处理Excel的基本操作。在Python中，可以使用不同的库来实现这些操作，例如pandas、openpyxl等。以下是读取和写入Excel文件的基本操作示例：读取Excel文件使用pandas库读取Excel文件非常方便。下面的示例演示了如何使用pandas读取Excel文件：importpandasaspd#读取Excel文件df=pd.read_ex
Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
Debezium系列之：使用Debezium采集oceanbase数据库快乐骑行^_^ debezium Debezium系列采集oceanbase数据库
Debezium系列之：使用Debezium采集oceanbase数据库一、oceanbase数据库二、安装OceanBase三、安装oblogproxy四、基于Docker的简单采集案例五、生产实际应用案例Debezium是一个开源的分布式平台，用于监控数据库变化和捕捉数据变动事件，并以事件流的形式导出到各种消费者。Debezium基于ApacheKafka实现，并支持多种数据库系统。一、oce
UdpClient 呆呆敲代码的小Z c#
Socket实现Udp的发送和接收usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Linq;usingSystem.Net;usingSystem.Net.Sockets;usingSystem.Text;u
JPA 实战经验 jpajava
这个博客会持续更新...JSON数据无法进行更新背景：数据库字段是json格式，代码Entity中字段使用了@Converter进行类型转换，对象本身是个List，产生的效果是查询生效，插入生效，更新不生效。怀疑方向：List对象实例ID发生变更了导致未识别@Converter转换器类型有问题尝试以上操作之后，问题依旧。最后，发现自己搞错概念了，把字段与关联表概念搞混了，它本质是一个字段，JPA对
数据库的基本概念咖啡の猫数据库
在当今数字化的世界中，数据已成为企业和组织最宝贵的资产之一。有效地管理和利用这些数据对于决策制定、服务优化和业务增长至关重要。数据库作为存储、管理及检索数据的核心工具，在现代信息系统中扮演着至关重要的角色。本文将介绍数据库的一些基本概念，包括其定义、类型、结构以及一些基本操作。一、什么是数据库？数据库（Database）是指按照一定的结构来组织、存储和管理数据的仓库。它允许用户方便地进行数据的添加
122.HarmonyOS NEXT 数字滚动动画详解(二)：动画实现机制 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT数字滚动动画详解(二)：动画实现机制效果演示1.动画实现概述数字滚动动画通过控制每个数字的Y轴偏移量来实现滚动效果，使用animateTo方法来创建平滑的过渡动画。2.数据刷新机制2.1刷新触发@Watch('onDataRefresh
近期docker镜像加速器被封杀，需要的请看此内容点赞加关注加油干sit！ docker docker
{“registry-mirrors”:[“https://docker.m.daocloud.io”],“insecure-registries”:[“harbor.sunya.com”],“exec-opts”:[“native.cgroupdriver=systemd”],“data-root”:“/data/docker”,“log-driver”:“json-file”,“log-opt
python颜色参数_python matplotlib:plt.scatter() 大小和颜色参数详解 weixin_39926311 python颜色参数
语法plt.scatter(x,y,s=20,c='b')大小s默认为20，s=0时点不显示；颜色c默认为蓝色。为每一个点指定大小和颜色有时我们需要为每一个点指定大小和方向，以区分不同的点。这时，可以向s和c传入列表。如：importmatplotlib.pyplotaspltimportnumpyasnpx=list(range(1,7))plt.scatter(x,x,s=10*np.arra
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

数据科学在文本分析中的应用 ：中英文 NLP（上）