gpt886

python数据分析课程内容,python数据分析作业代码

大家好，给大家分享一下python数据分析期末大作业报告，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！

涉及知识

自动打开想要获取到数据的页面

绘制统计图

初步设计过程

自动化测试

所需数据包

初步过程分析

爬取数据

所需数据包

初步过程分析

数据分析与可视化（绘图）

所需数据包

各类统计图简介：

详细设计过程

导入所有数据包与数据集

数据分析

数据情况预览

数据获取与分析

存储

涉及知识

按照实验完成顺序：

·自动化测试:selenium

·爬虫：requests

·数据解析：json

·数据清洗

·数据分析：numpy,matpltlib,pandas

自动打开想要获取到数据的页面

（1）注意伪装好，绕过浏览器识别；

（2）反反爬PHP与PYTHON：基于语法，功能，应用程序等的详细比较。

绘制统计图

（1）注意即将绘制的图是否有缺失值等；

（2）注意查看数据问题```*``

初步设计过程

自动化测试

所需数据包

from selenium import webdriver

from time import sleep

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

初步过程分析

（1）确定浏览器版本，下载相应驱动python官网下载后怎么安装。

（2）防止浏览器自动关闭

option = webdriver.EdgeOptions()

option.add_experimental_option('excludeSwitches', ['enable-automation'])

option.add_experimental_option("detach", True)

driver = webdriver.Edge(executable_path='./edge driver', options=option)

（3）进入12306官网，寻找相应标签，定位元素位置（id, name, class, tag, xpath, css, link等）。

（4）一些网站具有反爬机制，反爬方式多种多样，12306中为验证码滑块，主要用到行为链，让浏览器识别不到爬虫。

具体操作：找到滑块id（'nc_1_n1z'），创建对象，判断，执行。

（5) 成功登录后，有目的性地寻找所需标签，模仿鼠标与键盘响应方式。常见的一些方法如下：click(),clear(),send_keys(),perform()等。如下所示：

（6）此次实验，我没有完成最后一步，因为12306每天只有三次取消订单机会，而且我最近测试次数比较多，害怕被拉入黑名单。

（7）完成这些之后，开始爬取当前页面我们想要的数据。

爬取数据

所需数据包

import requests

import pandas as pd

import json

from tqdm import tqdm

初步过程分析

（1）确定目标网址：

如我要获取12306中从太原南到侯马西，往返，2022-11-19日的所有车票信息，网址如下图所示，除此之外，仍然要做好伪装，如下图 3.11所示，其中User-Agent（用户代理，浏览器基本身份标识），Cookie（用户信息，常用于检测是否登陆账号）都是用来伪装的。

（2）获取网页数据：

获取网页数据，也就是通过网址（ URL：Uniform Resource Locator,统一资源定位符），获得网络的数据，充当搜索引擎。当输入网址，我们就相当于对网址服务器发送了一个请求，网站服务器收到以后，进行处理和解析，进而给我们一个相应的相应。如果网络正确并且网址不错，一般都可以得到网页信息，否则告诉我们一个错误代码，比如404. 整个过程可以称为请求和响应。

常见的请求方法有两种，GET和 POST。GET请求是把参数包含在了url里面，而post请求大多是在表单里面进行，也就是让你输入用户名和秘密，在url里面没有体现出来，这样更加安全。POST请求的大小没有限制，而get请求有限制，最多1024个字节。

通过requests数据请求模块里的get请求方法，对于url地址发送请求，携带上headers请求头伪装，最后用response变量接收返回数据。

（3）解析网页数据：

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。在Python中的json应用就是实现一些数据结构（列表、元组、字典）到字符串之间的转换，当数据结构变为字符串之后就很容易在程序之间传递。Python中序列化指的是将Python中的数据结构（列表、元组、字典）编码转换为JSON格式的字符串；而反序列化指的是将JSON格式的字符串编码转换为Python中的数据结构（列表、元组、字典）；元组经过序列化处理后，再通过反序列化处理后，数据类型不再是元组（而是列表）；但列表、字典经过序列化处理后，再通过反序列化处理后，数据类型不变。

JSON在python中分别由list和dict组成。

BeautifulSoup是用来从HTML或XML中提取数据的Python库。

（4）存储数据并分析：

解析完成后，由于数据不是很多，用不到数据库，我选择了保存在csv文本，如下：content.to_csv('data.csv',encoding='gbk')，这样会生成data.csv，可以直接文件中查询。

爬虫的目的是分析网页数据，进的得到我们想要的结论。在 python数据分析中，我们可以使用使用第三步保存的数据直接分析，主要使用的库如下：NumPy、Pandas、 Matplotlib 三个库。

NumPy ：它是高性能科学计算和数据分析的基础包。

Pandas : 基于 NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。它可以算得上作弊工具。

Matplotlib：Python中最著名的绘图系统Python中最著名的绘图系统。它可以制作出散点图，折线图，条形图，直方图，饼状图，箱形图散点图，折线图，条形图，直方图，饼状图，箱形图等。

（5）完成以上步骤后，可以得到想要的数据。

数据分析与可视化（绘图）

所需数据包

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

import math

各类统计图简介：

折线图：比较适合描述和比较多组数据随时间变化的趋势，或者一组数据对另外一组数据的依赖程度。plot(*args,**kwargs)。

散点图：比较适合描述数据在平面或空间中的分布，可以用来帮助分析数据之间的关联，或者观察聚类算法的选择和参数设置对聚类效果的影响。Scatter(x,y,s=None,marker=None,…)。

柱状图：适合用来比较多组数据之间的大小，或者类似的场合，但对大规模数据的可视化不是很适合。

bar（left,height,width=0.8,bottom=None,hold=None,data=None,**kwargs）。

饼状图：比较适合展示一个总体中各类别数据所占的比例。

pie（x,labels,colors,center…）。

雷达图：也称极坐标图，星图，蜘蛛网图，常用于企业经营状况的分析，可以直观地表达企业经营状况全貌，便于企业管理者及时发现薄弱环节进行改进，也可以用于发现异常值。polor（*args,**kwargs）。

详细设计过程

导入所有数据包与数据集

from selenium import webdriver

from time import sleep

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

import requests

import pandas as pd

import json

from tqdm import tqdm

from bs4 import BeautifulSoup

import csv

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

import math

数据分析

数据情况预览

（1）显示想要获得的车票信息

需要注意，pycharm中输出为中文会错行。

（2）显示查询到的天气信息

数据获取与分析

（1）行为链

span = driver.find_element(By.ID,'nc_1_n1z')

action = ActionChains(driver)

action.click_and_hold(span)

for i in range(10):

action.move_by_offset(35, 0).perform()

sleep(0.1)

action.release()

让验证滑块自己滑过去。

Action：创建对象；

action.move_by_offset(x, y).perform()：x表示横向滑动距离，y表示纵向滑动距离；preform()表示立即执行；

action.release()：释放行为链。

（2）获取车票上各信息出处

url：

我们只能搜索固定的站点之间的信息，将其分割，查询索引

代码：

result = response.json()['data']['result']

lis = []

for index in result:

info = index.replace('有','Y').replace('无','N').split('|')

page = 0

for i in index.split('|'):

print(i)

print('-------',page)

page += 1

print(info)

break

通过上述代码完成以下索引分配：

num = info[3]

start_time = info[8]

end_time = info[9]

use_time = info[10]

topGrade = info[32]

first_class = info[31]

second_class = info[30]

soft_sleeper = info[23]

hard_sleeper = info[28]

hard_seat = info[29]

no_seat = info[26]

（3）获取一天内天气预报信息

利用beaytifulSoup解析会比较方便，

BeautifulSoup是用来从HTML或XML中提取数据的Python库。

一天内温度变化：

hour = list(data['小时'])

tem = list(data['温度'])

tem_ave = sum(tem) / 24

tem_max = max(tem)

tem_max_hour = hour[tem.index(tem_max)]

tem_min = min(tem)

tem_min_hour = hour[tem.index(tem_min)]

x = []

y = []

for i in range(0, 24):

x.append(i)

y.append(tem[hour.index(i)])

plt.figure(1)

plt.plot(x, y, color='#4a9de4', label='温度')

plt.scatter(x, y, color='#3d00ff')

plt.plot([0, 24], [tem_ave, tem_ave], c='#2d9ac1', linestyle='--', label='平均温度')

plt.text(tem_max_hour + 0.15, tem_max + 0.15, str(tem_max), ha='center', va='bottom', fontsize=10.5)

plt.text(tem_min_hour + 0.15, tem_min + 0.15, str(tem_min), ha='center', va='bottom', fontsize=10.5)

plt.xticks(x)

plt.legend()

一天内相对湿度变化：

hour = list(data['小时'])

hum = list(data['相对湿度'])

for i in range(0, 24):

if math.isnan(hum[i]) == True:

hum[i] = hum[i - 1]

hum_ave = sum(hum) / 24

hum_max = max(hum)

hum_max_hour = hour[hum.index(hum_max)]

hum_min = min(hum)

hum_min_hour = hour[hum.index(hum_min)]

x = []

y = []

for i in range(0, 24):

x.append(i)

y.append(hum[hour.index(i)])

plt.figure(2)

plt.plot(x, y, color='#356be6', label='相对湿度')

plt.scatter(x, y, color='blue')

plt.plot([0, 24], [hum_ave, hum_ave], c='#4900fc', linestyle='--', label='平均相对湿度')

plt.text(hum_max_hour + 0.15, hum_max + 0.15, str(hum_max), ha='center', va='bottom', fontsize=10.5)

plt.text(hum_min_hour + 0.15, hum_min + 0.15, str(hum_min), ha='center', va='bottom', fontsize=10.5)

plt.xticks(x)

plt.legend()

一天内空气质量变化：

hour = list(data['小时'])

air = list(data['空气质量'])

print(type(air[0]))

for i in range(0, 24):

if math.isnan(air[i]) == True:

air[i] = air[i - 1]

air_ave = sum(air) / 24

air_max = max(air)

air_max_hour = hour[air.index(air_max)]

air_min = min(air)

air_min_hour = hour[air.index(air_min)]

x = []

y = []

for i in range(0, 24):

x.append(i)

y.append(air[hour.index(i)])

plt.figure(3)

for i in range(0, 24):

if y[i] <= 50:

plt.bar(x[i], y[i], color='lightgreen', width=0.7)

elif y[i] <= 100:

plt.bar(x[i], y[i], color='wheat', width=0.7)

elif y[i] <= 150:

plt.bar(x[i], y[i], color='orange', width=0.7)

elif y[i] <= 200:

plt.bar(x[i], y[i], color='orangered', width=0.7)

elif y[i] <= 300:

plt.bar(x[i], y[i], color='darkviolet', width=0.7)

elif y[i] > 300:

plt.bar(x[i], y[i], color='maroon', width=0.7)

plt.plot([0, 24], [air_ave, air_ave], c='black', linestyle='--')

plt.text(air_max_hour + 0.15, air_max + 0.15, str(air_max), ha='center', va='bottom', fontsize=10.5)

plt.text(air_min_hour + 0.15, air_min + 0.15, str(air_min), ha='center', va='bottom', fontsize=10.5)

plt.xticks(x)

一天内风级变化：

wind = list(data['风力方向'])

wind_speed = list(data['风级'])

for i in range(0, 24):

if wind[i] == "北风":

wind[i] = 90

elif wind[i] == "南风":

wind[i] = 270

elif wind[i] == "西风":

wind[i] = 180

elif wind[i] == "东风":

wind[i] = 360

elif wind[i] == "东北风":

wind[i] = 45

elif wind[i] == "西北风":

wind[i] = 135

elif wind[i] == "西南风":

wind[i] = 225

elif wind[i] == "东南风":

wind[i] = 315

degs = np.arange(45, 361, 45)

temp = []

for deg in degs:

speed = []

for i in range(0, 24):

if wind[i] == deg:

speed.append(wind_speed[i])

if len(speed) == 0:

temp.append(0)

else:

temp.append(sum(speed) / len(speed))

print(temp)

N = 8

theta = np.arange(0. + np.pi / 8, 2 * np.pi + np.pi / 8, 2 * np.pi / 8)

radii = np.array(temp)

plt.axes(polar=True)

colors = [(1 - x / max(temp), 1 - x / max(temp), 0.6) for x in radii]

plt.bar(theta, radii, width=(2 * np.pi / N), bottom=0.0, color=colors)

（4）获取十四天天内天气预报信息

如所示：

未来14天温度变化：

date = list(data['日期'])

tem_low = list(data['最低气温'])

tem_high = list(data['最高气温'])

for i in range(0, 14):

if math.isnan(tem_low[i]) == True:

tem_low[i] = tem_low[i - 1]

if math.isnan(tem_high[i]) == True:

tem_high[i] = tem_high[i - 1]

tem_high_ave = sum(tem_high) / 14

tem_low_ave = sum(tem_low) / 14

tem_max = max(tem_high)

tem_max_date = tem_high.index(tem_max)

tem_min = min(tem_low)

tem_min_date = tem_low.index(tem_min)

x = range(1, 15)

plt.figure(1)

plt.plot(x, tem_high, color='red', label='高温')

plt.scatter(x, tem_high, color='red')

plt.plot(x, tem_low, color='blue', label='低温')

plt.scatter(x, tem_low, color='blue')

plt.plot([1, 15], [tem_high_ave, tem_high_ave], c='black', linestyle='--')

plt.plot([1, 15], [tem_low_ave, tem_low_ave], c='black', linestyle='--')

plt.legend()

plt.text(tem_max_date + 0.15, tem_max + 0.15, str(tem_max), ha='center', va='bottom', fontsize=10.5)

plt.text(tem_min_date + 0.15, tem_min + 0.15, str(tem_min), ha='center', va='bottom', fontsize=10.5)

plt.xticks(x)

未来14天风级图：

wind1 = list(data['风向1'])

wind2 = list(data['风向2'])

wind_speed = list(data['风级'])

wind1 = change_wind_direction14(wind1)

wind2 = change_wind_direction14(wind2)

degrees = np.arange(45, 361, 45)

temp = []

for degree in degrees:

speed = []

# 获取 wind_deg 在指定范围的风速平均值数据

for i in range(0, 14):

if wind1[i] == degree:

speed.append(wind_speed[i])

if wind2[i] == degree:

speed.append(wind_speed[i])

if len(speed) == 0:

temp.append(0)

else:

temp.append(sum(speed) / len(speed))

print(temp)

N = 8

theta = np.arange(0. + np.pi / 8, 2 * np.pi + np.pi / 8, 2 * np.pi / 8)

# 数据极径

radii = np.array(temp)

# 绘制极区图坐标系

plt.axes(polar=True)

# 定义每个扇区的RGB值（R,G,B），x越大，对应的颜色越接近蓝色

colors = [(1 - x / max(temp), 1 - x / max(temp), 0.6) for x in radii]

plt.bar(theta, radii, width=(2 * np.pi / N), bottom=0.0, color=colors)

未来14天气候分布：

weather = list(data['气温'])

dic_wea = { }

for i in range(0, 14):

if weather[i] in dic_wea.keys():

dic_wea[weather[i]] += 1

else:

dic_wea[weather[i]] = 1

print(dic_wea)

explode = [0.01] * len(dic_wea.keys())

color = ['yellow', 'salmon', '#cd89fe', 'grey', 'silver', '#3b7afd', '#2ce1e2', '#00ef00', 'pink']

plt.pie(dic_wea.values(), explode=explode, labels=dic_wea.keys(), autopct='%1.1f%%', colors=color)

（3）判断数据中给定数字是否有假。

math.isnan()方法是数学模块的库方法，用于检查给定数字是否为“ NaN” (不是数字)，它接受一个数字，如果给定数字为“ NaN” ，则返回True ，否则返回False 。

存储

content.to_csv('data.csv',encoding='gbk')

write_to_csv('weather14.csv', data14,14)

write_to_csv('weather1.csv', data1_7,1)

你可能感兴趣的:(信息可视化)

JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
android查看so路径
之前遇到过一个问题，apk中有一个so无法确定其路径，是由哪个依赖引入的，网上查询一番后这里记录一下。build.gradle中添加如下任务//列出所有包含有so文件的库信息tasks.whenTaskAdded{task->if(task.name=='mergeDebugNativeLibs'){//如果是有多个flavor，则用mergeFlavorDebugNativeLibs的形式tas
Docker指定网桥和指定网桥IP
$dockernetworklsNETWORKIDNAMEDRIVER7fca4eb8c647bridgebridge9f904ee27bf5nonenullcf03ee007fb4hosthostBridge默认bridge网络,我们可以使用dockernetworkinspect命令查看返回的网络信息，我们使用dockerrun命令是将网络自动应用到新的容器Host如果是hosts模式，启动容
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
.NET中的强名称和签名机制
.NET中的强名称（StrongName）和签名机制是.NETFramework引入的一种安全性和版本控制机制。以下是关于.NET中强名称和签名机制的详细解释：强名称定义：强名称是由程序集的标识加上公钥和数字签名组成的。程序集的标识包括简单文本名称、版本号和区域性信息（如果提供的话）。作用：强名称主要用于确保程序集的唯一性和完整性。通过签发具有强名称的程序集，可以确保名称的全局唯一性，防止名称冲突
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
GoView 强势入驻 GitCode：拖拽低代码，打造高颜值数据大屏 GitCode 代码君 gitcode 低代码开源
信息可视化时代，数字大屏日益成为展示核心KPI、运营状态、监控预警的主流形式。然而，用传统方式开发一个定制化数字大屏需要解决多少问题？1.繁复的数据源集成，各种不同的协议和格式……2.让人晕头转向的可视化逻辑，调动艰难的样式、布局、动画，和往往难以统一的风格3.牵一发而动全身的代码结构，就想换个主题色结果开启的全局CSS大冒险……现在，一个开源项目即可搞定上述问题——拖拽式低代码数字可视化平台Go
为Layui Table组件添加前端搜索功能 caifox菜狐狸 JavaScript 学习之旅：从新手到专家前端 layui javascript table 前端搜索表格搜索前端框架
在现代Web开发中，数据展示和交互功能是构建高效、用户友好界面的关键要素之一。Layui作为一款广受欢迎的前端UI框架，以其简洁的代码、丰富的组件和强大的功能，为开发者提供了极大的便利。其中，Layui的Table组件更是以其强大的数据展示能力和灵活的配置选项，成为了许多项目中不可或缺的部分。然而，在实际应用中，仅仅展示数据往往是不够的。用户通常需要根据自己的需求快速查找特定信息，这就需要为表格添
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
iOS 获取Wifi信息
背景智能硬件入网的时候，硬件端通常需要通过WiFi入网，这种情况，可能需要App获取WiFi信息，来做WiFi匹配，同时也可以减少用户填写的信息。智能硬件WiFi入网方式利用HomeKit流程入网，然后利用Boujour绑定设备App连接硬件WiFi,将有网WiFi的信息通过http或者蓝牙方式发送给硬件（需要用户选择wifi，且可能有网WiFi是硬件不支持的，比如部分硬件不支持5GWiFi）部分
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
线性代数同济教材每一部分的现实意义 ZhuBin365 其它算法
一、行列式(Determinants)的现实意义：不仅仅是数字，而是“尺度”和“特性”行列式虽然计算结果是一个数值，但它绝不是一个孤立的数字，它在现实世界中代表着“尺度”和“特性”的重要信息：现实意义核心：“衡量变化的能力”和“判定系统特性”“尺度”：衡量体积/面积的缩放比例：在现实世界中，很多变换都会改变物体的形状和大小。行列式就像一个“尺度”，衡量了线性变换对面积(二维)或体积(三维及以上)的
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

python数据分析 课程内容,python数据分析作业代码

涉及知识

自动打开想要获取到数据的页面

绘制统计图

初步设计过程

自动化测试

所需数据包

初步过程分析

爬取数据

所需数据包

初步过程分析

数据分析与可视化（绘图）

所需数据包

各类统计图简介：

详细设计过程

导入所有数据包与数据集

数据分析

数据情况预览

数据获取与分析

存储

你可能感兴趣的:(信息可视化)

python数据分析课程内容,python数据分析作业代码