꧁༺北海以北的等待༻꧂

数据分析实战 -- 股票量化交易分析

前景提要

大二实习结束过去五个多月了。
当时入职数据分析还算是有点基础进入的公司。
如今这么久不学数据分析了，似乎都有点生疏了。
今天写个数据分析实战，为了弥补一下亏欠粉丝的承诺吧。

主要目标

使用Python爬取股票数据
数据清洗并上传至HDFS
使用PyHive对股票数据进行分析
Python数据分析-量化交易

股票量化交易分析

使用Python爬取股票数据

我们这次的目标地址是url:网易行情中心沪深行情
在这个网站里面找到行业面板，里面随便点开一个行业信息，我在这里点开通用设备制造。
因为我看见这些行业中，通用设备制造里面的股份有点多，所以以这个为例，其他均相同。

点开后会进入该行业的行情中心，我们找到一个你觉得顺眼的股份点击进入，查看某一个股份信息，我们这次实战根据一个股份来做分析统计。其余均相同。

我们进入一个股份后，为了减轻我们的负担，使用该网页自带的下载数据功能下载，点开资金流向里面的历史交易数据，将之前的数据通通下载到本地。

在谷歌的下载内容里面找到我们刚才下载下来的文件。
如果想和我下一样的，请点击这个链接

分析URL下载地址

当然我们做量化交易不能单独使用一支股票作为我们的数据，我们还需要使用爬虫使我们的数据量最大化。
我们观察一下网页的链接地址：http://quotes.money.163.com/service/chddata.html?code=0601318&start=20070301&end=20180301&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP
大致分析一下，可以发现code值就是股票代码，start和end分别是开始和结束的日期，那就通过修改参数进行批量下载吧。以通用设备制造为例，我们首先进入这个网站

寻找XML地址

我们刷新该网页，点开XML选项，从第一个开始寻找每一个股份都在哪里。
发现第三个XML就是我们要寻找的。
里面的东西很全。Preview是返回的序列，pagecount是当前金融类的总页数，知道页数就可以循环拿到所有的股票数据了。

初学爬虫简单介绍一下数据采集

requests 模块

# 1、get无参数实例  
import requests  
ret = requests.get('https://www.baidu.com/')  
# 2、get有参数实例  
import requests  
payload = {
     'key1': 'value1', 'key2': 'value2'}  
ret = requests.get("https://www.baidu.com/", params=payload)  
# 1、基本post实例  
import requests  
payload = {
     'key1': 'value1', 'key2': 'value2'}  
ret = requests.post("https://www.baidu.com/", data=payload)  
  
# 2、post发送请求头和数据实例  
import requests  
import json  
url = 'https://www.baidu.com/'  
payload = {
     'some': 'data'}  
headers = {
     'content-type': 'application/json'}  
ret = requests.post(url, data=json.dumps(payload), headers=headers)

GET请求的数据会附在URL之后（就是把数据放置在HTTP协议头中），以?分割URL和传输数据，参数之间以&相连，如果数据是英文字母/数字，原样发送，如果是空格，转换为+，如果是中文/其他字符，则直接把字符串用BASE64编码；POST把提交的数据则放置在是HTTP包的包体中。

对于多线程和多进程的缺点是在IO阻塞时会造成了线程和进程的浪费，所以异步IO是首选，在该实战中用到的是gevent + requests

import gevent  
import requests  
from gevent import monkey  
monkey.patch_all()  
def fetch_async(method, url, req_kwargs):  
   print(method, url, req_kwargs)  
   response = requests.request(method=method, url=url, **req_kwargs)  
   print(response.url, response.content)  
# ##### 发送请求 #####  
gevent.joinall([  
   gevent.spawn(fetch_async, method='get', url='https://www.python.org/', req_kwargs={
     }),  
   gevent.spawn(fetch_async, method='get', url='https://www.yahoo.com/', req_kwargs={
     }),  
   gevent.spawn(fetch_async, method='get', url='https://github.com/', req_kwargs={
     }),  
])  
# ##### 发送请求（协程池控制最大协程数量） #####  
# from gevent.pool import Pool  
# pool = Pool(None)  
# gevent.joinall([  
#     pool.spawn(fetch_async, method='get', url='https://www.python.org/', req_kwargs={}),  
#     pool.spawn(fetch_async, method='get', url='https://www.yahoo.com/', req_kwargs={}),  
#     pool.spawn(fetch_async, method='get', url='https://www.github.com/', req_kwargs={}),  
# ])

编写程序设计

我们首先建立一个文件夹，里面包含四个文件夹。
文件夹含义：
bin：项目的执行文件
conf：配置文件
core：核心代码文件
share：共享文件

我们在bin目录下创建python代码，名字叫crawler_start.py
我们在conf目录下创建python代码，名字叫setting.py
我们在core目录下创建python代码，名字叫crawler_main.py

编辑bin/crawler_start.py，内容如下：

import os  
import sys  
base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))  
sys.path.append(base_dir)  
from core import crawler_main  
if __name__ == '__main__':  
   crawler_main.run()

启动文件程序比较简单，base_dir是项目根目录的绝对路径，把这个路径加入到python环境变量中，这样就可以导入core下的crawler_main。
编辑conf/settings.py，内容如下：

import os  
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))  
# 股票的行业ID  
INDUSTRY_ID = {
     "financial_ID": "hy010000",  
              "medicine_ID": "hy003014", }  
# 行业对应的数据先设置为空，主程序中存储股票代码的序列  
STOCK_CODE = {
     "financial": None,  
             "medicine": None, }

settings文件中主要存放固定的常量。
编辑core/crawler_main.py，内容如下：

# coding:utf-8  
import os  
import json  
import gevent  
import requests  
from gevent import monkey  
from gevent.pool import Pool  
from conf import settings  
# 把标准库中的thread/socket等给替换掉.这样我们在后面使用socket的时候可以跟平常一样使用,无需修改任何代码,但是它变成非阻塞的了  
monkey.patch_all()  
def get_code(industry_id, page_num=0):  
   """  
  访问行业概况的页面，获取json序列；  
  拿到页面总数，循环当前行业的股票代码存到列表中。  
  :param industry_id:股票行业的代码  
  :param page_num:网页的页面数  
  :return:返回一个列表，存的是当前行业所有的股票代码  
  """  
   temp = []  
   industry_url = 'http://quotes.money.163.com/hs/service/diyrank.php?host=http%3A%2F%2Fquotes.money.163.com%2Fhs%2Fservice%2Fdiyrank.php&page={page_num}&query=PLATE_IDS%3A{industry_id}&fields=NO%2CSYMBOL%2CNAME%2CPRICE%2CPERCENT%2CUPDOWN%2CFIVE_MINUTE%2COPEN%2CYESTCLOSE%2CHIGH%2CLOW%2CVOLUME%2CTURNOVER%2CHS%2CLB%2CWB%2CZF%2CPE%2CMCAP%2CTCAP%2CMFSUM%2CMFRATIO.MFRATIO2%2CMFRATIO.MFRATIO10%2CSNAME%2CCODE%2CANNOUNMT%2CUVSNEWS&sort=PERCENT&order=desc&count=24&type=query'  
   response = requests.get(  
       industry_url.format(  
           page_num=page_num, industry_id=industry_id),  
  )  
   list_obj = json.loads(response.text)  
   page = list_obj["page"]  
   pagecount = list_obj["pagecount"]  
   for i in list_obj["list"]:  
       temp.append(i["CODE"])  
   for i in range(page + 1, pagecount):  
       response = requests.get(  
           industry_url.format(  
               page_num=i, industry_id=industry_id),  
      )  
       list_obj = json.loads(response.text)  
       for j in list_obj["list"]:  
           temp.append(j["CODE"])  
   return temp  
def fetch_async(method, url, args):  
   """  
  当一个greenlet遇到IO操作时，比如访问网络，  
  就自动切换到其他的greenlet，等到IO操作完成，  
  再在适当的时候切换回来继续执行。由于IO操作非常耗时，  
  经常使程序处于等待状态，有了gevent为我们自动切换协程，  
  就保证总有greenlet在运行，而不是等待IO。  
  :param method:请求方式  
  :param url:网页地址  
  :param args:字典  
  :return:  
  """  
   response = requests.request(method=method, url=url)  
   print(url)  
   try:  
       g = response.iter_lines()  
       next(g)  
       with open(os.path.join(settings.BASE_DIR, "share", args["save_dir"], args["stock_code"] + ".csv"), "w", encoding="utf-8") as wf:  
           wf.write(next(g).decode(encoding='gbk') + '\n')  
           for row in g:  
               if row != b'':  
                   wf.write(row.decode(encoding='gbk') + '\n')  
   except StopIteration:  
       os.remove(os.path.join(settings.BASE_DIR, "share", args["save_dir"], args["stock_code"] + ".csv"))  
def main(stock_dic):  
   """  
  通过列表生成式，把下载csv文件的地址格式化，生成每个任务。  
  :param stock_dic:  
  :return:  
  """  
   download_url = 'http://quotes.money.163.com/service/chddata.html?code={stock_code}&start=20170101&end=20180101&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP'  
   for name, list_obj in stock_dic.items():  
       if not os.path.exists(os.path.join(settings.BASE_DIR, "share", name)):  
           os.mkdir(os.path.join(settings.BASE_DIR, "share", name))  
       pool = Pool(10)  
       # 所有任务  
       request_list = [pool.spawn(fetch_async, method='get', url=download_url.format(stock_code=i),  
                                  args={
     "stock_code": i, "save_dir": name}) for i in  
                       list_obj]  
       # 开始执行，等待它们完成任务  
       gevent.joinall(request_list)  
   print("crawler to complete.")  
def run():  
   medicine_list = get_code(settings.INDUSTRY_ID["medicine_ID"])  
   financial_list = get_code(settings.INDUSTRY_ID["financial_ID"])  
   settings.STOCK_CODE["medicine"] = medicine_list  
   settings.STOCK_CODE["financial"] = financial_list  
   main(settings.STOCK_CODE)

执行启动文件会运行run函数；
第一个执行get_code函数，是获取某行业所有股票代码，通过industry_url获取总页码，循环每一页获取股票代码，最后将获取的所有股票代码存到列表中返回；
下面执行main函数，通过列表生成式，把下载csv文件的地址格式化，生成每个任务。

代码测试

运行crawler_start

查看share目录中是否存在下载的目录，这里我们爬取了金融类和医疗类的股票信息

数据清洗上传到HDFS

数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同，录入后的数据清洗一般是由计算机而不是人工完成。

python连接HDFS

首先先下载第三方库HDFS

pip install hdfs

运用python中的hdfs模块，连接hadoop hdfs的程序：

import hdfs
#创建hdfs连接实例，要保证hadoop已经启动
client = hdfs.Client("http://127.0.0.1: 50070")
#对hdfs进行操，创建/hdfs_ test_ dir目录
client.makedirs("/hdfs_test_dir', permission=755)

程序编写

首先先jps检查一下hadoop是否启动

cd /apps/hadoop/sbin  
./start-all.sh

我们在刚才下载的share文件夹下重新建立python文件

在bin下创建python文件，名为upload_start.py、cleanout_start.py
在core下创建python文件，名为upload_file.py、cleanout_file.py

编辑bin/upload_start.py，内容如下：

import os  
import sys  
base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))  
sys.path.append(base_dir)  
from core import upload_file  
if __name__ == '__main__':  
   upload_file.run()

启动文件程序比较简单，base_dir是项目根目录的绝对路径，把这个路径加入到python环境变量中，这样就可以导入core下的upload_file。
编辑bin/cleanout_start.py，内容如下：

import os  
import sys  
base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))  
sys.path.append(base_dir)  
from core import cleanout_file  
if __name__ == '__main__':  
   cleanout_file.run()

启动文件程序比较简单，base_dir是项目根目录的绝对路径，把这个路径加入到python环境变量中，这样就可以导入core下的cleanout_file。
编辑conf/settings.py，追加内容如下：

HDFS_SAVE_DIR = "/stock_data"  
HDFS_API_URL = "http://127.0.0.1:50070"

settings文件中主要存放固定的常量。
编辑core/upload_file.py，该段代码功能为：先创建目录，再将数据上传到hdfs，内容如下：

#!/usr/bin/env python  
import hdfs  
import os  
from conf import settings  
def run():  
   client = hdfs.Client(settings.HDFS_API_URL)  
   # 在hdfs系统创建/stock_data目录，权限755  
   client.makedirs(settings.HDFS_SAVE_DIR, permission=755)  
   # share中的数据上传hdfs的/stock_data目录  
   upload_status = client.upload(  
       settings.HDFS_SAVE_DIR,  
       os.path.join(settings.BASE_DIR, "share")  
  )  
   print(upload_status)

编辑core/cleanout_file.py，该段代码功能为：遍历每个目录的每个文件，运用pandas模块打开文件，将第三列数据清洗，保存文件，内容如下：

import pandas as pd  
import os  
from conf import settings  
def run():  
   data_file = os.path.join(settings.BASE_DIR, 'share')  
   for d in os.listdir(data_file):  
        for f in os.listdir(os.path.join(data_file, d)):  
            current_file = os.path.join(data_file, d, f)  
            df = pd.read_csv(current_file, header=None)  
            df[2] = df.apply(lambda x: df[df.iloc[:, 2].duplicated() == True].head(1).iloc[:, 2], axis=1)  
            df.to_csv(current_file, header=None, index=None, encoding='utf-8')  
        print('cleanout file to complete.')

运行cleanout_start.py和upload_start.py文件即可

使用PyHive对股票数据进行分析

实验环境

hive-1.1.0-cdh5.4.5
hadoop-2.6.0-cdh5.4.5
mysql-5.5.53

实验内容

案例分析一：分析通用设备制造全部股票2019年的总涨跌额，并排出上涨股票前十名。
案例分析二：分析通用设备制造股票2019年成交量最大的前10天，成交金额分别为多少。
案例分析三：分析2019全年股票成交量前十名，并指出成交量第一的股票最新流通市值为多少。将Hive中的结果表通过Sqoop命令导入到Mysql中。

实验步骤

首先，切换到/apps/hadoop/etc/hadoop目录下，使用vim编辑core-site.xml文件。

cd /apps/hadoop/etc/hadoop
vim core-site.xml

修改hadoop的配置文件core-site.xml，在xml文件中< configuration> < /configuration>之间插入如下代码，保存退出。

<property>  
  <name>hadoop.proxyuser.amiee.groupsname>  
<value>*value>  
property>  
 
<property>  
 <name>hadoop.proxyuser.amiee.hostsname>  
 <value>*value>  
property>

切换到/apps/hadoop/sbin目录下，开启hadoop相关进程

cd /apps/hadoop/sbin  
./start-all.sh

将之前清洗后的数据上传至HDFS中的根目录下

hadoop fs -put /data/mydata/data /

启动mysql服务

sudo service mysql start

python安装pyhive、thrift、sasl、thrift_sasl模块

pip install pyhive thrift sasl thrift_sasl  -i https://pypi.douban.com/simple

启动hiveserver2服务，&表示后台运行

hive --service hiveserver2 &

编写程序

首先导入pyhive模块并连接hive

from pyhive import hive  
cursor = hive.connect(host='127.0.0.1', username='amiee').cursor()

创建并使用stockhive数据库

# create database stockhive  
cursor.execute("create database if not exists stockhive")  
# use database stockhive  
cursor.execute("use stockhive")

我们以通用设备制造股票为例子，创建hive外部表，名为financial，建表语句如下：

# create table financial  
cursor.execute("create external table if not exists financial\  
( date date,\  
Stock_code string,\  
name string,\  
Closing_price float,\  
Highest_price float,\  
Lowest_price float,\  
Opening_price float,\  
Before_the_close float,\  
Change_amount float,\  
Quote_change float,\  
Turnover_rate float,\  
Volume int,\  
Turnover float,\  
The_total_market_capitalization string,\  
Circulation_market_capitalization string) \  
row format delimited fields terminated by ',' \  
lines terminated by '\n' \  
location '/data/financial'")

该表字段解释如下：

date,                               日期,       2020-10-03,  
Stock_code,                         股票代码,     '600000,  
name,                               名称,       浦发银行,  
Closing_price,                      收盘价,          16.3,  
Highest_price,                      最高价,          16.44,  
Lowest_price,                       最低价,          16.17,  
Opening_price,                      开盘价,          16.21,  
Before_the_close,                   前收盘,          16.21,  
Change_amount,                      涨跌额,          0.09,  
Quote_change,                       涨跌幅,          0.5552,  
Turnover_rate,                      换手率,          0.0791,  
Volume,                             成交量,          16237125,  
Turnover,                           成交金额,     265043268.0,  
The_total_market_capitalization,        总市值,          3.52377962729e+11,  
Circulation_market_capitalization   流通市值          3.34456742479e+11

查看financial表信息

cursor.execute("desc financial")
for i in cursor.fetchall():  
    print(i)

为date创建索引

cursor.execute("create index index_date on table financial(date) \  
as'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' \  
with deferred rebuild")

案例分析一：查询通用设备制造全部股票2019年的总涨跌额，并排出上涨股票前十名

查询通用设备制造全部股票2019年的总涨跌额

cursor.execute("select Stock_code,sum(Change_amount) from financial group by Stock_code")  
for i in cursor.fetchall():  
    print(i)

**PS：**执行该sql会调用MapReduce，因此会有一定执行时间，等待即可，同时我们可以在启动hiveserver2的终端界面看到该MapReduce执行过程，方便我们检查错误。

创建分析结果表result0，包含两个字段(Stock_code string,Change_amount_sum float)，并以\t为分隔符。并分析出2019年上涨股票的前10名并将结果插入result0表中

cursor.execute("create table result0(Stock_code string,Change_amount_sum float) \  
row format delimited fields terminated by '\t' \  
stored as textfile")
cursor.execute("insert into table result0 \  
select Stock_code,sum(Change_amount) as change_amount_sum from financial \  
group by Stock_code \  
order by change_amount_sum desc \  
limit 10")

查询result0表中内容

cursor.execute("select * from result0")
for i in cursor.fetchall():
    print(i)

案例分析二：分析金融类股票2019年成交量最大的前10天，成交金额分别为多少

创建分析结果表result1并将分析结果插入该表，result1表包含四个字段(Stock_code string,date date,max_volume int,turnover float)，以\t为分隔符。

cursor.execute("create table result1 row format delimited fields terminated by '\t' \
stored as textfile \
as select stock_code,date,max(volume) as max_volume,turnover from financial \
group by stock_code,date,turnover \
order by max_volume desc limit 10")

案例分析三：分析2019全年股票成交量前十名并指出成交量第一的股票最新流通市值为多少

创建result2表，包含股票代码stock_code和成交量volume两个字段，以\t为分隔符。

cursor.execute("create table result2 row format delimited fields terminated by '\t' \
stored as textfile \
as select stock_code,sum(volume) as sum_volume from financial \
group by stock_code \
order by sum_volume desc limit 10")

result2表内容为2019全年股票成交量前十名的企业。

cursor.execute("select * from result2")  
for i in cursor.fetchall():  
    print(i)

使用Sqoop将分析结果数据持久化到Mysql数据库

开启mysql数据库

mysql -u root -p

创建并使用stock数据库

create database stock;
use stock;

创建三张表result_0、result_1、result_2分别对应hive中的result0、result1、result2

create table result_0 (stock_code varchar(100),change_amount_sum float);
create table result_1 (stock_code varchar(100),date date,max_volume int,turnover float);
create table result_2 (stock_code varchar(100),sum_volume bigint);

使用Sqoop命令将Hive中的result0表、result1表、result2表导入到Mysql中的result_0表、result_1表、result_2表。

result0导入result_0

sqoop export \  
--connect jdbc:mysql://localhost:3306/stock?characterEncoding=UTF-8 \  
--username root \  
--password strongs \  
--table result_0 \  
--export-dir /user/hive/warehouse/stockhive.db/result0/000000_0 \  
--input-fields-terminated-by '\t'

result1导入result_1

sqoop export \  
--connect jdbc:mysql://localhost:3306/stock?characterEncoding=UTF-8 \  
--username root \  
--password strongs \  
--table result_1 \  
--export-dir /user/hive/warehouse/stockhive.db/result1/000000_0 \  
--input-fields-terminated-by '\t'

result2导入result_2

sqoop export \  
--connect jdbc:mysql://localhost:3306/stock?characterEncoding=UTF-8 \  
--username root \  
--password strongs \  
--table result_2 \  
--export-dir /user/hive/warehouse/stockhive.db/result2/000000_0 \  
--input-fields-terminated-by '\t'

至此数据导入完成。

Python数据分析–量化交易

1.股票：股票是股份公司发给出资人的一种凭证，股票的持有者就是股份公司的股东。
2.股票的作用：

出资证明、证明股东身份、对公司经营发表意见
公司分红、交易获利

3.影响股价的因素：

公司自身因素：股票自身价值是决定股价最基本的因素，而这主要取决于发行公司的经营业绩、资信水平以及连带而来的股息红利派发状况、发展前景、股票预期收益水平等。
行业因素：行业在国民经济中地位的变更，行业的发展前景和发展潜力，新兴行业引来的冲击等，以及上市公司在行业中所处的位置，经营业绩，经营状况，资金组合的改变及领导层人事变动等都会影响相关股票的价格。
市场因素：投资者的动向，大户的意向和操纵，公司间的合作或相互持股，信用交易和期货交易的增减，投机者的套利行为，公司的增资方式和增资额度等，均可能对股价形成较大影响。
心理因素：情绪波动，判断失误，盲目追随大户、狂抛抢购
经济因素：经济周期，国家的财政状况，金融环境，国际收支状况，行业经济地位的变化，国家汇率的调整等
政治因素

4.量化投资：利用计算机技术并且采用一定的数学模型去实践投资理念，实现投资策略的过程。
5.量化投资的优势：

避免主观情绪、人性弱点和认知偏差，选择更加客观
能同时包括多角度的观察和多层次的模型
及时跟踪市场变化，不断发现新的统计模型，寻找交易机会
在决定投资策略后，能通过回测验证其效果

6.学习Python数据分析（量化交易）主要使用以下第三方相关模块：

NumPy：数值计算
pandas：数据分析
Matplotlib：图标绘制

7.学习使用NumPy+pandas+Matplotlib完成股票金叉死叉、双均线的计算

入门Numpy

扩展库 numpy 是 Python 支持科学计算的重要扩展库，是数据分析和科学计算领域如 scipy、pandas、sklearn 等众多扩展库中必备的扩展库之一，提供了强大的 N 维数组及其相关的运算、复杂的广播函数、C/C++和Fortran代码集成工具以及线性代数、傅里叶变换和随机数生成等功能。本次重点讲解数组和矩阵及其相关的运算。
我曾教过一期很完整的Numpy教程，如果想要正式了解的话请点击->我的博客连接
NumPy的主要功能：

ndarray，一个多维数组结构，高效且节省空间
无需循环对整组数据进行快速运算的数学函数
读写磁盘数据的工具以及用于操作内存映射文件的工具
线性代数、随机数生成和傅里叶变换功能
用于集成C、C++等代码的工具

安装方法：pip install numpy -i https://pypi.douban.com/simple
引用方式：import numpy as np
常用属性：

T 数组的转置（对高维数组而言）
dtype 数组元素的数据类型
size 数组元素的个数
ndim 数组的维数
shape 数组的维度大小（以元组形式）

入门Pandas

pandas是Python的一个用于数据分析的库：http://pandas.pydata.org
API速查：http://pandas.pydata.org/pandas-docs/stable/api.html
统计、分组、排序、透视表自由转换，如果你已经很熟悉结构化数据库与Excel的功能，就会知道pandas有过之而无不及。
我曾教过两期很完整的Pandas教程，如果想要正式了解的话请点击
我的第一篇入门介绍
我的第二篇进阶介绍
pandas的主要功能：

具备对其功能的数据结构DataFrame、Series
集成时间序列功能
提供丰富的数学运算和操作
灵活处理缺失数据

安装方法：pip install pandas -i https://pypi.douban.com/simple
引用方法：import pandas as pd
pandas-Series特性：
Series支持NumPy模块的特性（下标）：

从ndarray创建Series：Series(arr)
与标量运算：sr*2
两个Series运算：sr1+sr2
索引：sr[0], sr[[1,2,4]]
切片：sr[0:2]
通用函数：np.abs(sr)
布尔值过滤：sr[sr>0]

Series支持字典的特性（标签）：

从字典创建Series：Series(dic)
in运算：’a’ in sr
键索引：sr[‘a’], sr[[‘a’, ‘b’, ‘d’]]

pandas-Series缺失数据：
**缺失数据：**使用NaN（Not a Number）来表示缺失数据。其值等于np.nan。内置的None值也会被当做NaN处理。
处理缺失数据的相关方法：

dropna() 过滤掉值为NaN的行
fillna() 填充缺失数据
isnull() 返回布尔数组，缺失值对应为True
notnull() 返回布尔数组，缺失值对应为False
过滤缺失数据：sr.dropna() 或 sr[sr.notnull()]
填充缺失数据：sr.fillna(0)

pandas-DataFrame：
DataFrame是一个表格型的数据结构，含有一组有序的列。
DataFrame可以被看做是由Series组成的字典，并且共用一个索引。

入门Matplotlib

Matplotlib是一个强大的Python绘图和数据可视化的工具包。
安装方法：pip install matplotlib -i https://pypi.douban.com/simple
引用方法：import matplotlib.pyplot as plt
绘图函数：plt.plot()
显示图像：plt.show()
Matplotlib-plot：
plot函数：

线型linestyle（-,-.,–,…）
点型marker（v,^,s,*,H,+,x,D,o,…）
颜色color（b,g,r,y,k,w,…）

我们在这里使用我们已经储备好的data.csv文件。
该文件我已经传入百度网盘中，各位可以直接下载使用。
链接: https://pan.baidu.com/s/1NZgtx5wS0aZWRybfsu41hQ 密码: jc9a

在test.py文件下编写代码，导入numpy、pandas、matplotlib，并读取data.csv中的数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv',index_col='date',parse_dates=['date'])

均线： 对于每一个交易日，都可以计算出前N天的移动平均值，然后把这些移动平均值连起来，成为一条线，就叫做N日移动平均线。
举例： 比如前5个交易日的收盘价分别为10,9,9,10,11元，那么，5日的移动平均股价为9.8元。同理，如果下一个交易日的收盘价为12，那么在下一次计算移动平均值的时候，需要计算9,9,10,11,12元的平均值，也就是10.2元。将这平均值连起来，就是均线。

计算5日均线和30日均线
方法一：常规的for循环方法，缺点是运行时间长：

df['ma5'] = np.nan  
df['ma30'] = np.nan  
for i in range(4, len(df)):  
    df.loc[df.index[i],'ma5'] = df['close'][i-4:i+1].mean()  
for i in range(29, len(df)):  
    df.loc[df.index[i],'ma30'] = df['close'][i-29:i+1].mean()  
print(df['ma5'])  
print(df['ma30'] )

方法二：使用cunsum函数计算，这里涉及到位移函数shift()

sr = df['close'].cumsum()  
df['ma5'] = (sr - sr.shift(1).fillna(0).shift(4))/5  
df['ma30'] = (sr - sr.shift(1).fillna(0).shift(29))/30  
print(df['ma5'])  
print(df['ma30'] )

方法三，使用rolling()函数中的mean()方法

df['ma5'] = df['close'].rolling(5).mean()
df['ma30'] = df['close'].rolling(30).mean()
print(df['ma5'])  
print(df['ma30'] )

计算金叉、死叉
双均线策略，通过建立m天移动平均线，n天移动平均线，则两条均线必有交点。若m>n，n天平均线“上穿越”m天均线则为买入点，我们称之为金叉。反之为卖出点，我们称之为死叉。

口诀：
短期均线上穿长期均线为金叉
短期均线下穿长期均线为死叉
继续编写test.py文件，去掉NaN，因为有NaN的数据不满足双均线策略

df = df.dropna()

使用位移函数shift()：

death_cross = df[(df['ma30']>=df['ma5'])&(df['ma30']<df['ma5']).shift(1)].index
golden_cross = df[(df['ma30']<=df['ma5'])&(df['ma30']>df['ma5']).shift(1)].index
print('golden_cross:',golden_cross)
print('death_cross:',death_cross)

通过Matplotlib做出5日和30日的双均线图像

df[['ma5','ma30']].plot()  
plt.show()

因为知识量有点杂多，所以这期没有全部代码。
望各位想要入门数据分析的小伙伴们，继续努力。

最后还是希望你们能给我点一波小小的关注。

奉上自己诚挚的爱心

你可能感兴趣的:(笔记,爬虫,数据分析)

算法学习领域的宝藏 wylee 算法学习 leetcode
labuladong的算法笔记仓库是算法学习领域的宝藏项目，它围绕LeetCode题目，以培养算法思维为核心，提供丰富学习资源与多种实用工具，助力学习者提升算法能力。项目核心内容：仓库包含60多篇原创文章，基于LeetCode题目展开，全面覆盖各种算法题型与技巧，旨在培养学习者的算法思维，避免单纯的代码堆砌。文章注重思路解释和思维框架构建，通过总结算法套路，帮助学习者少走弯路。学习资源与工具算法可
Puppeteer 库简介：背景、用法与原理超级土豆粉 typescript javascript 前端 html 开发语言
Puppeteer库简介：背景、用法与原理一、背景Puppeteer是Google官方推出的一个Node.js库，最初于2017年发布。它为开发者提供了一个高级API，用于通过编程方式控制Chrome或Chromium浏览器。Puppeteer主要用于自动化网页操作、爬虫、UI测试、生成PDF截图等场景。随着Web自动化需求的增长，Puppeteer逐渐成为前端开发、测试和数据采集领域的重要工具。
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
《移动App测试实战》读书笔记 xh15 2017笔试面试修炼软件测试移动测试读书笔记
最近看完了《移动App测试实战》，这里做一点笔记，后面可以重温。功能测试自动化轻量接口自动化测试（JMeter）：JMeter是一款开源测试工具，多用于接口测试用例的分层：CGI：通用网关接口，常称为单个业务接口Function：请求组合，包含多个CGI层接口的调用TestCase：单个测试用例TestSuite：多个测试用例的集合UI层的自动化面向Android：AndroidSDK提供的UIA
学习笔记：oracle online系列：oracle：Per-Process PGA memory limit 认真就输DBA Oracle 学习随笔学习笔记 oracle
我们的文章会在微信公众号IT民工的龙马人生和博客网站(www.htz.pw)同步更新，欢迎关注收藏，也欢迎大家转载，但是请在文章开始地方标注文章出处，谢谢！由于博客中有大量代码，通过页面浏览效果更佳。本文转自朋友的真实案例分享。oracleonline系列：oracle：Per-ProcessPGAmemorylimit前几日，东区某客户的19crac出现了ORA-04030，从报错的trace来
DeepSeek 帮助自己的工作
引言简述人工智能助手在职场中的普及趋势DeepSeek作为智能创作助手的核心功能概述DeepSeek的核心能力信息检索与整合：基于用户意图精准搜索并生成答案多场景应用：技术文档撰写、数据分析、代码生成等交互优化：遵循用户指定的格式与内容规范职场应用场景与实操案例技术文档撰写自动生成API文档框架根据需求补充技术细节示例代码块与公式的规范化输出数据分析支持快速检索行业数据并生成可视化建议数学建模中的
【OD机试题解法笔记】连续出牌数量 xuwzen 编码训练笔记深度优先算法
题目描述有这么一款单人卡牌游戏，牌面由颜色和数字组成，颜色为红、黄、蓝、绿中的一种，数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出，接下来如果玩家手中有和他上一次打出的手牌颜色或者数字相同的手牌，他可以继续将该手牌打出，直至手牌打光或者没有符合条件可以继续打出的手牌。现给定一副手牌，请找到最优的出牌策略，使打出的手牌最多。输入描述输入为两行，第一行是每张手牌的数字，数字由空格分隔，第
2025年国内开源数据分析工具琅琊榜：实力与应用全解析数澜悠客数据工具箱开源数据分析数据挖掘
一、引言在数字化浪潮汹涌澎湃的当下，数据已然成为企业和组织的核心资产。如何从海量、复杂的数据中挖掘出有价值的信息，成为了各个行业关注的焦点。开源数据分析工具，凭借其免费、灵活、可定制等特性，犹如一把把利刃，为数据领域的从业者们开辟出高效处理和分析数据的新路径，在国内数据领域中占据着举足轻重的地位。这些开源工具不仅降低了数据分析的门槛，让更多中小企业能够以较低成本搭建起自己的数据处理和分析体系，还极
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
Docker技术笔记-从零开始的容器技术之旅青竹易寒 docker 学习容器
理论一、容器技术简介容器是一种轻量级、可移植、隔离的软件环境，通过操作系统级虚拟化实现资源隔离,确保应用程序在不同环境中能够保持一致运行。容器和虚拟机对比对比维度容器(Docker)虚拟机(VM、KVM)架构原理共享宿主机内核,通过命名空间(Namespaces)和控制组(Cgroups)实现资源隔离。通过Hypervisor虚拟化硬件资源,每个VM运行独立完整的操作系统(GuestOS)。资源消
C 语言:20250708笔记遇见尚硅谷 c语言笔记开发语言
内容提要C语言概述数据类型常量变量C语言概述计算机基础计算机的组成计算机组成计算机：能进行计算以及逻辑处理的设备硬件：组成计算机的物理部件。（内存条、CPU、硬盘..）开发中对于硬件的认知：硬件包括电子设备、单片机、集成电路和嵌入式系统。软件：计算机中运行的程序和数据。开发中对于软件的认知：软件分为系统软件（OS）、应用软件和编程工具（编译器）计算机的六大部件中央处理器（CPU）：控制+计算内存：
12.Java SDK源码分析系列笔记-PriorityQueue Thinker QAQ Java SDK源码分析 java 笔记 python
文章目录1.PriorityQueue是什么2.使用3.源码分析3.1.属性3.2.有参构造3.2.1.初始化元素到数组中3.2.2.维护堆的属性3.2.2.1.下沉操作3.3.插入3.3.1.上浮操作3.4.删除3.4.1.下沉操作4.参考1.PriorityQueue是什么是一个队列，只不过加上了优先级的概念，换句话说队列里的元素是根据某种规则排好序的2.使用publicclassPriori
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Python学习打卡：day02
day2笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day28、字符串的三种定义方式字符串在Python中有多种定义形式字符串的引号嵌套9、字符串的拼接10、字符串格式化11、格式化的精度控制12、字符串格式化的方式213、对表达式进行格式化14、字符串格式化的课后练习题15、数据输入（input语句）input语句（函数）input语句获取
python读取pdf文档 reblue520
python读取txt#coding=utf-8importrequests#爬虫规则url="https://en.wikipedia.org/robots.txt"#读取网络资源res=requests.get(url).text#打印print(res)读取pdf#coding=utf-8frompdfminer.pdfparserimportPDFParser,PDFDocumentfro
【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）百万年薪天才少女人工智能人工智能机器学习深度学习
****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！五、解释评估（ExplanationEvaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第5.1节）和提示范式中自然语言CoT解释的评估（第5.2节）。评估的两个关键维度是对人类的
CS:APP读书笔记--信息的表示和处理你都会上树？ CS:APP 笔记程序人生
信息的存储和表示字节端序在内存中按照从最低到最高有效字节的顺序存储对象，这种最低有效字节在最前面的方式，称为小端法。在内存中按照从最高到最低有效字节的顺序存储对象，这种最高有效字节在最前面的方式，称为大端法。例如：对于int32类型变量，其存储地址位于0x100，其十六进制值为0x12345678，其地址范围为ox100~0x103：//大端法地址：0x1000x1010x1020x1031234
Apache Nutch介绍与部署编译
一、Nutch概述ApacheNutch是一个开放源代码的Java搜索引擎框架，它提供了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。【软件特色】1、Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎2、每个月取几十亿网页3、为这些网页维护一个索引4、对索引文件进行每秒
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
python的王者荣耀战队的数据分析系统 QQ1963288475 python 开发语言 django flask spring boot
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
Gin 框架中的优雅退出 Code季风 Gin入门指南 gin golang 开发语言 go 后端
在构建可靠的Web应用程序或微服务时，确保应用程序能够“优雅退出”是至关重要的。本文将基于你的笔记，深入探讨Gin框架中如何实现优雅退出，并解释其定义、重要性以及具体的实现方法。一、优雅退出的定义和重要性1.1什么是“优雅退出”？所谓优雅退出（GracefulShutdown）是指：在程序接收到关闭信号时（比如用户按下Ctrl+C或者系统发送SIGTERM），不要立即终止进程，而是：停止接收新的请
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
【数据分析】R语言基于虚弱指数的心血管疾病风险评估生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图其他1其他2其他3其他4总结系统信息介绍生存分析是医学和生物统计学中常用的方法，用于研究事件（如疾病发生、死亡等）发生的时间和相关影响因素。本文介绍了一种基于R语言的生存分析方法，用于评估虚弱指数（FrailtyIndex,FI）对心血管疾病（CVD）发生风险的影响。通过这
selenium基础知识和模拟登录selenium版本巴里巴气 Python爬虫知识记录 selenium python 爬虫爬虫模拟登录
前言selenium框架是Python用于控制浏览器的技术,在Python爬虫获取页面源代码的时候,是最重要的技术之一,通过控制浏览器,更加灵活便捷的获取浏览器中网页的源代码。还没有安装启动selenium的同志请先看我的上一篇文章进行配置启动和XPath基础对selenium进行浏览器和驱动进行配置Windows|Linux_使用selenium进行谷歌-CSDN博客Python爬虫XPath三
动手学深度学习13.7. 单发多框检测（SSD）-笔记&练习（PyTorch） scdifsn 深度学习笔记 pytorch ssd 单发多框检测（SSD）目标检测 mAP评价
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：45SSD实现【动手学深度学习v2】_哔哩哔哩_bilibili本节教材地址：13.7.单发多框检测（SSD）—动手学深度学习2.0.0documentation本节开源代码：…>d2l-zh>pytorch>chapter_optimization>ssd.ipynb单发多框
动手学深度学习3.3线性回归的简洁实现-笔记&练习（PyTorch） scdifsn 深度学习线性回归笔记 pytorch
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：线性回归的简洁实现_哔哩哔哩_bilibili本节教材地址：3.3.线性回归的简洁实现—动手学深度学习2.0.0documentation(d2l.ai)本节开源代码：...>d2l-zh>pytorch>chapter_linear-networks>linear-regre
一文讲清楚CDA数据分析师考试，2025年最新Q&A，你想问的这里都有答案【更新于2025年7月1日】
很多小伙伴都在问CDA考试的问题，以下是结合2025年最新政策与行业动态更新的CDA数据分析师认证考试Q&A，覆盖考试内容、报考条件、备考策略等核心问题：一、考试基础信息Q1：CDA数据分析师认证分为几个等级？各自的定位是什么？A：CDA认证分为三个等级：LevelI：面向零基础入门者，培养Excel/SQL基础、数据可视化、业务报告制作等能力，适合应届生或业务岗人员。LevelII：需先通过Le
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p