cining2000

python数据抓取之pyquery包

最近由于公司业务上的需求，要网络采集一些数据，并格式化以供应用的调取，前期想到用正则表达式来对网页格式串进行过滤和抓取，在进行了一系列尝试之后放弃，
原因是太繁琐了，而且对于每种网页都需要写特定的表达式，不可通用。
后面在查找相关资料时，发现python也提供一个类似jquery的包，叫做pyquery，可用以进行网络抓取，遂安装研究了一下，发现确实挺好用，不用写复杂的表达式即可
对数据进行抓取和过滤。

下面就以一个网页为例，来抓取指定格式的数据，并记录过程。

http://yunvs.com/list/mai_1.html

我要抓取这个网页上的数据，如下图：

我现在需要抓取股票与概念的关系，以便应用可以方便的通过股票查找其所属的概念，也可以通过热点概念定位相关股票。
那么，应用所需要的数据格式应该是这样的：
股票代码   股票名称   概念名称
002011   盾安环境   多晶硅
002011   盾安环境   分布式能源
002011   盾安环境   核电
002011   盾安环境   核电通风与空气处
002011   盾安环境   太阳能
002011   盾安环境   低碳经济
002011   盾安环境   珠港澳大桥概念
002011   盾安环境   地热
002011   盾安环境   地热能
002011   盾安环境   供热管网改造
002011   盾安环境   疫苗储存
002011   盾安环境   干热岩

但是从网页上我们可以看到，数据是以行的形式来展现的，单只股票后面跟了多个概念，且概念与概念之间以空格为分隔符，所以我们不仅仅要对数据进行抓取，同时还要对其格式进行处理。

下面，我们就通过python的第三方扩展包pyquery来对此网页进行抓取。

1.安装pyquery包

具体的安装过程就不在这里详述了，python的包安装可以通过一个工具叫做easy_install来进行安装和管理，大家百度一下即可得到相关资料。
pyquery包解析html以来lxml包，所以这里要安装pyquery和lxml两个包才可使用pyquery.

pyquery的官网地址： ht tp://pythonhosted.org//pyquery/api.htm l ，上面有详细的每个api的使用方法

2.导入pyquery包

from pyquery import PyQuery as pq
from lxml import etree

3.加载需要解析的数据源

v_source=pq("hello")   ---直接加载一个html串
v_source=pq(filename=path_to_html_file)                 ---加载位于指定路径下的html文件
v_source=pq(url='http://yunvs.com/list/mai_1.html')                ---加载url地址直接进行解析

在这里我们就直接使用第三种方式，直接加载网页来进行数据抓取，这样显得更直观和实用。

4.分析要解析的html网页代码

以 http://yunvs.com/list/mai_1.html 为例，我们要抓取股票和概念的数据，那么查看其网页源码，将要解析的代码段摘出来，如下：

点击(此处)折叠或打开

<tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
<td align=\"center\">17876.8</td>
<td align=\"center\">2005.74</td>
<td align=\"center\">+791.28%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>  <a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>  <a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>  <a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>  <a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>  <a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>  </td>
</tr>

可以看到，单只股票的数据都是包含在一个大的 tr标签里面，那么我们第一步过滤就是将网页里面所有的tr段截取出来。

第一步过滤可以这样写：

v_source=pq(url='http://yunvs.com/list/mai_1.html')

v_source('tr') ----这里就是将所有以tr打头的html段过滤出来

想测试的话，可以用以下的语句来输出结果。

for data in v_source('tr'):
print pq(data).html() ---直接输出截取串的html对象，看着更加直观

输出如下：

点击(此处)折叠或打开

<th width=\"60px\" align=\"center\">代码</th>
<th width=\"60px\" align=\"center\">股票</th>
<th width=\"80px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_1.html\">市场关注度↓</a></th>
<th width=\"65px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_ac_1.html\" style=\"text-decoration:underline\">平均MAI</a></th>
<th width=\"100px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_mc_1.html\" style=\"text-decoration:underline\">MAI相对变动</a></th>
<th width=\"530px\" align=\"center\">相关概念</th>
<td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
<td align=\"center\">17417.6</td>
<td align=\"center\">2006.94</td>
<td align=\"center\">+767.87%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a> <a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a> <a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a> <a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a> <a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a> <a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002143\" target=\"_blank\">002143</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002143\" target=\"_blank\">高金食品</a></td>
<td align=\"center\">10220.3</td>
<td align=\"center\">1336.69</td>
<td align=\"center\">+664.6%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t293.html\" target=\"_blank\">肉制品</a> <a href=\"http://yunvs.com/theme/t290.html\" target=\"_blank\">猪肉</a> <a href=\"http://yunvs.com/theme/t458.html\" target=\"_blank\">成渝特区</a> <a href=\"http://yunvs.com/theme/t862.html\" target=\"_blank\">猪肉加工</a> <a href=\"http://yunvs.com/theme/t1150.html\" target=\"_blank\">农地林地</a> <a href=\"http://yunvs.com/theme/t1020.html\" target=\"_blank\">传媒</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002070\" target=\"_blank\">002070</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002070\" target=\"_blank\">众和股份</a></td>
<td align=\"center\">6022.89</td>
<td align=\"center\">611.21</td>
<td align=\"center\">+885.4%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t397.html\" target=\"_blank\">印染</a> <a href=\"http://yunvs.com/theme/t906.html\" target=\"_blank\">锂精矿</a> <a href=\"http://yunvs.com/theme/t1222.html\" target=\"_blank\">海西</a> <a href=\"http://yunvs.com/theme/t211.html\" target=\"_blank\">己内酰胺</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/300213\" target=\"_blank\">300213</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/300213\" target=\"_blank\">佳讯飞鸿</a></td>
<td align=\"center\">5896.39</td>
<td align=\"center\">374.88</td>
<td align=\"center\">+1472.87%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t151.html\" target=\"_blank\">光通信</a> <a href=\"http://yunvs.com/theme/t1157.html\" target=\"_blank\">探月工程</a> <a href=\"http://yunvs.com/theme/t1129.html\" target=\"_blank\">三季报预增</a> <a href=\"http://yunvs.com/theme/t1161.html\" target=\"_blank\">铁路营改增</a> <a href=\"http://yunvs.com/theme/t1161.html\" target=\"_blank\">铁路营改增</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/600732\" target=\"_blank\">600732</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600732\" target=\"_blank\">上海新梅</a></td>
<td align=\"center\">4529.39</td>
<td align=\"center\">894.01</td>
<td align=\"center\">+406.64%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t80.html\" target=\"_blank\">迪士尼</a> <a href=\"http://yunvs.com/theme/t66.html\" target=\"_blank\">创投</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/600303\" target=\"_blank\">600303</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600303\" target=\"_blank\">曙光股份</a></td>
<td align=\"center\">4139.83</td>
<td align=\"center\">131.78</td>
<td align=\"center\">+3041.47%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t241.html\" target=\"_blank\">客车</a> <a href=\"http://yunvs.com/theme/t380.html\" target=\"_blank\">新能源客车</a> <a href=\"http://yunvs.com/theme/t459.html\" target=\"_blank\">东北振兴</a> <a href=\"http://yunvs.com/theme/t396.html\" target=\"_blank\">乙肝疫苗</a> <a href=\"http://yunvs.com/theme/t588.html\" target=\"_blank\">校车</a> <a href=\"http://yunvs.com/theme/t147.html\" target=\"_blank\">公路运输</a> <a href=\"http://yunvs.com/theme/t147.html\" target=\"_blank\">公路运输</a> <a href=\"http://yunvs.com/theme/t1266.html\" target=\"_blank\">镍碳超级电容电池</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002130\" target=\"_blank\">002130</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002130\" target=\"_blank\">沃尔核材</a></td>
<td align=\"center\">3749.11</td>
<td align=\"center\">1875.24</td>
<td align=\"center\">+99.93%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t174.html\" target=\"_blank\">核电</a> <a href=\"http://yunvs.com/theme/t232.html\" target=\"_blank\">抗辐射</a> <a href=\"http://yunvs.com/theme/t381.html\" target=\"_blank\">新型建材</a> <a href=\"http://yunvs.com/theme/t444.html\" target=\"_blank\">新材料</a> <a href=\"http://yunvs.com/theme/t456.html\" target=\"_blank\">珠三角区</a> <a href=\"http://yunvs.com/theme/t97.html\" target=\"_blank\">电线电缆</a> <a href=\"http://yunvs.com/theme/t1201.html\" target=\"_blank\">铁基超导</a> <a href=\"http://yunvs.com/theme/t704.html\" target=\"_blank\">合肥综合保税区</a> <a href=\"http://yunvs.com/theme/t1159.html\" target=\"_blank\">中英核电合作</a> <a href=\"http://yunvs.com/theme/t58.html\" target=\"_blank\">超导材料</a> <a href=\"http://yunvs.com/theme/t1321.html\" target=\"_blank\">新合成三维材料</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002113\" target=\"_blank\">002113</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002113\" target=\"_blank\">天润控股</a></td>
<td align=\"center\">3741.65</td>
<td align=\"center\">569.31</td>
<td align=\"center\">+557.23%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t754.html\" target=\"_blank\">足球</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/600315\" target=\"_blank\">600315</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600315\" target=\"_blank\">上海家化</a></td>
<td align=\"center\">3638.3</td>
<td align=\"center\">1602.57</td>
<td align=\"center\">+127.03%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t193.html\" target=\"_blank\">化妆品</a> <a href=\"http://yunvs.com/theme/t616.html\" target=\"_blank\">消毒</a> <a href=\"http://yunvs.com/theme/t626.html\" target=\"_blank\">抗病毒产品</a> <a href=\"http://yunvs.com/theme/t50.html\" target=\"_blank\">丙烯腈</a> <a href=\"http://yunvs.com/theme/t383.html\" target=\"_blank\">信托</a> <a href=\"http://yunvs.com/theme/t67.html\" target=\"_blank\">纯碱</a> <a href=\"http://yunvs.com/theme/t1129.html\" target=\"_blank\">三季报预增</a> <a href=\"http://yunvs.com/theme/t1068.html\" target=\"_blank\">易信</a> <a href=\"http://yunvs.com/theme/t593.html\" target=\"_blank\">民族品牌</a> <a href=\"http://yunvs.com/theme/t56.html\" target=\"_blank\">草甘膦</a> <a href=\"http://yunvs.com/theme/t41.html\" target=\"_blank\">苯胺</a> <a href=\"http://yunvs.com/theme/t211.html\" target=\"_blank\">己内酰胺</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002009\" target=\"_blank\">002009</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002009\" target=\"_blank\">天奇股份</a></td>
<td align=\"center\">3566.27</td>
<td align=\"center\">412.28</td>
<td align=\"center\">+765.01%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t126.html\" target=\"_blank\">风电叶片</a> <a href=\"http://yunvs.com/theme/t370.html\" target=\"_blank\">低碳经济</a> <a href=\"http://yunvs.com/theme/t460.html\" target=\"_blank\">江苏沿海地区</a> <a href=\"http://yunvs.com/theme/t523.html\" target=\"_blank\">机器人</a> <a href=\"http://yunvs.com/theme/t804.html\" target=\"_blank\">工业自动化</a> <a href=\"http://yunvs.com/theme/t845.html\" target=\"_blank\">智能物流骨干网</a> <a href=\"http://yunvs.com/theme/t742.html\" target=\"_blank\">供热管网改造</a> <a href=\"http://yunvs.com/theme/t362.html\" target=\"_blank\">物流</a> <a href=\"http://yunvs.com/theme/t998.html\" target=\"_blank\">报废车回收</a> <a href=\"http://yunvs.com/theme/t871.html\" target=\"_blank\">万达文化旅游城</a> <a href=\"http://yunvs.com/theme/t451.html\" target=\"_blank\">循环经济</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/000018\" target=\"_blank\">000018</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/000018\" target=\"_blank\">中冠A</a></td>
<td align=\"center\">3354.35</td>
<td align=\"center\">172.67</td>
<td align=\"center\">+1842.63%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t397.html\" target=\"_blank\">印染</a> <a href=\"http://yunvs.com/theme/t1152.html\" target=\"_blank\">工业用地</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/000036\" target=\"_blank\">000036</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/000036\" target=\"_blank\">华联控股</a></td>
<td align=\"center\">3131.94</td>
<td align=\"center\">184.24</td>
<td align=\"center\">+1599.93%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t8.html\" target=\"_blank\">PTA(化工)</a> <a href=\"http://yunvs.com/theme/t282.html\" target=\"_blank\">前海开发</a> <a href=\"http://yunvs.com/theme/t456.html\" target=\"_blank\">珠三角区</a> <a href=\"http://yunvs.com/theme/t494.html\" target=\"_blank\">深圳土地创新</a> <a href=\"http://yunvs.com/theme/t681.html\" target=\"_blank\">家具建材</a> <a href=\"http://yunvs.com/theme/t468.html\" target=\"_blank\">前海规划</a> <a href=\"http://yunvs.com/theme/t1152.html\" target=\"_blank\">工业用地</a> <a href=\"http://yunvs.com/theme/t1155.html\" target=\"_blank\">集体建设用地</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002356\" target=\"_blank\">002356</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002356\" target=\"_blank\">浩宁达</a></td>
<td align=\"center\">2798.2</td>
<td align=\"center\">257.86</td>
<td align=\"center\">+985.16%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t412.html\" target=\"_blank\">智能电表</a> <a href=\"http://yunvs.com/theme/t413.html\" target=\"_blank\">智能电网</a> <a href=\"http://yunvs.com/theme/t797.html\" target=\"_blank\">电力改革</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/300249\" target=\"_blank\">300249</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/300249\" target=\"_blank\">依米康</a></td>
<td align=\"center\">2796.64</td>
<td align=\"center\">713.37</td>
<td align=\"center\">+292.03%</td>
<td align=\"left\"></td>
<td align=\"center\"><a href=\"http://yunvs.com/300282\" target=\"_blank\">300282</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/300282\" target=\"_blank\">汇冠股份</a></td>
<td align=\"center\">2721.66</td>
<td align=\"center\">488.97</td>
<td align=\"center\">+456.61%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t778.html\" target=\"_blank\">教育装备</a> <a href=\"http://yunvs.com/theme/t857.html\" target=\"_blank\">联想供应链</a> <a href=\"http://yunvs.com/theme/t63.html\" target=\"_blank\">触摸屏</a> <a href=\"http://yunvs.com/theme/t997.html\" target=\"_blank\">游戏机</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/300279\" target=\"_blank\">300279</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/300279\" target=\"_blank\">和晶科技</a></td>
<td align=\"center\">2669.16</td>
<td align=\"center\">586.76</td>
<td align=\"center\">+354.9%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t635.html\" target=\"_blank\">手势控制</a> <a href=\"http://yunvs.com/theme/t405.html\" target=\"_blank\">云计算</a> <a href=\"http://yunvs.com/theme/t653.html\" target=\"_blank\">无锡物联网</a> <a href=\"http://yunvs.com/theme/t577.html\" target=\"_blank\">智能家居</a> <a href=\"http://yunvs.com/theme/t361.html\" target=\"_blank\">物联网</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/300220\" target=\"_blank\">300220</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/300220\" target=\"_blank\">金运激光</a></td>
<td align=\"center\">2411.08</td>
<td align=\"center\">873.71</td>
<td align=\"center\">+175.96%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t524.html\" target=\"_blank\">激光武器</a> <a href=\"http://yunvs.com/theme/t826.html\" target=\"_blank\">激光</a> <a href=\"http://yunvs.com/theme/t483.html\" target=\"_blank\">3D打印</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/600754\" target=\"_blank\">600754</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600754\" target=\"_blank\">锦江股份</a></td>
<td align=\"center\">2360.15</td>
<td align=\"center\">387.22</td>
<td align=\"center\">+509.51%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t80.html\" target=\"_blank\">迪士尼</a> <a href=\"http://yunvs.com/theme/t84.html\" target=\"_blank\">迪士尼旅游消费</a> <a href=\"http://yunvs.com/theme/t234.html\" target=\"_blank\">酒店餐饮</a> <a href=\"http://yunvs.com/theme/t1029.html\" target=\"_blank\">上海金融创新</a> <a href=\"http://yunvs.com/theme/t441.html\" target=\"_blank\">镁矿</a> <a href=\"http://yunvs.com/theme/t1143.html\" target=\"_blank\">国企改革</a> <a href=\"http://yunvs.com/theme/t733.html\" target=\"_blank\">旅游行业</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002619\" target=\"_blank\">002619</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002619\" target=\"_blank\">巨龙管业</a></td>
<td align=\"center\">2285.8</td>
<td align=\"center\">1446.89</td>
<td align=\"center\">+57.98%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t481.html\" target=\"_blank\">城市管网建设</a> <a href=\"http://yunvs.com/theme/t272.html\" target=\"_blank\">农田水利建设</a> <a href=\"http://yunvs.com/theme/t607.html\" target=\"_blank\">防洪排水</a> <a href=\"http://yunvs.com/theme/t1170.html\" target=\"_blank\">高标准农田建设</a> <a href=\"http://yunvs.com/theme/t26.html\" target=\"_blank\">电子信息</a> </td>
<td align=\"center\"><a href=\"http://yunvs.com/002205\" target=\"_blank\">002205</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/002205\" target=\"_blank\">国统股份</a></td>
<td align=\"center\">2283.95</td>
<td align=\"center\">544.05</td>
<td align=\"center\">+319.81%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t165.html\" target=\"_blank\">管道管材</a> <a href=\"http://yunvs.com/theme/t272.html\" target=\"_blank\">农田水利建设</a> <a href=\"http://yunvs.com/theme/t321.html\" target=\"_blank\">塑料建材</a> <a href=\"http://yunvs.com/theme/t476.html\" target=\"_blank\">水利设备</a> <a href=\"http://yunvs.com/theme/t481.html\" target=\"_blank\">城市管网建设</a> <a href=\"http://yunvs.com/theme/t652.html\" target=\"_blank\">大额中标</a> <a href=\"http://yunvs.com/theme/t527.html\" target=\"_blank\">消暑抗旱</a> <a href=\"http://yunvs.com/theme/t607.html\" target=\"_blank\">防洪排水</a> <a href=\"http://yunvs.com/theme/t23.html\" target=\"_blank\">MDI(化工)</a> <a href=\"http://yunvs.com/theme/t24.html\" target=\"_blank\">MTBE(化工)</a> <a href=\"http://yunvs.com/theme/t27.html\" target=\"_blank\">PET瓶(化工)</a> <a href=\"http://yunvs.com/theme/t28.html\" target=\"_blank\">PE(化工)</a> <a href=\"http://yunvs.com/theme/t29.html\" target=\"_blank\">PP(化工)</a> <a href=\"http://yunvs.com/theme/t17.html\" target=\"_blank\">HDPE(化工)</a> <a href=\"http://yunvs.com/theme/t12.html\" target=\"_blank\">BDO(化工)</a> <a href=\"http://yunvs.com/theme/t834.html\" target=\"_blank\">沧州本地</a> <a href=\"http://yunvs.com/theme/t30.html\" target=\"_blank\">PS(化工)</a> <a href=\"http://yunvs.com/theme/t235.html\" target=\"_blank\">PBT(化工)</a> <a href=\"http://yunvs.com/theme/t237.html\" target=\"_blank\">PVC(化工)</a> <a href=\"http://yunvs.com/theme/t238.html\" target=\"_blank\">PC(化工)</a> <a href=\"http://yunvs.com/theme/t239.html\" target=\"_blank\">PA(化工)</a> <a href=\"http://yunvs.com/theme/t252.html\" target=\"_blank\">OX(化工)</a> <a href=\"http://yunvs.com/theme/t22.html\" target=\"_blank\">LDPE(化工)</a> <a href=\"http://yunvs.com/theme/t16.html\" target=\"_blank\">DOP(化工)</a> <a href=\"http://yunvs.com/theme/t7.html\" target=\"_blank\">PU(化工)</a> <a href=\"http://yunvs.com/theme/t8.html\" target=\"_blank\">PTA(化工)</a> <a href=\"http://yunvs.com/theme/t1040.html\" target=\"_blank\">新疆建设</a> <a href=\"http://yunvs.com/theme/t916.html\" target=\"_blank\">喀什经济开发区</a> <a href=\"http://yunvs.com/theme/t421.html\" target=\"_blank\">自来水供应</a> </td>

PS：如果报错UnicodeEncodeError: 'gbk' codec can't encode character,则在程序头部加入字符集支持 #coding=utf-8
基本上我们需要的核心块都被抓取出来了
我们也可以以text文本的方式输出，这样就去掉了html标记

点击(此处)折叠或打开

#coding=utf-8
from pyquery import PyQuery as pq
from lxml import etree
from pyquery import PyQuery as pq
from lxml import etree

v_source=pq(url='http://yunvs.com/list/mai_1.html')

for data in v_source('tr'):
print pq(data).text() -----以text文本的方式进行输出

结果如下：

点击(此处)折叠或打开

代码股票市场关注度↓ 平均MAI MAI相对变动相关概念
600401 海润光伏 17417.6 2006.94 +767.87% 光伏太阳能阶梯电价受益多晶硅券商(龙头) 金太阳工程
002143 高金食品 10391.3 1339.54 +675.74% 肉制品猪肉成渝特区猪肉加工农地林地传媒
002070 众和股份 6022.89 611.21 +885.4% 印染锂精矿海西己内酰胺
300213 佳讯飞鸿 5896.39 374.88 +1472.87% 光通信探月工程三季报预增铁路营改增铁路营改增
600732 上海新梅 4529.39 894.01 +406.64% 迪士尼创投
600303 曙光股份 4139.83 131.78 +3041.47% 客车新能源客车东北振兴乙肝疫苗校车公路运输公路运输镍碳超级电容电池
002130 沃尔核材 3749.11 1875.24 +99.93% 核电抗辐射新型建材新材料珠三角区电线电缆铁基超导合肥综合保税区中英核电合作超导材料新合成三维材料
002113 天润控股 3741.65 569.31 +557.23% 足球
600315 上海家化 3638.3 1602.57 +127.03% 化妆品消毒抗病毒产品丙烯腈信托纯碱三季报预增易信民族品牌草甘膦苯胺己内酰胺
002009 天奇股份 3566.27 412.28 +765.01% 风电叶片低碳经济江苏沿海地区机器人工业自动化智能物流骨干网供热管网改造物流报废车回收万达文化旅游城循环经济
000018 中冠A 3354.35 172.67 +1842.63% 印染工业用地
000036 华联控股 3131.94 184.24 +1599.93% PTA(化工) 前海开发珠三角区深圳土地创新家具建材前海规划工业用地集体建设用地
002356 浩宁达 2798.2 257.86 +985.16% 智能电表智能电网电力改革
300249 依米康 2796.64 713.37 +292.03%
300282 汇冠股份 2721.66 488.97 +456.61% 教育装备联想供应链触摸屏游戏机
300279 和晶科技 2669.16 586.76 +354.9% 手势控制云计算无锡物联网智能家居物联网
300010 立思辰 2452.26 636.86 +285.06% 软件外包网络安全饮料包装网络教育棱镜计划在线教育空中交通管理电子政务职业教育去IOE 阿里巴巴上市信息安全高校智慧医疗 WAPI WAPI 国家安全
300220 金运激光 2411.08 873.71 +175.96% 激光武器激光 3D打印
600754 锦江股份 2360.15 387.22 +509.51% 迪士尼迪士尼旅游消费酒店餐饮上海金融创新镁矿国企改革旅游行业
600016 民生银行 2338.14 1424.41 +64.15% 股份制银行海洋工程二维码海洋产品养殖棚户改造民生电商奢侈品人民币升值农业合作社电子商务电商支付宝无人岛互联网金融三季报预增聚宝盆 T+0 券商券商影子银行金枪鱼金枪鱼泉州金改余额宝金改博鳌港股互通微信理财通儿童节小额贷款

可以看到，我们需要的数据以行记录的形式已经抓取下来了。

如果我们想获取每一行的第一个记录应该如何得到呢？

这里就要分析一下代码了，还是以这段代码为例：

点击(此处)折叠或打开

<tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
<td align=\"center\">17876.8</td>
<td align=\"center\">2005.74</td>
<td align=\"center\">+791.28%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>  <a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>  <a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>  <a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>  <a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>  <a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>  </td>
</tr>

在最外面的tr段中，包含了6个小的td段，我们需要的数据都内嵌在这6个小的td段中，那么我们如果想调出单个td段的对象，可用如下代码测试:

点击(此处)折叠或打开

#coding=utf-8
from pyquery import PyQuery as pq
from lxml import etree
from pyquery import PyQuery as pq
from lxml import etree

v_source=pq(url='http://yunvs.com/list/mai_1.html')

for data in v_source('tr'):
    print pq(data).text()
    for i in range(len(data)):
        print pq(data).find('td').eq(i).text()

截取一段输出如下：

600315 上海家化 3645.76 1602.69 +127.48% 化妆品消毒抗病毒产品丙烯腈信托纯碱三季报预增易信民族品牌草甘膦苯胺己内酰胺
600315       ----eq(0)    组内第一个元素
上海家化      ---eq(1)    组内第二个元素
3645.76      ----eq(2)   组内第三个元素
1602.69      ----eq(3) 组内第四个元素
+127.48%   ----eq(4)   组内第五个元素
化妆品消毒抗病毒产品丙烯腈信托纯碱三季报预增易信民族品牌草甘膦苯胺己内酰胺   ---组内第六个元素

以上抓取代码解释如下：

pq(data).find('td')   意思是对第一次过滤的 v_source('tr')代码再次在内部进行二次查找，过滤'td'打头的段，可以看到一共有5个。
len(data) 输出代码里面的元素个数
pq(data).find('td').eq(i)    获取此段代码过滤后的第i个元素

从上面的输出可以看到，我们需要的数据就是第1，2，6 三个元素，那么我们的代码可以这样写：

点击(此处)折叠或打开

#coding=utf-8
from pyquery import PyQuery as pq
from lxml import etree
from pyquery import PyQuery as pq
from lxml import etree

v_source=pq(url='http://yunvs.com/list/mai_1.html')

for data in v_source('tr'):
    print pq(data).find('td').eq(0).text()
    print pq(data).find('td').eq(1).text()
    print pq(data).find('td').eq(5).text()

输出结果如下(截取一段)：
600401
海润光伏
光伏太阳能阶梯电价受益多晶硅券商(龙头) 金太阳工程

看到没有，我们需要的信息已经逐渐清晰了，目前股票代码和股票名称已经能解析出来后进行准确的定位，剩下的就是将以空格隔开的概念单个解析出来与股票进行匹配。

有了上面的经验，我们继续观察第一段代码，以便对概念进行第三次解析

点击(此处)折叠或打开

<tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
<td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
<td align=\"center\">17876.8</td>
<td align=\"center\">2005.74</td>
<td align=\"center\">+791.28%</td>
<td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>  <a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>  <a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>  <a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>  <a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>  <a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>  </td>
</tr>

可以看到，概念的信息在'td'代码段里面又分了几组，组与组之间以'a'标签进行分隔，那么需要对'td'组内的第6个元素再次进行过滤，可用如下代码进行测试:

点击(此处)折叠或打开

#coding=utf-8
from pyquery import PyQuery as pq
from lxml import etree
from pyquery import PyQuery as pq
from lxml import etree

v_source=pq(url='http://yunvs.com/list/mai_1.html')

for data in v_source('tr'):
    print pq(data).find('td').eq(0).text()
    print pq(data).find('td').eq(1).text()
    print pq(data).find('td').eq(5).text()
    v_ind = pq(data).find('td').eq(5)
    for i in range(len(pq(v_ind).find('a'))):       --输出概念元祖内以'a'打头标记的元素个数
        print pq(v_ind).find('a').eq(i).text()      --输出对应的元素

v_ind = pq(data).find('td').eq(5)
pq(v_ind).find('a')
以上两段代码是关键，第一行代码用于摘出概念模块的html代码，如下：

点击(此处)折叠或打开

<td align=\\\"left\\\"><a href=\\\"http://yunvs.com/theme/t640.html\\\" target=\\\"_blank\\\">光伏</a>  <a href=\\\"http://yunvs.com/theme/t323.html\\\" target=\\\"_blank\\\">太阳能</a>  <a href=\\\"http://yunvs.com/theme/t225.html\\\" target=\\\"_blank\\\">阶梯电价受益</a>  <a href=\\\"http://yunvs.com/theme/t105.html\\\" target=\\\"_blank\\\">多晶硅</a>  <a href=\\\"http://yunvs.com/theme/t285.html\\\" target=\\\"_blank\\\">券商(龙头)</a>  <a href=\\\"http://yunvs.com/theme/t230.html\\\" target=\\\"_blank\\\">金太阳工程</a>  </td>

第二行代码则用于在上面的代码里面继续过滤以'a'为标签的元素，这样就把之前以空格分隔的数据单个过滤出来了。

从上至下，我们依次得到了股票代码，股票名称以及单个的概念名称，那么我们将这三者组合在一起并输出，可以像这样写代码：

点击(此处)折叠或打开

#coding=utf-8
from pyquery import PyQuery as pq
from lxml import etree
from pyquery import PyQuery as pq
from lxml import etree

v_source=pq(url='http://yunvs.com/list/mai_1.html')

for data in v_source('tr'):
    v_code = pq(data).find('td').eq(0).text()
    v_name = pq(data).find('td').eq(1).text()
    v_ind = pq(data).find('td').eq(5)

    for i in range(len(pq(v_ind).find('a'))):
        v_indname = pq(v_ind).find('a').eq(i).text()
        print v_code
        print v_name
        print v_indname

这样，我们在最里面的循环里面即可将股票和概念单对单组合，最后可将结果写入数据库或文件系统中

输出结果如下：

点击(此处)折叠或打开

600401
海润光伏
光伏
600401
海润光伏
太阳能
600401
海润光伏
阶梯电价受益
600401
海润光伏
多晶硅
600401
海润光伏
券商(龙头)
600401
海润光伏
金太阳工程
002143
高金食品
肉制品
002143
高金食品
猪肉
002143
高金食品
成渝特区
002143
高金食品
猪肉加工
002143
高金食品
农地林地
002143
高金食品
传媒
002070
众和股份
印染
002070
众和股份
锂精矿
002070
众和股份
海西
002070
众和股份
己内酰胺
300213
佳讯飞鸿
光通信
300213
佳讯飞鸿
探月工程
300213
佳讯飞鸿
三季报预增
300213
佳讯飞鸿
铁路营改增
300213
佳讯飞鸿
铁路营改增
600732
上海新梅
迪士尼
600732
上海新梅
创投
600303
曙光股份
客车
600303
曙光股份
新能源客车
600303
曙光股份
东北振兴
600303
曙光股份
乙肝疫苗
600303
曙光股份
校车
600303
曙光股份
公路运输
600303
曙光股份
公路运输
600303
曙光股份
镍碳超级电容电池
002113
天润控股
足球
002130
沃尔核材
核电
002130
沃尔核材
抗辐??
002130
沃尔核材
新型建材
002130
沃尔核材
新材料
002130
沃尔核材
珠三角区
002130
沃尔核材
电线电缆
002130
沃尔核材
铁基超导
002130
沃尔核材
合肥综合保税区
002130
沃尔核材
中英核电合作
002130
沃尔核材
超导材料
002130
沃尔核材
新合成三维材料
600315
上海家化
化妆品
600315
上海家化
消毒
600315
上海家化
抗病毒产品
600315
上海家化
丙烯腈
600315
上海家化
信托
600315
上海家化
纯碱
600315
上海家化
三季报预增
600315
上海家化
易信
600315
上海家化
民族品牌
600315
上海家化
草甘膦
600315
上海家化
苯胺
600315
上海家化
己内酰胺
002009
天奇股份
风电叶片
002009
天奇股份
低碳经济
002009
天奇股份
江苏沿海地区
002009
天奇股份
机器人
002009
天奇股份
工业自动化
002009
天奇股份
智能物流骨干网
002009
天奇股份
供热管网改造
002009
天奇股份
物流
002009
天奇股份
报废车回收
002009
天奇股份
万达文化旅游城
002009
天奇股份
循环经济
000018
中冠A
印染
000018
中冠A
工业用地
000036
华联控股
PTA(化工)
000036
华联控股
前海开发
000036
华联控股
珠三角区
000036
华联控股
深圳土地创新
000036
华联控股
家具建材
000036
华联控股
前海规划
000036
华联控股
工业用地
000036
华联控股
集体建设用地
300010
立思辰
软件外包
300010
立思辰
网络安全
300010
立思辰
饮料包装
300010
立思辰
网络教育
300010
立思辰
棱镜计划
300010
立思辰
在线教育
300010
立思辰
空中交通管理
300010
立思辰
电子政务
300010
立思辰
职业教育
300010
立思辰
去IOE
300010
立思辰
阿里巴巴上市
300010
立思辰
信息安全
300010
立思辰
高校
300010
立思辰
智慧医疗
300010
立思辰
WAPI
300010
立思辰
WAPI
300010
立思辰
国家安全
002356
浩宁达
智能电表
002356
浩宁达
智能电网
002356
浩宁达
电力改革
300282
汇冠股份
教育装备
300282
汇冠股份
联想供应链
300282
汇冠股份
触摸屏
300282
汇冠股份
游戏机
300279
和晶科技
手势控制
300279
和晶科技
云计算
300279
和晶科技
无锡物联网
300279
和晶科技
智能家居
300279
和晶科技
物联网
600754
锦江股份
迪士尼
600754
锦江股份
迪士尼旅游消费
600754
锦江股份
酒店餐饮
600754
锦江股份
上海金融创新
600754
锦江股份
镁矿
600754
锦江股份
国企改革
600754
锦江股份
旅游行业
600016
民生银行
股份制银行
600016
民生银行
海洋工程
600016
民生银行
二维码
600016
民生银行
海洋产品养殖
600016
民生银行
棚户改造
600016
民生银行
民生电商
600016
民生银行
奢侈品
600016
民生银行
人民币升值
600016
民生银行
农业合作社
600016
民生银行
电子商务
600016
民生银行
电商
600016
民生银行
支付宝
600016
民生银行
无人岛
600016
民生银行
互联网金融
600016
民生银行
三季报预增
600016
民生银行
聚宝盆
600016
民生银行
T+0
600016
民生银行
券商
600016
民生银行
券商
600016
民生银行
影子银行
600016
民生银行
金枪鱼
600016
民生银行
金枪鱼
600016
民生银行
泉州金改
600016
民生银行
余额宝
600016
民生银行
金改
600016
民生银行
博鳌
600016
民生银行
港股互通
600016
民生银行
微信理财通
600016
民生银行
儿童节
600016
民生银行
小额贷款
300220
金运激光
激光武器
300220
金运激光
激光
300220
金运激光
3D打印

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/22166274/viewspace-1183937/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/22166274/viewspace-1183937/

你可能感兴趣的:(python,嵌入式,javascript)

LeetCode56☞合并区间 fantasy_4 LeetCode刷题 leetcode python java 算法贪心算法
关联LeetCode题号56本题特点贪心本题思路将二维数组排序按照左边界排序。排序后，右边界的大小成为找到局部最大值的关键。由题意合并区间可知，应该取数组的’并集‘，局部最优解推出全局最优解，每次找到局部最大的范围，整体就会合并成一个大区间Python写法defmerge(self,intervals):result=[]iflen(intervals)==0:returnresult#区间集合为
【python】图形用户界面和游戏开发 usp1994 python ui ide
图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
Python 常用内建模块-base64 赔罪 Python 系统学习 python 前端 linux
目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
嵌入式C语言学习笔记（2）愿抬头有阳光 c语言学习笔记
1.数组指针数组指针本质上就是一个指针，它里面存放的是数组的首地址。#includevoidshow(int(*p)[4],intn){for(inti=0;i4*4=16;3.命令行传递参数，main函数的标准格式intmain(intargc,constchar*argv[]){return0;}//argc：参数的个数包括./a.out//argv：参数的值列表argv[0]="./a.ou
关于使用python进行处理雷达数据笔记六毛驴 python 数据分析
好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
焊接性能分析代码（Python）骑蜗牛上月亮 python 开发语言
welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
深入理解 TypeScript 中的迭代器（Iterators）与生成器（Generators）念九_ysl typescript 前端 typescript
一、为什么需要迭代协议？在现代JavaScript/TypeScript开发中，我们经常需要处理各种集合型数据：数组、Map、Set甚至是自定义数据结构。ES6引入的迭代协议（IterationProtocols）正是为了解决统一遍历机制的问题。通过迭代器模式，我们可以：为不同的数据结构提供统一的访问接口实现惰性计算（LazyEvaluation）支持现代语言特性（for...of,扩展运算符等）
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理 drebander python pdf json
在日常工作中，我们经常需要将PDF文件转换为可编辑、可结构化的数据格式，比如Markdown和JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是PDF转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用Python将PDF转换为Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为JSON，方便后续快速检索与使用。1.实现目标将PDF文件转换为Markd
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
deepseek 对于 Web 前端过去，现在，未来的看法！称未来可能不叫前端工程师... CoderBin_ 与deepseek的对话前端
一、你对于过去的web前端有什么看法？对早期的Web前端开发（大致在2000年代至2010年代初），可以总结出以下几个关键看法：1.技术原始，但充满探索精神基础技术简单：主要依赖HTML、CSS和原生JavaScript，缺乏现代框架和工具链的支持。兼容性噩梦：不同浏览器（尤其是IE6/7）的渲染差异极大，开发者需要大量Hack代码（如条件注释、CSS滤镜）来适配。创新萌芽：AJAX（2005年）
【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现跨平台二维码扫描应用金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 rust 开发语言后端
《一起学Rust|Tauri2.0框架》是一个结合Rust语言与Tauri框架开发跨平台应用的教程。Tauri2.0是一个非常适合构建跨平台桌面应用的框架，它让开发者可以使用Web技术（如HTML、CSS、JavaScript）来创建前端，同时利用Rust编写后端逻辑，确保应用运行高效且轻量。在这个教程中，开发者可以学习如何使用Rust与Tauri2.0框架实现一个跨平台二维码扫描应用。具体步骤可
Python列表与元组的深度剖析 jijihusong006 程序 python windows 开发语言
Python列表与元组的深度剖析：从底层实现到应用场景的全方位对比一、核心差异概览Python教程https://pan.quark.cn/s/7cefe3163f45传送代资料库https://link3.cc/aa99特性列表(List)元组(Tuple)可变性可变(Mutable)不可变(Immutable)语法表示方括号[]圆括号()内存占用较大(动态数组结构)较小(静态数组结构)哈希支持
嵌入式知识笔记1——C++面试复习（3） Yuanyingbian 嵌入式学习资料笔记 c++算法
四、关键字库函数4.1sizeof和strlen的区别strlen是头文件中的函数，sizeof是C++中的运算符。strlen测量的是字符串的实际长度（其源代码如下），以\0结束。而sizeof测量的是字符数组的分配大小。strlen本身是库函数，因此在程序运行过程中，计算长度；而sizeof在编译时，计算长度；sizeof的参数可以是类型，也可以是变量；strlen的参数必须是char*类型的
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
嵌入式程序软件架构 zhuimeng_1234 编程语言
1.线性架构：一种最简单的程序设计结构；2.模块化架构：模块化架构是一种将程序分解为独立模块的设计方法，每个模块执行特定的任务。3.层次化架构：层次化架构是一种将系统分解为多个层次的设计方法，每个层次负责不同的功能。4.事件驱动架构：事件驱动架构是一种编程范式，其中程序的执行流程由事件触发。5.状态机架构：在单片机开发中，状态机常用于处理复杂的逻辑和事件序列，如用户界面管理、协议解析等。6.面向对
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号