2015-12-15python爬虫学习

今天白天上了一天课,上午离散数学,下午数据库。

都结课了,离散数学一直没怎么听。数据库大多数都听了,也掌握了最基本的。

接下来两周就是数据库课程设计。

值得一提的是,今天最后一节课数据库老师说画重点。结果把一本书的知识点都画进去了。

感觉老师是在完那你画我猜啊。

晚上回来还在一直研究爬虫,想爬取sina的热点话题。

写正则表达式的时候,一直遇到问题。就是一直只能匹配一个结果。

一下是我把源码提取出来并经过格式化代码得到的结果,本来html文件都在一行的。

http://weibo.cn/pub/?tf=5_005,这个页面的源码全在一行。

<body>
    <div class="t">
        <img src="http://u1.sinaimg.cn/upload/wap/img/logo-wap_20140328.png"
            alt="LOGO" />
    </div>
    <div class="u">
        <div class="ut">给蜗牛配点音乐,下午好!</div>
    </div>
    <div class="tip">
        <a href="http://weibo.cn/?pos=65&amp;s2w=admin">首页</a>.<a
            href="/v2star/?pos=65">名人</a>.<a href="/page/261?pos=65">导航</a>.<a
            href="http://vip.weibo.cn">会员</a>.<a
            href="http://down.sina.cn/weibo/">客户端</a><br />
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/100808e903e9c6f954c7770505dc2947591cf9?pos=65">王宝强痛骂酒驾逃逸</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/100808837542f8faf4d7d6d70d58d8b8e0874b?pos=65">实拍:女孩被母亲推入河中训斥</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/1008085797e228591e19783b3218d3657a392c?pos=65">天了噜!一女子雾霾中串门找不到家</a>
    </div>
    <div class="c">
        <form action="/search/" method="post">
            <div>
                <input type="text" name="keyword" value="" size="12" /><input
                    type="submit" name="suser" value="找人" /><input type="submit"
                    name="smblog" value="搜微博" />
            </div>
        </form>
    </div>
    <div class="tip">
        <a href="/pub/topmblog?pos=65">热门微博</a>
    </div>
    <div class="c">
        <a href="http://weibo.cn/5698201083/D8nDcxNku?pos=65">崩溃了!第一次和女网友视频</a>
    </div>
    <div class="c">
        <a href="http://weibo.cn/1642512402/D8vtW1xFc?pos=65">容易读错的116个汉字</a>
    </div>
    <div class="c">
        <a href="http://weibo.cn/2705478317/D8xfKqE3I?pos=65">好听!钢琴古筝合奏《葬花吟》</a>
    </div>
    <div class="c">
        <a href="http://weibo.cn/5522810625/D8odNBMgP?pos=65">女神Man起来直女癌都能掰弯</a>
    </div>
    <div class="c">
        <a href="http://weibo.cn/2230913455/D8xpIz8VT?pos=65">1993年华语乐坛巅峰时刻</a>
    </div>
    <div class="c">
        <a href="/pub/topmblog?pos=65">查看更多&gt;&gt;</a>
    </div>
    <div class="tip">
        <a href="http://huati.weibo.cn">热门话题</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/100808b150723a6c2d030d71df66a20d09da42?pos=65">职业乞丐开宝马上班</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/100808fa8d4b8dd4374a996252dcc71b858851?pos=65">男子闻妻子内裤发现奸情</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/10080879d73fc2fe67707d9e621902606f71cd?pos=65">尿毒症“未婚妈妈”创业自救</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/100808d4347b8ee4853bb7ecbed216bf9e6f39?pos=65">男童惨遭父亲毒打致器官衰竭</a>
    </div>
    <div class="c">
        <a
            href="http://weibo.com/p/100808ce9bdb0b2c83047292b31c3cac27f5f7?pos=65">随便输液是变相谋杀</a>
    </div>
    <div class="c">
        <a href="http://huati.weibo.cn">查看更多&gt;&gt;</a>
    </div>
    <div class="tip">精品推荐</div>
    <div class="c">
        <a href="http://vip.weibo.cn">会员</a>.<a
            href="http://weibo.cn/dpool/ttt/data.php?s2w=admin">微数据</a>.<a
            href="/dpool/ttt/sharerank.php">微分享</a>
    </div>
    <div class="c">
        <ahref ="/u/1658688240?pos=65">@手机微博 为您解答使用问题</a>
    </div>
    <div class="c">
        <a
            href="http://3g.sina.com.cn/3g/pro/index.php?tid=254&amp;did=1354&amp;vid=150">微博盗链举报!</a>
    </div>
    <div class="cd">
        <a href="#top"><img
            src="http://r3.sinaimg.cn/3g/image/upload/0/62/203/18979/5e990ec2.gif"
            alt="TOP" /></a>
    </div>
</body>
</html>

只要用正则匹配出来的结果就是

http://weibo.com/p/1008089df06f9e8dac54f7b21c113f91b5488e?pos=65">上海地铁现惊悚裸男涂鸦</a>        </div><div class="c"><a href="http://weibo.com/p/1008085797e228591e19783b3218d3657a392c?pos=65">天了噜!一女子雾霾中串门找不到家</a>        </div><div class="c"><a href="http://weibo.com/p/1008089af68004bed2fe8bf6912cbf64847a0a?pos=65">一元烟钱引发的悲剧?</a>        </div><div class="c"><form action="/search/" method="post"><div><input type="text" name="keyword" value="" size="12"/><input type="submit" name="suser" value="找人"/><input type="submit" name="smblog" value="搜微博"/>            </div></form></div><div class="tip"><a href="/pub/topmblog?pos=65">热门微博</a></div><div class="c"><a href="http://weibo.cn/1680002624/D8nP2wmcD?pos=65">一场情侣之间简单的对话</a>            </div><div class="c"><a href="http://weibo.cn/5522810625/D8odNBMgP?pos=65">女神Man起来直女癌都能掰弯</a>            </div><div class="c"><a href="http://weibo.cn/2705478317/D8xfKqE3I?pos=65">好听!钢琴古筝合奏《葬花吟》</a>            </div><div class="c"><a href="http://weibo.cn/2230913455/D8xpIz8VT?pos=65">1993年华语乐坛巅峰时刻</a>            </div><div class="c"><a href="http://weibo.cn/5659237191/D8miSeryO?pos=65">重口味疗法--灌大便</a>            </div><div class="c"><a href="/pub/topmblog?pos=65">查看更多&gt;&gt;</a></div><div class="tip"><a href="http://huati.weibo.cn">热门话题</a></div><div class="c"><a href="http://weibo.com/p/100808386d43bc01026c64d911d24da7b12042?pos=65">少女校内遭多人扒衣猥亵</a>            </div><div class="c"><a href="http://weibo.com/p/10080879d73fc2fe67707d9e621902606f71cd?pos=65">尿毒症“未婚妈妈”创业自救</a>            </div><div class="c"><a href="http://weibo.com/p/100808783a7c456e2faebf891652ddbc88d6ec?pos=65">小学生写诗感叹周末补习太忙</a>            </div><div class="c"><a href="http://weibo.com/p/100808b150723a6c2d030d71df66a20d09da42?pos=65">职业乞丐开宝马上班</a>            </div><div class="c"><a href="http://weibo.com/p/100808ce9bdb0b2c83047292b31c3cac27f5f7?pos=65">随便输液是变相谋杀</a>            </div><div class="c"><a href="http://huati.weibo.cn">查看更多&gt;&gt;</a></div><div class="tip"><a href="/pub/top?cat=star&amp;pos=65">名人排行</a>.<ahref="/pub/top?cat=grass&amp;pos=65">草根排行</a></div><table><tr><td valign="top"><a href="/npss" class="pl"><img src="http://tp3.sinaimg.cn/1237869662/50/5702634624/1" alt="头像" class="por" /></a></td><td valign="top"><a href="http://weibo.cn/npss" class="nk">南派三叔</a><img src="http://u1.sinaimg.cn/upload/2011/07/28/5338.gif" alt="V" /><img src="http://u1.sinaimg.cn/upload/h5/img/hyzs/donate_btn_s.png" alt="M"/><br/>粉丝11102026人<br/><a href="/attention/add?uid=1237869662&amp;rl=0&amp;st=802e22">关注他</a></td></tr></table><table><tr><td valign="top"><a href="/u/2049787153" class="pl"><img src="http://tp2.sinaimg.cn/2049787153/50/5739783622/1" alt="头像" class="por" /></a></td><td valign="top"><a href="http://weibo.cn/u/2049787153" class="nk">宁桓宇</a><img src="http://u1.sinaimg.cn/upload/2011/07/28/5338.gif" alt="V" /><img src="http://u1.sinaimg.cn/upload/h5/img/hyzs/donate_btn_s.png" alt="M"/><br/>粉丝2187342人<br/><a href="/attention/add?uid=2049787153&amp;rl=0&amp;st=802e22">关注他</a></td></tr></table><div class="c"><a href="/pub/top?cat=star&amp;pos=65">查看更多&gt;&gt;</a></div><div class="tip">精品推荐</div><div class="c"><a href="http://vip.weibo.cn">会员</a>.<a href="http://weibo.cn/dpool/ttt/data.php?s2w=admin">微数据</a>.<a href="/dpool/ttt/sharerank.php">微分享</a></div><div class="c"><ahref="/u/1658688240?pos=6

一个结果,后来我才发现。

sina的手机端源码都是一行,没有换行。这导致我在匹配的时候永远只能匹配一个结果。


我倒现在还没有解决这个问题,请问这个问题如何解决?

你可能感兴趣的:(2015-12-15python爬虫学习)