ykhZuojava

基于Python的100+高质量爬虫开源项目（持续更新中）

前言

以下是项目所使用的框架，不同的项目所使用的框架或许有不同，但都万差不离：

Scrapy：一个快速的高级Web爬虫框架，可用于从网站中提取结构化数据。

BeautifulSoup：一个用于从HTML和XML文件中提取数据的Python库。

PySpider：一个轻量级，跨平台并基于事件的Python爬虫框架。

Tweepy：一个用于访问Twitter API的Python库，可用于采集Twitter数据。

Selenium：一个用于自动化Web浏览器的Python库，可用于模拟用户在网站上的操作。

如果有已更新的爬虫项目对大家的学习有帮助的话，可以点赞，打赏

如果有希望更新的爬虫也可以给博主提交，后续的更新中有可能就是你想学习的哦~

系列文章目录

注意：本系列所有的项目无论代码还是数据，仅供个人学习;毕业设计等参考使用，不允许直接使用在任何商业领域！如需要在商业领域使用请自行修改或定制！

本章为爬虫部分的讲解，如需要数据处理方面及机器学习等的应用案例，请关注博主的后续文章！

如需要完整代码的代码及数据，请在评论区留言~

已更新的网站
哔哩哔哩	QQ音乐	东方财富	中医资源	京东	今日头条	动漫人物	去哪儿	天气后报网	学习强国
拉勾网	新浪微博	汽车之家	淘宝网	知乎	网易云音乐	腾讯新闻	读书网	豆瓣电影	豌豆夹
起点中文网	4399小游戏	天天基金	抖音	豆瓣读书	Steam

哔哩哔哩

网站介绍：

当我们谈起哔哩哔哩（Bilibili）时，很多人会想到它是一个弹幕视频网站，但事实上这个平台已经不仅仅是一个视频网站了。

哔哩哔哩成立于2009年，最初是一个以ACG（动漫、漫画、游戏）为主题的弹幕视频分享平台，它的独特之处就在于用户可以在视频上发表弹幕评论。这种弹幕形式让观众和内容创作者之间建立了更为紧密的联系，而当时的Bilibili也因此获得了众多ACG爱好者的追捧。

在经过多年的运营和发展之后，哔哩哔哩不仅成长为中国最具影响力的弹幕视频平台之一，还成为了拥有众多粉丝的文化娱乐社区。现在，哔哩哔哩已经涵盖了游戏、音乐、电影、综艺等多个领域，成为一个综合性的互联网文化平台，拥有亿万用户和众多的优质内容。

哔哩哔哩的用户文化也非常独特。在这个平台上，用户可以自由发表评论、发布视频、参与各种讨论活动，还可以和其他用户组成团队，打造属于自己的社群文化。而且，哔哩哔哩的用户群体年轻化程度比较高，这也促进了平台上各种潮流文化和年轻人的创新。

总体来说，哔哩哔哩不仅仅是一个视频网站，更是一个充满活力和自由的文化社区。未来，哔哩哔哩还将继续探索新的领域，为用户提供更好更有趣的内容和体验。

数据用途：

普通用途：大屏可视化、评论情绪分析等

进阶用途：喜好分析，推荐算法，趋势分析等

代码实现：

for key, value in paloads.items():
    json_data = getVideoList(key, 1)
    total = json_data['data']['total'] // 20 + 1
    for page in range(1, total):
        try:
            json_data = getVideoList(key, page)
            for video in json_data['data']['list']:
                saveCSV(key, video)
                progress_bar(key, page, total,video['title'])
        except Exception as e:
            print(e,json_data,paloads[key]['url'].format(page))
            # 跳过错误，继续执行
            continue

for index, row in video_list.iterrows():
    try:
        media_id = row['media_id']
        url = 'https://www.bilibili.com/bangumi/media/md{}'.format(media_id)
        response = requests.get(url)
        jsonText = json.loads(re.search(r"window\.__INITIAL_STATE__=(.*?)};", response.text).group(1) + '}')
        styless = jsonText['mediaInfo']['styles']
        style = ''
        for styles in styless:
            style += styles['name'] + ' '
        a = {
            'media_id': [str(response.url).split('/md')[1]],
            'actors': [jsonText['mediaInfo']['actors'].replace('\n', ' ').replace('、', ' ')],
            'staff': [jsonText['mediaInfo']['staff'].replace('、', ' ')],
            'introduction': [jsonText['mediaInfo']['evaluate']],
            'season_version': [style],
            'danmaku_count': [jsonText['mediaInfo']['stat']['danmakus']],
            'play_count': [jsonText['mediaInfo']['stat']['views']],
            'follow_count': [jsonText['mediaInfo']['stat']['favorites']],
            'series_follow': [jsonText['mediaInfo']['stat']['series_follow']]
        }
        info_list = pd.DataFrame(a)
        info_list.to_csv('dataset/bilibili_video_info.csv', index=False,mode='a',header=False)
        progress_bar('视频信息爬取进度', index + 1, len(video_list), str(response.url).split('/md')[1])
    except Exception as e:
        print(e)
        continue

for index, row in video_list.iterrows():
    try:
        media_id = row['media_id']
        page = ''
        while True:
            json_data = getVideoList(media_id,page)
            if json_data['data']['list'] == None:
                break
            for video in json_data['data']['list']:
                saveCSV(video)
                progress_bar('视频评论爬取进度', index + 1, len(video_list), video['content'])
            page += 1
            if page > 10:
                break
    except Exception as e:
        continue

for index, row in video_list.iterrows():
    url = row['cover_img']
    media_id = row['media_id']
    r = requests.get(url)
    with open('output/images/{}.jpg'.format(media_id), 'wb') as f:
        f.write(r.content)
    print('正在下载第' + str(index) + '张图片'+'共'+str(len(video_list))+'张'+',图片名为：'+str(row['media_id']) + '.jpg')

数据预览：

QQ音乐

网站介绍：

QQ音乐是一款中国大陆的在线音乐播放器，由腾讯公司推出，提供了海量的音乐资源，包括国内外最热门的歌曲、最新的音乐专辑、MV等。用户可以通过QQ音乐听歌、搜索歌曲、创建歌单、分享音乐等功能，同时还可以进行付费下载、在线听歌等操作。QQ音乐还拥有个性化推荐功能，根据用户的喜好和听歌历史，自动推荐精准的音乐，让用户更好地享受音乐的乐趣。

数据用途：

大屏可视化，喜好分析等

代码实现：

for url in urls:
    html = requests.get(url['url']).text
    html = BeautifulSoup(html, 'lxml')
    song_list = html.find('ul', class_='songlist__list').find_all('li')
    for song in song_list:
        top_num = song.find('div', class_='songlist__number').text
        song_name = song.find('span', class_='songlist__songname_txt').text
        is_vip = song.find('i', class_='songlist__icon songlist__icon_vip sprite')
        is_mv = song.find('a', class_='songlist__icon songlist__icon_mv sprite')
        song_author = song.find('a', class_='playlist__author').text
        song_time = song.find('div', class_='songlist__time').text
        song_url = song.find('a', class_='songlist__cover')['href']
        a = {
            'top_name': [url['name']],
            'top_num': [top_num],
            'song_name': [song_name],
            'is_vip': ['VIP' if is_vip else ''],
            'is_mv': ['MV' if is_mv else ''],
            'song_author': [song_author],
            'song_time': [song_time],
            'song_url': ['https://y.qq.com{}'.format(song_url)]
        }
        print(a)
        top_list = pd.DataFrame(a)
        top_list.to_csv('dataset/top_list.csv', index=False,mode='a',header=False)

for singer in singer_list:
    singer_name = singer.find_element(By.TAG_NAME,'a').text
    singer_url = singer.find_element(By.TAG_NAME,'a').get_attribute('href')
    singer_id = singer_url.split('/')[-1]
    print(singer_name, singer_url, singer_id)
    a = {
        'singer_id': [singer_id],
        'singer_name': [singer_name],
        'singer_url': [singer_url]
    }
    df = pd.DataFrame(a)
    df.to_csv('dataset/singer_list.csv', mode='a', header=False, index=False)

for index,value in singer_list.iterrows():
    try:
        singer_info, song_list = getPage(value['singer_url'])
        print('歌手：{}，歌曲：{}，歌曲数：{}，进度：{}/{}'.format(value['singer_name'], singer_info['singer_song_num'],
                                                            len(song_list), index + 1, len(singer_list)))
        singer_list.loc[singer_list['singer_id'] == value['singer_id'], 'singer_intro'] = singer_info['singer_intro']
        singer_list.loc[singer_list['singer_id'] == value['singer_id'], 'singer_song_num'] = singer_info[
            'singer_song_num']
        singer_list.loc[singer_list['singer_id'] == value['singer_id'], 'singer_album_num'] = singer_info[
            'singer_album_num']
        singer_list.loc[singer_list['singer_id'] == value['singer_id'], 'singer_mv_num'] = singer_info['singer_mv_num']
        singer_list.loc[singer_list['singer_id'] == value['singer_id'], 'singer_fans_num'] = singer_info[
            'singer_fans_num']
        singer_list.to_csv('dataset/singer_list.csv', index=False)

        song_list = pd.DataFrame(song_list)
        song_list['singer_id'] = value['singer_id']
        song_list = song_list[
            ['singer_id', 'singer_song_id', 'singer_song_name', 'singer_song_url', 'singer_song_album_name',
             'singer_song_album_url', 'singer_song_time']]
        song_list.to_csv('dataset/song_list.csv', mode='a', header=False, index=False)
    except Exception as e:
        print(e)
        pass

数据预览：

东方财富

网站介绍：

东方财富是中国领先的互联网金融信息及数据服务提供商。公司成立于1994年，总部位于中国上海市。东方财富提供股票、基金、债券、期货等多种金融产品的信息服务，涵盖了全球各地区的金融市场数据和研究报告。东方财富还提供投资咨询、金融科技解决方案等服务。目前，公司已经成为中国最大的金融信息服务平台之一，拥有超过6000万活跃用户。

数据用途：

可视化，预测，推荐，关键字等

代码实现：

    def parse(self, response):
        key = response.meta['key']
        url = response.meta['url']
        # 将响应数据转换为json数据
        json_data = response.text
        #去掉响应数据中的jQuery(和后面的)，只保留()中的json数据
        json_data = json_data[json_data.find('(')+1:json_data.rfind(')')]
        #将json数据转换为字典
        json_data = json.loads(json_data)
        #获取数量总数
        total_size = json_data['data']['total']
        #获取当前页码
        current_page = response.meta['page']
        #获取每页数量
        page_size = response.meta['page_size']
        #计算总页数
        total_page = math.ceil(total_size/page_size)
        #获取当前页的数据
        data = json_data['data']['diff']
        #遍历当前页的数据
        for item in data:
            '''
                        f12:股票代码
                        f14:股票名称
                        f2:最新价
                        f3:涨跌幅
                        f4:涨跌额
                        f5:成交量
                        f6:成交额
                        f7:振幅
                        f8:换手率
                        f9:市盈率
                        f10:量比
                        f11:5分钟涨跌幅
                        f13:涨或跌 1涨 0跌
                        f15:最高价
                        f16:最低价
                        f17:今开价
                        f18:昨收价
                        f20:总市值（单位元）
                        f21:流通市值（单位元）
                        f22:涨速
                        f23:市净率
                        f24:60日涨跌幅
                        f25:年初至今涨跌幅
                        f26:上市时间
                        f115:市盈率（动态）
                    '''
            sli = StockListItem()
            #分类
            sli['category'] = key
            #获取股票代码
            sli['code'] = item['f12']
            #获取股票名称
            sli['name'] = item['f14']
            #获取最新价
            sli['price'] = item['f2']
            #获取涨跌幅
            sli['change_percent'] = item['f3']
            #获取涨跌额
            sli['change_amount'] = item['f4']
            #获取成交量
            sli['volume'] = item['f5']
            #获取成交额
            sli['amount'] = item['f6']
            #获取振幅
            sli['amplitude'] = item['f7']
            #获取换手率
            sli['turnover_rate'] = item['f8']
            #获取市盈率
            sli['pe'] = item['f9']
            #获取量比
            sli['volume_ratio'] = item['f10']
            #获取5分钟涨跌幅
            sli['five_minute_change_percent'] = item['f11']
            #获取涨或跌 1涨 0跌
            sli['up_or_down'] = item['f13']
            #获取最高价
            sli['high_price'] = item['f15']
            #获取最低价
            sli['low_price'] = item['f16']
            #获取今开价
            sli['open_price'] = item['f17']
            #获取昨收价
            sli['close_price'] = item['f18']
            #获取总市值（单位元）
            sli['total_market_value'] = item['f20']
            #获取流通市值（单位元）
            sli['circulation_market_value'] = item['f21']
            #获取涨速
            sli['change_speed'] = item['f22']
            #获取市净率
            sli['pb'] = item['f23']
            #获取60日涨跌幅
            sli['sixty_day_change_percent'] = item['f24']
            #获取年初至今涨跌幅
            sli['year_to_date_change_percent'] = item['f25']
            #获取上市时间
            sli['listing_date'] = item['f26']
            #获取市盈率（动态）
            sli['dynamic_pe'] = item['f115']
            yield sli
        # 打印key,数量总数，当前页码，每页数量，总页数

        if current_page < total_page:
            print({
                '分类': key,
                '数量总数': total_size,
                '当前页码': current_page,
                '每页数据量': page_size,
                '总页数': total_page,
            })
            #如果当前页码小于总页数，继续发送请求
            current_page += 1
            yield scrapy.Request(
                url=url.format(current_page,page_size,key),
                callback=self.parse,
                meta={'page':current_page,'page_size':page_size,'key':key,'url':url}
            )

    def parse(self, response):
        code = response.meta['code']
        name = response.meta['name']
        category = response.meta['category']
        json_data = json.loads(response.text)['dstx']
        data = json_data['data']
        for item in data:
            sni = StockNoticeItem()
            sni['code'] = code
            sni['name'] = name
            sni['category'] = category
            sni['event_type'] = item[0]['EVENT_TYPE']
            sni['level1_content'] = item[0]['LEVEL1_CONTENT']
            sni['level2_content'] = item[0]['LEVEL2_CONTENT']
            sni['notice_date'] = item[0]['NOTICE_DATE']
            sni['specific_eventtype'] = item[0]['SPECIFIC_EVENTTYPE']
            yield sni
        hasNext = json_data['hasNext']
        if hasNext==1:
            pageIndex = response.meta['pageIndex']
            url = self.paloads['getDate'].format(code, pageIndex+1)
            yield scrapy.Request(url=url, callback=self.parse,
                                 meta={'code': code, 'name': name, 'category': category, 'pageIndex': pageIndex+1})
        pass

    def parse(self, response):
        code = response.meta['code']
        name = response.meta['name']
        category = response.meta['category']
        json_data = json.loads(response.text)
        json_data = json_data['data']
        date = ''
        for item in json_data:
            date = date + str(item['REPORT_DATE']).split(' ')[0] +','
        date = date[:-1]
        url = self.paloads['getInfo'].format(date,response.meta['code'])
        yield scrapy.Request(url=url, callback=self.parse_info, meta={'code':code,'name':name,'category':category})
        pass

    def parse(self, response):
        # 去掉响应数据中的jQuery(和后面的)，只保留()中的json数据
        json_data = response.text[response.text.find('(') + 1:response.text.rfind(')')]
        json_data = json.loads(json_data)
        print(json_data['data'])
        # code
        code = json_data['data']['code']
        # name
        name = json_data['data']['name']
        # klines
        klines = json_data['data']['klines']
        for kline in klines:
            skli = StockKLineItem()
            # 代码
            skli['code'] = code
            # 名称
            skli['name'] = name
            # 日期
            skli['date'] = kline.split(',')[0]
            # 开盘价
            skli['open'] = kline.split(',')[1]
            # 收盘价
            skli['close'] = kline.split(',')[2]
            # 最高价
            skli['high'] = kline.split(',')[3]
            # 最低价
            skli['low'] = kline.split(',')[4]
            # 成交量
            skli['volume'] = kline.split(',')[5]
            # 成交额
            skli['amount'] = kline.split(',')[6]
            # 振幅
            skli['amplitude'] = kline.split(',')[7]
            # 涨跌幅
            skli['change_percent'] = kline.split(',')[8]
            # 涨跌额
            skli['change_amount'] = kline.split(',')[9]
            # 换手率
            skli['turnover_rate'] = kline.split(',')[10]
            print('当前正在爬取的股票代码为：{},名字:,日期：{}'.format(code,skli['name'],skli['date']))
            yield skli
        pass

数据预览：

中医资源网

网站介绍：

中医资源网是一个集中医相关信息、知识、资源的网站，包含中医药相关的疾病诊疗、中药方剂、针灸推拿、养生保健、文化传承等多个方面内容。用户可以在网站上查找中医病案、中药方剂、针灸推拿技术、中医养生保健、中医文化传承等方面的资料，也可以参加在线教育培训，学习中医相关专业知识和技能。中医资源网的宗旨是传承和发扬中医药文化，推广中医药知识和技术，提高公众的健康意识和健康素养，促进中医药事业的发展。

数据用途：

可视化，问答机器人，推荐

代码实现：

    def parse(self, response):
        # 获取拼音索引
        pinyin = response.meta['pinyin']
        # 获取所有的药品
        # 使用xpath定位id为"DataList1"的table
        table = response.xpath('//*[@id="DataList1"]')
        # 使用xpath定位table下的所有tr
        trs = table.xpath('./tr')
        # 遍历trs
        for tr in trs:
            # 使用xpath定位tr下的所有td
            tds = tr.xpath('./td')
            # 遍历tds
            for td in tds:
                # 取出td中第二个a标签的文本，链接
                name = td.xpath('./a[2]/text()').extract_first()
                link = td.xpath('./a[2]/@href').extract_first()
                link = 'http://www.tcmdoc.cn/shujuku/zhongyao/{}'.format(link)
                zhongyao = ZhongyaoItem()
                zhongyao['name'] = name
                zhongyao['link'] = link
                zhongyao['pinYin_index'] = pinyin
                zhongyao['image_urls'] = ''
                zhongyao['pinYin_name'] = ''
                zhongyao['alias'] = ''
                zhongyao['source'] = ''
                zhongyao['habitat'] = ''
                zhongyao['taste'] = ''
                zhongyao['function'] = ''
                zhongyao['dosage'] = ''
                zhongyao['excerpt'] = ''
                zhongyao['character'] = ''
                zhongyao['processing'] = ''
                zhongyao['protomorph'] = ''
                zhongyao['remarks'] = ''
                yield scrapy.Request(url=link, callback=self.parse_detail,meta={'zhongyao':zhongyao})
        pass

数据预览：

京东

网站介绍：

京东网，简称京东，是中国最大的综合性电子商务公司之一，成立于2004年，总部位于北京市。京东商城提供一站式的电子商务解决方案，包括在线购物、客户服务、物流配送等业务，为消费者提供优质的商品选择和购物体验。京东商城的产品包括家电、手机、电脑数码、服装、家居、母婴、食品等多个品类，同时也提供海外购、团购、超市等服务。京东商城以“诚信、共赢、客户为先、追求卓越”为核心价值观，致力于成为全球领先的电子商务企业。

数据用途：

可视化，推荐，预测

代码实现：

    def parse(self, response):
        keyword = response.meta['keyword']
        print('>>>>>>>>>>>>>>>>>keyword:', keyword)
        # 使用xpath解析数据，定位到id为J_goodsList的div标签，然后再定位到所有的li标签
        li_list = response.xpath('//div[@id="J_goodsList"]/ul/li')
        for li in li_list:
            item = JdGoodsItem()
            # 使用xpath解析数据，定位到id为J_goodsList的div标签，然后再定位到所有的li标签
            item['keyword'] = keyword['keyword']
            item['title'] = li.xpath('./div/div[@class="p-name p-name-type-2"]/a/em/text()').extract_first()
            # 去掉特殊字符
            try:
                item['title'] = item['title'].replace('\n', '').replace('\r', '').replace('\t', '').replace(' ', '')
            except:
                pass
            try:
                item['link'] = 'https:' + li.xpath('./div/div[@class="p-name p-name-type-2"]/a/@href').extract_first()
            except:
                item['link'] = ''
            item['price'] = li.xpath('./div/div[@class="p-price"]/strong/i/text()').extract_first()
            item['shop'] = li.xpath('./div/div[@class="p-shop"]/span/a/text()').extract_first()
            item['commit'] = li.xpath('./div/div[@class="p-commit"]/strong/a/text()').extract_first()
            item['shop_id'] = item['link'].split('/')[-1].split('.')[0]
            # 去掉+号,并把单位 万替换 -> 0000
            try:
                item['commit'] = item['commit'].replace('+', '').replace('万', '0000')
            except:
                pass
            item['img'] = li.xpath('./div/div[@class="p-img"]/a/img/@src').extract_first()
            yield item
        # 下一页
        if keyword['now_page'] < keyword['max_page']:
            keyword['now_page'] += 2
            new_url = format(self.next_url % (keyword['keyword'], keyword['now_page'], keyword['now_page'] * keyword['page_size']))
            yield scrapy.Request(new_url, callback=self.parse, meta={'keyword': keyword})
        else:
            # 下一个关键字
            if len(self.keywords) > 0:
                self.keywords.pop(0)
                if len(self.keywords) > 0:
                    key = self.keywords[0]
                    yield scrapy.Request(self.url % key['keyword'], callback=self.parse, meta={'keyword': key})

    def parse(self, response):
        # 去掉所有的html标签
        print(response.text)
        # TODO 这里有个问题，就是返回的数据是html，但是返回的数据中又包含了html标签，所以需要去掉
        text = response.text.replace('', '').replace('', '')
        print(text)
        json_data = json.loads(text)
        for i in json_data['comments']:
            print({
                'shop_id': response.meta['id'],
                'content': i['content'],
                'creationTime': i['creationTime'],
                'nickname': i['nickname'],
                'score': i['score'],
            })
            item = JdGoodsCommitItem()
            item['shop_id'] = response.meta['id']
            item['content'] = i['content']
            item['creationTime'] = i['creationTime']
            item['nickname'] = i['nickname']
            item['score'] = i['score']
            yield item
        maxPage = json_data['maxPage']
        # TODO maxPage > 5 时，强制设置为2，如果你想要全部的评论，可以把这个注释去掉
        if maxPage > 2:
            maxPage = 2
        page = response.meta['page']
        if page < maxPage:
            page += 1
            yield scrapy.Request(url=self.comment_url.format(page=page, id=response.meta['id']), callback=self.parse, meta={'page': page, 'id': response.meta['id']})
        pass

数据预览：

今日头条

网站介绍：

今日头条是中国的一家新闻平台，提供国内外新闻、科技、娱乐、美食等丰富内容，为用户推荐个性化的阅读。它是一家基于算法推荐的信息聚合平台，旨在为用户提供个性化的流媒体信息服务。

数据用途：

可视化，关键字分析，情绪分析

代码实现：

    def parse(self, response):
        # 定位 class="feed-card-wrapper feed-card-article-wrapper" 的div
        article_lists = response.xpath('//div[@class="feed-card-wrapper feed-card-article-wrapper"]')
        video_lists = response.xpath('//div[@class="feed-card-wrapper feed-card-video-wrapper"]')
        wtt_lists = response.xpath('//div[@class="feed-card-wrapper feed-card-wtt-wrapper"]')
        # self.parse_article(article_lists)
        print('文章列表>>>>>>>', len(article_lists))
        for list in article_lists:
            #  class="feed-card-article-l" 的div
            article = list.xpath('./div/div[@class="feed-card-article-l"]')
            link = article.xpath('./a/@href').extract_first()
            content = article.xpath('./a/text()').extract_first()
            author = article.xpath('.//div[@class="feed-card-footer-cmp-author"]/a/text()').extract_first()
            author_link = article.xpath('.//div[@class="feed-card-footer-cmp-author"]/a/@href').extract_first()
            item = TouTiaoItem()
            item['type'] = 'article'
            item['class_type'] = response.meta['type']
            item['link'] = link
            item['content'] = content
            item['author'] = author
            item['author_link'] = author_link
            yield item
        print('视频列表>>>>>>>', len(video_lists))
        for list in video_lists:
            #  class="feed-card-article-l" 的div
            if list.xpath('./div[@class="feed-card-video-multi"]'):
                video = list.xpath('./div[@class="feed-card-video-multi"]/ul/li')
                for v in video:
                    link = v.xpath('.//div[@class="feed-video-item"]/div/a/@href').extract_first()
                    content = v.xpath('.//div[@class="feed-video-item"]/div/a/@title').extract_first()
                    author_link = v.xpath('.//div[@class="footer"]//div[@class="feed-card-footer-cmp-author"]/a/@href').extract_first()
                    author = v.xpath('.//div[@class="footer"]//div[@class="feed-card-footer-cmp-author"]/a/text()').extract_first()
                    item = TouTiaoItem()
                    item['type'] = 'video'
                    item['class_type'] = response.meta['type']
                    item['link'] = link
                    item['content'] = content
                    item['author'] = author
                    item['author_link'] = author_link
                    yield item
            elif list.xpath('./div[@class="feed-card-video-single"]'):
                video = list.xpath('./div[@class="feed-card-video-single"]')
                link = video.xpath('./div[@class="r-content"]/div[@class="feed-video-item"]/div[@class="feed-card-cover"]/a/@href').extract_first()
                content = video.xpath('./div[@class="r-content"]/div[@class="feed-video-item"]/div[@class="feed-card-cover"]/a/@title').extract_first()
                author = video.xpath('.//div[@class="footer"]//div[@class="feed-card-footer-cmp-author"]/a/text()').extract_first()
                author_link = video.xpath('.//div[@class="footer"]//div[@class="feed-card-footer-cmp-author"]/a/@href').extract_first()
                item = TouTiaoItem()
                item['type'] = 'video'
                item['class_type'] = response.meta['type']
                item['link'] = link
                item['content'] = content
                item['author'] = author
                item['author_link'] = author_link
                yield item
        print('wtt列表>>>>>>>', len(wtt_lists))
        for list in wtt_lists:
            if list.xpath('./div[@class="feed-card-wtt multi-covers"]'):
                wtt = list.xpath('./div[@class="feed-card-wtt multi-covers"]')
                author_link = wtt.xpath('./div[@class="feed-card-wtt-l"]//div[@class="feed-card-wtt-user-info"]/a/@href').extract_first()
                author = wtt.xpath('./div[@class="feed-card-wtt-l"]//div[@class="feed-card-wtt-user-info"]/a/@title').extract_first()
                link = wtt.xpath('./div[@class="feed-card-wtt-l"]/p/a/@href').extract_first()
                content = wtt.xpath('./div[@class="feed-card-wtt-l"]/p/a/text()').extract_first()
                item = TouTiaoItem()
                item['type'] = 'wtt'
                item['class_type'] = response.meta['type']
                item['link'] = link
                item['content'] = content
                item['author'] = author
                item['author_link'] = author_link
                yield item
            elif list.xpath('./div[@class="feed-card-wtt single-cover"]'):
                wtt = list.xpath('./div[@class="feed-card-wtt single-cover"]')
                author_link = wtt.xpath('./div[@class="feed-card-wtt-l"]//div[@class="feed-card-wtt-user-info"]/a/@href').extract_first()
                author = wtt.xpath('./div[@class="feed-card-wtt-l"]//div[@class="feed-card-wtt-user-info"]/a/@title').extract_first()
                link = wtt.xpath('./div[@class="feed-card-wtt-l"]/p/a/@href').extract_first()
                content = wtt.xpath('./div[@class="feed-card-wtt-l"]/p/a/text()').extract_first()
                item = TouTiaoItem()
                item['type'] = 'wtt'
                item['class_type'] = response.meta['type']
                item['link'] = link
                item['content'] = content
                item['author'] = author
                item['author_link'] = author_link
                yield item
        pass

数据预览：

如果觉得这篇文章对你有帮助，请一键三连哦~

你可能感兴趣的:(HZ爬虫,scrapy,爬虫,python,大数据)

Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
Ubuntu 手动安装 Open WebUI 完整指南老大白菜 python ubuntu linux 运维
Ubuntu手动安装OpenWebUI完整指南前提条件在安装OpenWebUI之前，请确保您的系统满足以下要求：Ubuntu22.04LTS或更高版本Python3.10+Node.js18+Git至少4GB内存足够的磁盘空间（推荐20GB以上）安装步骤1.更新系统包sudoaptupdatesudoaptupgrade-y2.安装必要的依赖#安装Python和Node.jssudoaptinst
Python中try-except-else-finally语句用于处理异常上趣工作室 python python 开发语言
在Python中，try-except-else-finally语句用于处理异常和无论是否发生异常都需要执行的代码块。下面是每个部分的用法：try：在try块中编写可能引发异常的代码。如果没有异常发生，程序将继续执行try块后面的代码；如果发生异常，程序将跳到适当的except块。except：在except块中处理特定类型的异常。可以指定一个或多个异常类型，以及相应的处理代码。如果发生指定类型的
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
.net如何调用python 轮胎技术Tyretek python 开发语言 pycharm ide
.NET可以通过调用Python的执行文件或者Python库来调用Python代码。一种常用的方法是在.NET中使用Process类调用Python的执行文件。这样做的好处是你可以将Python代码打包成独立的文件，不需要在.NET中引用任何Python相关的库。下面是一个示例，假设你有一个Python文件"test.py"，内容如下：defgreet(name):print("Hello,"+n
vb调用python函数_vb.net / C# 调用 python weixin_39522170 vb调用python函数
1.IronPython简介IronPython是一种在.NET及Mono上的Python实现，由微软的JimHugunin所发起，是一个开源的项目，基于微软的DLR引擎；托管于微软的开源网站CodePlex(www.codeplex.com)。2.安装IronPython安装下载下来的安装包(要先装VS)。3.创建项目添加引用：浏览到IronPython的安装目录中，添加对IronPython.
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
Ubuntu交叉编译 arm板子上的TVM 陈有爱 TVM ubuntu 人工智能
目录X86Ubuntu的TVM安装LLVM下载tvm配置config.cmake编译源码python安装测试是否安装成功可以在安装一些库，用于RPCTracker和auto-tuning交叉编译801arm的TVM交叉编译链下载配置config.cmake编译源码编译的时候可能会遇到错误ONNX模型转换为TVM模型创建pre.py，将onnx模型编译成tvm.so文件测试TVM模型修改demo程序
【Python入门基础】——第1篇：从入门到精通：Python简介与环境搭建详解猿享天开 python从入门到精通 python 开发语言
第1篇：Python简介与环境搭建目录什么是Python？Python的历史与特点安装Python解释器配置开发环境选择合适的集成开发环境（IDE）使用文本编辑器运行第一个Python程序常见问题及解决方法总结什么是Python？Python是一种高级、通用、解释型的编程语言，由GuidovanRossum于1991年首次发布。Python以其简洁易读的语法、广泛的应用领域和强大的社区支持，成为全
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
高效目录操作：如何使用 os.listdir 函数列出文件和文件夹刘同学Python学习日记学习记录 os库 python 学习
在Python中，os.listdir()是一个用于列出指定目录下所有文件和子目录名称的函数。它来自于os模块，该模块提供了与操作系统进行交互的多种功能。importos#列出当前目录下的所有文件和子目录entries=os.listdir('.')print(entries)在这个示例中：os.listdir('.')将返回当前工作目录（用.表示）的所有文件和目录的名称列表。entries变量将
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Python.NET 安装与使用教程卫伊祺Ralph
Python.NET安装与使用教程项目地址:https://gitcode.com/gh_mirrors/py/pythonnet本教程将指导你了解并安装Python.NET——这是一个让Python程序员能够无缝集成.NET框架的开源库。1.项目目录结构及介绍在克隆或下载pythonnet的源代码仓库后，你会看到以下基本目录结构：pythonnet/├──LICENSE#许可文件├──MANIF
Apple M1 ARM MacBook 安装 Apache TVM FF-Studio arm开发 apache
一、前置准备AppleSiliconMacBook本文以AppleM1/M2为例，M3及后续版本同理。已安装HomebrewmacOS上的包管理器，可前往Homebrew官网查看安装指引。已安装Anaconda或Miniforge确保Conda是ARM版本（通过condainfo|grepplatform验证应为osx-arm64）。二、创建并激活Conda环境在终端创建环境（Python3.8为
python学习专栏 zhousenshan python新赛道 python
推荐学习资料《15分钟轻松学Python》教程目录-CSDN博客每天40分玩转Django教程目录-CSDN博客Pycharm社区版搭建Django环境及Django简单项目、操控mysql数据库-CSDN博客这个开源有关于事务方面高级内容介绍：django-vue-lyadmin:django-vue-lyadmin前端采用vue3+elementplus,后端采用PythonDjangoDRF
[笔记] 如何在win上安装fbprophet库（Anaconda-Spyder） WangMH_CHN 笔记
fbprophet库是Google开发的一个用于时间序列分析的库，该库的运行需要用到C++编译，因此最开始使用python安装的时候会出现很多问题。本文总结了整个安装过程，记录在此。首先，先阐述初始配置情况：我习惯使用在Anaconda上使用Spyder来写代码，win10系统，系统基础的环境是python3.11。但是fbprophet只支持py2.7、3.5~3.8，因此需要配置一
python文件：py,ipynb, pyi, pyc, pyd, pyo都是什么文件？ m 哆哆.ღ python python 开发语言
python：py,ipynb,pyi,pyc,pyd,pyo都是什么文件？1python文件类型介绍1.1.py文件：源代码.py文件是Python最基本的源代码文件格式，用于存储纯文本形式的Python代码。它是开发者编写程序的主要场所，包含函数、类、变量定义以及执行逻辑。Python解释器直接读取并执行.py文件中的指令。例如，创建一个简单的hello.py文件，内容如下：print("He
【Python进阶】Python中的电子邮件处理：SMTP、IMAP和MIME m 哆哆.ღ python python 服务器网络
1、电子邮件概述1.1电子邮件的工作原理1.1.1邮件服务器与客户端电子邮件的运作基于客户端-服务器架构，用户通常通过邮件客户端软件（如Outlook、Thunderbird等）或者网页版邮件服务（如Gmail、YahooMail等）撰写、发送和接收邮件。邮件客户端负责与邮件服务器进行通信，邮件服务器则承担着存储、转发和管理邮件的任务。当用户编写一封电子邮件后，邮件首先被客户端软件打包并通过SMT
Python 数据分析 - 初识 Pandas 一名技术极客 #Python 进阶爬虫 python 数据分析 pandas
Python数据分析-初识Pandas简介SeriesDataFrame创建基本操作添加删除简介Pandas基于NumPy开发，它提供了快速、灵活、明确的数据结构，旨在简单、直观地处理数据。Pandas适用于处理以下类型的数据：有序和无序的时间序列数据带行列标签的矩阵数据，包括同构或异构型数据与SQL或Excel表类似的，含异构列的表格数据任意其它形式的观测、统计数据集，数据转入Pandas数据结
Python中使用SQLite 昂热校长
开发十年，就只剩下这套Java开发体系了>>>SQLite：SQLite是一种数据库，Python中集成了SQLite3，所以在Python中使用SQLite，可以直接导入SQLite包，不需要做额外的配置。更多的SQLite简介和相关知识可以查看专门的教程：http://www.runoob.com/sqlite/sqlite-tutorial.htmlPython中使用SQLite:可以直接像
Python自动摘要与文本摘录 CrMylive. python easyui 开发语言
前言随着互联网时代的到来，信息爆炸的问题越来越严重，人们需要处理的信息量也越来越大。在这种情况下，文本摘要和摘录技术变得越来越重要。文本摘要和摘录技术可以自动从大量的文本中提取出重要的信息，为人们快速掌握信息提供了有效的途径。本文将介绍Python自动摘要与文本摘录的相关技术，包括文本摘要和摘录的定义、方法、应用场景等方面。本文将从以下几个方面进行讲解：文本摘要和摘录的定义与概述文本摘要的方法和技
pycharm、anaconda安装tensorflow问题努力的南波万 pycharm tensorflow neo4j
(pythonconda01)C:\Users\lvd13>condainstalltensorflowChannels:-defaultsPlatform:win-64Collectingpackagemetadata(repodata.json):doneSolvingenvironment:|warninglibmambaAddedemptydependencyforproblemtypeS
2025年美赛数学建模 MCM Problem B: Managing Sustainable Tourism 问题 B：可持续旅游管理代码解析 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模旅游 2025美赛 2025年数学建模美赛 python代码 matlab 可持续旅游管理
目录代码框架：遗传算法优化可持续旅游模型python代码代码解析：matlab代码代码解析：代码框架：遗传算法优化可持续旅游模型python代码importnumpyasnpimportrandomimportmatplotlib.pyplotasplt#定义遗传算法的参数POP_SIZE=100#种群大小GENS=500#迭代代数MUTATION_RATE=0.01#变异率CROSSOVER_R
python 操作sqlite COSummer python python sqlite
importsqlite3if__name__=='__main__':cx=sqlite3.connect("C:/Users/503061752/Desktop/AutoTest.sdb")cu=cx.cursor()cu.execute("select*fromwaiting_time")res=cu.fetchall()forcurresinres:print(curres)以上代码实现的
Python 实现文本摘要功能热爱技术的小胡 python
互联网时代信息爆炸式增长，人们面对越来越多的信息无法一一阅读，而文本自动摘要技术可以一定程度上缓解这个问题。摘要就是一篇文章的核心部分信息，文本自动摘要技术分抽取式摘要和生成式摘要，前者是在原文中挑选一定比例的句子拼凑成一个摘要，后者更接近人为的总结式简写一篇文章。目前越来越多的研究者使用深度神经网络来研究生成式摘要技术，但是难度也挺大，效果有限。本文的方法是使用基于启发式规则的算法实现了一个抽取
使用Python实现文本自动摘要 UIEdit python 人工智能开发语言
使用Python实现文本自动摘要在互联网时代，信息量不断增加，但人类阅读速度是有限的，如何高效地阅读和获取信息成为一项重要的任务。文本自动摘要技术可以帮助我们快速获取一篇文章的核心内容，从而提高阅读效率。文本自动摘要分为抽取式摘要和生成式摘要两种方法。其中抽取式摘要是从原文中选择一定比例的句子拼凑成一个摘要，而生成式摘要是通过对原文进行解析、理解、推理等方式生成摘要。下面我们将介绍如何使用Pyth
2025年01月30日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：Janus项目地址url：https://github.com/deepseek-ai/Janus项目语言：Python历史star数：11942今日star数：2187项目维护者：learningpro,hills-code,TheOneTrueGuy,mowentian,soloice项目简介：Janus系列：统一多模态理解和生成模型项目名称：DeepSeek-Coder项目地址ur
快手NS sig3签名算法（2025年1月） sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫算法
kuaishou/__NS_sig3.js源码见文章最后。python中调用示例importjsonimportsysimportrequestsimportosimportexecjsimporthashlibimportdatetimefromCookieUtilimportCookieUtilfromfake_useragentimportUserAgentnormal_js=execjs.
通过爬虫方式实现视频号助手发布视频 sh_moranliunian 蜘蛛侠 python 网络协议爬虫网络爬虫后端
1、将真实的cookie贴到解压后目录中cookie.txt文件里，修改python代码里的user_agent和video_path,cover_path等变量的值，最后运行python脚本即可；2、运行之前根据import提示安装一些常见依赖，比如requests等；3、2025年1月份最新版；代码如下：importjsonimporttimeimportrequestsimportosimp
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul