haha_小祖

快手(非逆向)

前言

本文章非逆向破解，方法是PC端快手视频采集。

PC端的接口，比较好拿。只需登录快手账号，使用抓包工具，即能抓到接口。

爬取需要cookie,只需一个参数did=web_xxxxxxxxxxxxxxxx；获取方式很简单，随便复制一个短链接，到浏览器，打开，复制did=xxxxxxxxx，即可。

直接上代码！

from lxml import etree
import re,requests,json,time

class KuaiShou(object):
    def __init__(self,collect_urls_list):
        self.collect_urls_list = collect_urls_list
        # cookie需要自行获取，目前测试有效期至少4天，不需更换。
        self.cookies = 'did=xxxxxxxxxx;',
        # 大量爬取需要加代理
        self.proxies = ''

        for i in range(len(self.collect_urls_list)):
            url = self.getKuaiShouRealAddress(self.collect_urls_list[i])
            if not url:continue
            print(url)
            # 单个视频url
            if re.search('/fw/photo/', url):
                print('单个视频')
                self.requestsSingleVideo(url)

            # 用户视频列表
            if re.search('/fw/user/',url):
                print('用户作品')
                user_id = re.findall("/fw/user/(.*)\?",url)[0]
                fid = re.findall('fid=(\d+)',url)[0]
                share_id = re.findall('shareId=(\d+)',url)[0]
                self.requestsUserVideo(user_id,fid,share_id)

    def getKuaiShouRealAddress(self, url):
        HEADERS = {
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-CN,zh;q=0.9',
            'pragma': 'no-cache',
            'cache-control': 'no-cache',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Linux; Android 4.3; Nexus 7 Build/JSS15Q) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.72 Safari/537.36'
        }
        res = requests.get(url, headers=HEADERS, allow_redirects=False, verify=False)
        if res.status_code == 302:
            long_url = res.headers['Location']
            return long_url


    def requestsSingleVideo(self,url):
        long_url = url
        try:
            headers2 = {
                'Host': 'npstianjin.s.kuaishouapp.com',
                'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36'
            }
            resp = requests.get(long_url,headers=headers2,proxies=self.proxies,verify=False)
            # print(resp.text)
            resp_html = etree.HTML(resp.text)
            video_content = resp_html.xpath('*//div[@id="hide-pagedata"]/@data-pagedata')[0]
            json_data = json.loads(video_content)
            # 视频ID
            aweme_id = json_data['photoId']
            # 时长
            duration = json_data['rawPhoto']['ext_params']['video']
            # 视频描述
            desc = json_data['rawPhoto']['caption']
            # 视频创建时间
            create_time = json_data['rawPhoto']['timestamp']
            # 视频URL链接
            download_url = json_data['video']['srcNoMark']
            # 视频命名
            uri = aweme_id
            # 视频发布者
            author = json_data['rawPhoto']['userName']
            # 评论量
            comment_count = json_data['rawPhoto']['commentCount']
            # 点赞量
            digg_count = json_data['rawPhoto']['likeCount']
            # 下载量
            download_count = 0
            # 播放量
            play_count = json_data['rawPhoto']['viewCount']
            # 分享次数
            share_count = json_data['rawPhoto']['forwardCount']
            # 背景音乐作者
            music_author = ''
            # 背景音乐名称
            music_title = ''
            # 封面url
            picture_url = json_data['video']['poster']
            print(aweme_id, author, duration, desc, create_time, download_url, comment_count,
                  digg_count,
                  download_count, play_count, share_count, uri, music_author,
                  music_title, picture_url)
            self.get_comment(aweme_id)
        except(ValueError, KeyError) as e:
            print("Json Error", str(e))



    def requestsUserVideo(self,user_id,fid,share_id):
        i = 0
        print(user_id)
        pcursor = ''
        while i < 1:
            data = {
                'operationName': 'publicFeedsQuery',
                'query': 'query publicFeedsQuery($principalId: String, $pcursor: String, $count: Int) {\r\n  publicFeeds(principalId: $principalId, pcursor: $pcursor, count: $count) {\r\n    pcursor\r\n    live {\r\n      user {\r\n        id\r\n        avatar\r\n        name\r\n        __typename\r\n      }\r\n      watchingCount\r\n      poster\r\n      coverUrl\r\n      caption\r\n      id\r\n      playUrls {\r\n        quality\r\n        url\r\n        __typename\r\n      }\r\n      quality\r\n      gameInfo {\r\n        category\r\n        name\r\n        pubgSurvival\r\n        type\r\n        kingHero\r\n        __typename\r\n      }\r\n      hasRedPack\r\n      liveGuess\r\n      expTag\r\n      __typename\r\n    }\r\n    list {\r\n      id\r\n      thumbnailUrl\r\n      poster\r\n      workType\r\n      type\r\n      useVideoPlayer\r\n      imgUrls\r\n      imgSizes\r\n      magicFace\r\n      musicName\r\n      caption\r\n      location\r\n      liked\r\n      onlyFollowerCanComment\r\n      relativeHeight\r\n      timestamp\r\n      width\r\n      height\r\n      counts {\r\n        displayView\r\n        displayLike\r\n        displayComment\r\n        __typename\r\n      }\r\n      user {\r\n        id\r\n        eid\r\n        name\r\n        avatar\r\n        __typename\r\n      }\r\n      expTag\r\n      __typename\r\n    }\r\n    __typename\r\n  }\r\n}\r\n',
                'variables': {"principalId": user_id, "pcursor": pcursor, "count": 24}
            }
            headers = {
                'Origin': 'https://live.kuaishou.com',
                'Host': 'live.kuaishou.com',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36',
                'content-type': 'application/json',
                'Accept-Language': 'zh-CN,zh;q=0.9',
                'Accept-Encoding': 'gzip, deflate, br',
                'accept': '*/*',
                'Sec-Fetch-Mode': 'cors',
                'Sec-Fetch-Site': 'same-origin',
                'Cookie': self.cookies,
                'Referer':'https://live.kuaishou.com/profile/{}'.format(user_id)
            }
            a_url = 'https://live.kuaishou.com/m_graphql'
            resp = requests.post(a_url, headers=headers, json=data, verify=False)
            # print(resp.text)
            json_data = json.loads(resp.content)
            user_list = json_data['data']['publicFeeds']['list']
            if len(user_list) > 0:
                for j in user_list:
                    video_id = j['id']
                    user_id = j['user']['id']
                    every_url = 'https://npsshanghai.s.kuaishouapp.com/fw/photo/{}?fid={}&cc=share_copylink&shareMethod=TOKEN&docId=0&kpn=NEBULA&subBiz=PHOTO&photoId={}&shareId={}&shareToken=&shareResourceType=PHOTO_OTHER&userId={}&shareType=1&et=1_i%2F0_unknown0&groupName=&appType=22'.format(video_id,fid,video_id,share_id,user_id)
                    print(every_url)
                    self.requestsSingleVideo(every_url)
                pcursor = json_data['data']['publicFeeds']
                if len(pcursor) > 0:
                    pcursor = pcursor
                else:
                    break
            else:
                break
            i +=1


    def get_comment(self,aweme_id):
        url = "https://live.kuaishou.com/m_graphql"
        pcursor = ''
        i = 0
        while i <= 10:
            headers = {
                'Origin': 'https://live.kuaishou.com',
                'Host': 'live.kuaishou.com',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36',
                'content-type': 'application/json',
                'Accept-Language': 'zh-CN,zh;q=0.9',
                'Accept-Encoding': 'gzip, deflate, br',
                'accept': '*/*',
                'Sec-Fetch-Site': 'same-origin',
                'Sec-Fetch-Dest': 'empty',
                'Sec-Fetch-Mode': 'cors',
                'Cookie': self.cookies,
            }
            parm_data = {"operationName": "commentListQuery",
                         "variables": {"pcursor": pcursor, "photoId": aweme_id, "page": 1, "count": 20},
                         "query": 'query commentListQuery($photoId: String, $page: Int, $pcursor: String, $count: Int) {\n  shortVideoCommentList(photoId: $photoId, page: $page, pcursor: $pcursor, count: $count) {\n    commentCount\n    realCommentCount\n    pcursor\n    commentList {\n      commentId\n      authorId\n      authorName\n      content\n      headurl\n      timestamp\n      authorEid\n      status\n      subCommentCount\n      subCommentsPcursor\n      likedCount\n      liked\n      subComments {\n        commentId\n        authorId\n        authorName\n        content\n        headurl\n        timestamp\n        authorEid\n        status\n        replyToUserName\n        replyTo\n        replyToEid\n        __typename\n      }\n      __typename\n    }\n    __typename\n  }\n}\n'}
            resp = requests.post(url, json=parm_data, headers=headers,verify=False)
            json_data = json.loads(resp.content)
            pcursor = json_data['data']['shortVideoCommentList']['pcursor']
            for comments in json_data['data']['shortVideoCommentList']['commentList']:
                # print('comments',comments)
                # 评论ID
                cid = comments['commentId']
                text = comments['content']  # 评论内容
                create_time = comments['timestamp']  # 评论时间
                digg_count = comments['likedCount']  # 评论点赞量
                nickname = comments['authorName']  # 发布评论名字
                print(cid,nickname,text,create_time,digg_count)
            print('.....................................')
            i+=1

KuaiShou(['https://v.kuaishouapp.com/s/swoBNPWu'])

本文有参考其他文章，目前找不到链接，如有侵权，请联系本人。有冒犯之处，见谅。

你可能感兴趣的:(爬虫)

Heritrix网络爬虫与Tomcat服务器部署指南 Rubix-Kai
本文还有配套的精品资源，点击获取简介：Heritrix是一款功能强大的开源网络爬虫工具，由互联网档案馆开发，适用于大规模网页抓取。本文将指导读者如何下载、安装Heritrix，并在Tomcat服务器上进行部署和运行。内容包括Heritrix的基本概念、下载与安装步骤、集成到Eclipse的过程、配置Heritrix、构建与运行、部署到Tomcat以及如何访问Heritrix的Web界面。此外，还包
python爬虫爬取拉勾网招聘信息 2401_84692405 程序员 python 爬虫数据挖掘
print('showId',show_id)print(“typeofresult”,type(position_result))total_count=position_result[‘totalCount’]没有符合条件的工作，直接返回iftotal_count==0:returnremain_page_count=math.ceil(total_count/JOBS_COUNT_ONE_P
掌握 Python 网络爬虫技术：从基础入门到高级实践（附带爬虫案例）一ge科研小菜鸡 Python 编程语言 python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是自动访问网站并抓取网页数据的程序。Python凭借其丰富的库和易于使用的特性，成为开发网络爬虫的首选语言。本文将详细介绍如何使用Python进行网络爬虫开发，包括基本概念、主要工具、数据解析和高级爬取技术，并提供一个完整的实践案例。1.网络爬虫概述1.1什么是网络爬虫？网络爬虫（WebCrawler）是指用于访问和抓取网页内容的自动化脚
使用Python爬虫抓取与分析航班信息：从数据采集到应用的完整实践 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫？爬虫的工作原理爬虫的应用领域航班数据爬取的实际应用航班数据分析的重要性选择爬虫技术栈常见的爬虫框架与工具选择合适的工具：requestsvsSeleniumvsScrapy如何获取航班信息航班数据来源分析航班信息的结构与抓取目标爬虫抓取航班信息的步骤发送HTTP请求并获取航班数据使用Selenium抓取动态数据解析HTML页面并提取航班信息航班数据存储与处理存储抓
Python爬虫实战：在线考试题库抓取 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化 jvm
前言在线考试已经成为现代教育中不可或缺的一部分，许多在线教育平台提供了丰富的题库资源，供学生进行练习与模拟考试。随着互联网的发展，教育平台上每天都有大量的题库数据，如何抓取这些数据，并进行整理、分析、分享，成为了教育技术与数据分析领域的一个热门话题。本文将介绍如何使用Python爬虫技术抓取各类在线考试平台的题库和试题，包括抓取方法、技术细节、反爬虫策略等。通过这篇博客，我们将实现以下目标：从多个
使用Python Selenium抓取表单数据：从数据提取到自动化处理的完整指南 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫爬虫的工作原理Selenium简介什么是SeleniumSelenium的工作原理表单数据抓取概述什么是表单数据常见的表单类型表单抓取的实际应用场景爬虫技术栈requestsvsSeleniumSelenium的安装与配置使用Selenium抓取表单数据的步骤启动浏览器并访问目标页面查找表单元素提交表单并抓取返回的数据数据存储与处理存储抓取的数据：CSV、数据库等数
在线考试题库抓取：Python 爬虫抓取各类在线考试平台题库和试题 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫
目录引言1.确定目标网站和分析网页结构示例网站：网页分析：2.安装必要的Python库3.编写爬虫代码3.1发送HTTP请求3.2解析HTML页面3.3存储数据4.处理分页抓取4.1分析分页规则5.反爬虫机制与应对策略5.1设置请求头5.2使用代理池5.3控制请求频率6.小结引言随着教育信息化的进程不断加快，在线考试逐渐成为了教育评估的主流形式之一。许多在线学习平台和考试平台为用户提供了海量的题库
【如何获取股票数据05】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股最新分时MA数据获取实例演示及接口API说明文档码农蝶澈 python java 开发语言股票数据API 股票数据接口
最近一两年内，股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步，就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任务是从这些数据中提炼出有价值的信息，为我们的投资策略提供有力的指导。在数据探索的旅途中，我尝试了多种方法，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花顺问财的爬虫，甚
【如何获取股票数据01】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股实时交易数据获取实例演示及接口API说明文档 Eumenides_max python java 开发语言
最近一两年内，股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步，就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任务是从这些数据中提炼出有价值的信息，为我们的投资策略提供有力的指导。在数据探索的旅途中，我尝试了多种方法，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花顺问财的爬虫，甚
Python爬虫的一些基本内容、常见步骤以及示例代码 max500600 python python 爬虫开发语言
以下是关于Python爬虫的一些基本内容、常见步骤以及示例代码：一、Python爬虫概述Python爬虫是一种利用Python编程语言编写的程序，用于自动从互联网上获取网页内容以及提取所需信息工具。它可以模拟人类在浏览器上的操作，访问各种网页，并按照特定规则抓取数据，比如抓取新闻标题、商品价格、图片链接等等，广泛应用于数据采集、信息监测、搜索引擎等领域。二、常见步骤1.确定目标和分析网页首先明确你
详解AI采集框架Crawl4AI，打造智能网络爬虫朝阳区靓仔_James 人工智能爬虫神经网络深度学习 prompt 3d
使用Crawl4AI构建高效AI爬虫与数据提取工具。1介绍Crawl4AI这个开源Python库，专门用来简化网页爬取和数据提取的工作。它不仅功能强大、灵活，而且全异步的设计让处理速度更快，稳定性更好。无论是构建AI项目还是提升语言模型的性能，Crawl4AI都能帮您简化工作流程。你可以直接在Python项目中使用，或者将其集成到RESTAPI中，实现快速、稳定的数据爬取和处理。这样，无论是数据的
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
数据挖掘r语言和python知乎_同时用R语言和Python爬取知乎美图 weixin_39932344
作者:杜雨，EasyCharts团队成员，R语言中文社区专栏作者，兴趣方向为：Excel商务图表，R语言数据可视化，地理信息数据可视化。学习Python已有两月有余，是时候检验下学习效果了，之前练习了不少R语言数据爬取，Python的爬虫模块还没有来得及认真入门，乱拼乱凑就匆忙的开始了，今天就尝试着使用R+Python来进行图片爬取，完成一个简单得小爬虫。目标网址在这里：https://www.z
Python从0到100（四十）：Web开发简介-从前端到后端（文末免费送书）是Dream呀 python 前端开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python爬虫实战山猪人工智能教学 python 爬虫开发语言
python爬虫实战1.爬取知乎某页html#导入urllib库的urlopen函数fromurllib.requestimporturlopen#发出请求，获取htmlhtml=urlopen("https://zhuanlan.zhihu.com/p/77560712")#获取的html内容是字节，将其转化为字符串html_text=bytes.decode(html.read())#打印ht
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
python爬虫验证下载的图片是否损坏方法云霄IT python 爬虫开发语言
一、最佳方法使用PIL库的Image进行验证，简单明了fromPILimportImageimportioimportrequestsdefis_image_valid(resp):try:withImage.open(io.BytesIO(resp.content))asimg:img.verify()#验证图片是否有效returnTrueexceptExceptionase:print(f"d
Spring MVC全解析：从入门到精通的终极指南 rain雨雨编程 Java编程 spring mvc java 后端框架高性能Web应用
‍♂️个人主页：@rain雨雨编程微信公众号：rain雨雨编程✍作者简介：持续分享机器学习，爬虫，数据分析希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录SpringMVC框架介绍核心注解@Controller@RequestMapping@PathVariableSpringMVC处理请求数据@RequestParam注解作用使用场景示例属性概览属性详解另一个
Python爬虫-京东商品评论数据写python的鑫哥爬虫实战进阶 python 爬虫京东商品详情页评论评论数据数据
前言本文是该专栏的第68篇，后面会持续分享python爬虫干货知识，记得关注。在本专栏之前，笔者有详细介绍京东滑块验证码的解决方法，感兴趣的同学，可以直接翻阅文章《Python如何解决“京东滑块验证码”(5)》进行查看。而本文，笔者以京东商品详情页的评论数据为例，通过python实现采集商品详情页的评论数据。废话不多说，具体细节部分以及详细思路逻辑，笔者将在正文结合完整代码进行详细说明。（附带完整
利用Python爬虫获取API接口：探索数据的力量不会玩技术的技术girl Python python 爬虫开发语言
引言在当今数字化时代，数据已成为企业、研究机构和个人获取信息、洞察趋势和做出决策的重要资源。Python爬虫作为一种高效的数据采集工具，能够帮助我们自动化地从互联网上获取大量的数据。而API接口作为数据获取的重要途径之一，为我们提供了一种更直接、更高效的数据访问方式。本文将详细介绍如何利用Python爬虫获取API接口，并对获取到的数据进行分析和应用，从而充分发挥数据的价值。一、API接口概述（一
Python爬虫应用领域不会玩技术的技术girl Python python 爬虫开发语言
Python爬虫作为一种强大的数据获取工具，在多个领域发挥着重要作用。以下是Python爬虫在不同领域的应用情况：一、数据采集与分析（一）市场调研产品信息收集：爬取电商平台的产品详情、价格、销量、用户评价等数据，分析产品市场占有率、用户喜好、竞争对手情况，为产品开发、定价策略、营销推广提供依据。例如，爬取京东、天猫等平台的手机销量排行榜，了解不同品牌、型号的市场表现.行业动态监测：抓取行业门户网站
Python爬虫：深度解析1688接口数据获取不会玩技术的技术girl 1688API python 爬虫开发语言
引言在这个信息爆炸的时代，数据已成为最宝贵的资源之一。尤其是在电子商务领域，掌握实时数据意味着能够更快地响应市场变化，制定有效的商业策略。1688，作为中国最大的B2B电商平台，拥有海量的商家和商品数据。对于商家、市场分析师以及数据科学家来说，如何高效、合法地获取这些数据，成为了一个重要的课题。本文将带你深入了解如何使用Python爬虫技术，通过1688提供的接口，获取关键的电商数据。1688平台
农产品价格报告爬虫使用说明小海的小窝爬取小海爬虫
农产品价格报告爬虫使用说明#**************************************************************************#**#*农产品价格报告爬虫*#**#*作者:xiaohai*#*版本:v1.0.0*#*日期:2024-12-05*#**#*功能说明:*#*1.日度报告*#*-生成今日分析报告*#*-生成指定日期报告*#*-包含价格指数
淘宝关键词页面爬取&绘图进行数据分析安替-AnTi 解决方案 python 信息可视化 tb 关键词爬取
对爬虫、逆向感兴趣的同学可以查看文章，一对一小班V教学：https://blog.csdn.net/weixin_35770067/article/details/142514698关键词页面爬取代码fromDrissionPageimportWebPage,ChromiumOptionsfromDataRecorderimportRecorderimporttimeimportrandompat
网站地图爬虫猎狐肥 python 爬虫 python
defcrawl_sitemap(url):html=''#downloadthesitemapfilesitemap=download_page(url,2)#extractthesitemaplinkslinks=re.findall('(.*?)',sitemap)#loadeachlinkforlinkinlinks:html=download_page(link,2)if__name__
Python从入门到进阶教程文章分享汇总~持续更新 Amo Xiang 流畅的Python python 开发语言
目录一、Python语言基础1.1基础语法1.2练习二、web方向2.1flask2.2django2.3fastapi三、爬虫方向3.1爬虫基础3.2Scrapy框架3.3反爬3.5爬虫架构3.6案例四、数据分析和ai4.1数据分析4.2AI五、Python常用模块，内置函数与方法总结5.1内置函数5.2常用模块六、视频讲解七、项目案例一、Python语言基础1.1基础语法2024Python3
python必背100源代码-学会这个Python库，至少能减少100行代码编程大乐趣
写在前面梦想橡皮擦，一个立志成为IT圈有影响力的人，到今天，我已经实现了10%今天打算写爬虫系列的文章，浏览过程中到达了知乎，看到了很多健身妹子，恩，身材很好，心中灵光一闪就想爬下来，存档。作为一个勉强算是爬虫已经入门的小菜来说，这个简单的不行，一顿操作之后，发现卡在了知乎登录上，原计划自己写个模拟登录，后来一琢磨，不想造轮子了，去github上找一个现成的不香吗？于是乎，有了这篇文章Decryp
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python如何声明以管理员方式运行？ cda2024 python 开发语言
Python作为一门高级编程语言，以其简洁优雅的语法和丰富的库支持，在数据科学、网络爬虫、自动化脚本等领域有着广泛的应用。但在实际开发过程中，有时会遇到需要获取较高权限才能完成的任务，比如访问某些系统文件夹或者执行一些系统级别的操作。这时，就需要我们让Python程序以管理员身份运行了。那么，Python是如何做到这一点的呢？本文将带您深入了解Python声明以管理员方式运行的方法，并通过实际案例
计算机毕业设计之基于PythonBOSS直聘招聘数据可视化系统的设计与实现 wx—bishe58 信息可视化数据分析数据挖掘 rnn 人工智能课程设计 python
本文主要介绍了基于PythonBOSS直聘招聘数据可视化系统的设计与实现。随着互联网的普及，BOSS直聘招聘网站成为了企业和求职者的重要交流平台。然而，大量的招聘信息给用户带来了信息过载的问题。为了解决这一问题，本文提出了一种基于PythonBOSS直聘招聘数据可视化系统的设计与实现方法。首先，本文采用爬虫技术收集了拉勾BOSS直聘招聘网站上的大量招聘信息。然后，利用爬虫优化算法对爬取到的数据进行
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他