weixin_39875842

python 头条新闻机器人_使用今日头条web版API实现的头条机器人

使用今日头条web版API实现的头条机器人，涵盖账密登陆、滑动验证、关注与粉丝操作、头条号内容操作，转发评论等。支持定时器任务，实现预定的用户互动，又可以作为头条新闻文章爬虫，采集相关资讯存储。默认使用 MongoDB 数据库进行存储

更新历史

2020/02/27 对登陆滑动以及搜索滑动进行修复，登陆滑动的微调参数在config.py中设置SLIDER_DEBUG(其他有时间再改..)

项目结构

│ config.py #项目配置文件

│ README.md

│ requirements.txt #第三方依赖包

│ settings.py #项目基础设置

├─ accessory

│ chromedriver

│ cookie.txt #账户登陆cookie保存文件

├─ component #项目主体

│ account.py #登陆账户操作类模块

│ dbhelper.py #数据库模块

│ grabber.py #新闻抓取执行类模块

│ log.py #日志记录模块

│ news.py #头条新闻类模块

│ search.py #头条搜索模块

│ sliderlogin.py #滑动验证登陆模块

│ timer.py #定时器模块

│ toutiao.py #TTbot类模块

│ user.py #头条用户类模块

├─ deco #component中各个模块的装饰器

│ crawl.py

│ login.py

│ toutiao.py

│ user.py

├─ img #滑动验证图片保存文件夹

├─ javascript #js解密需要JavaScript文件

│ ascp.js

│ signature.js

│ tasessionID.

├─ log #项目日志保存文件夹

└─ util #项目工具函数类，对应各个模块

account.py

jstool.py

news.py

proxy.py

request.py

search.py

slider.py

thread.py

tools.py

user.py

使用文档

以下所有的数据采集均默认使用MongoDB数据库进行保存

0. 安装使用环境(requirements.txt)

安装项目需要的第三方模块，在确保本机安装的python版本为3.x后，使用命令行:

pip install -r requirements.txt

1. 安装MongoDB数据库

Python 要连接 MongoDB 需要 MongoDB 驱动，这里我们使用 PyMongo 驱动来连接，安装pymongo(requirement.txt已经包含), 若自行安装，使用命令行:

pip install pymongo

2. chromedriver版本下载

项目使用的selenium驱动浏览器为Chrome，需要根据本机的Chrome版本来下载对应的chromedriver, Chrome浏览器版本及其Chromedriver对应版本可以参照:

下载成功后将chromedriver.exe放置于项目accessory文件夹下替换原先的chromedriver.exe，并在config.py中检查 CHROME_PATH 路径是否正确。

3. 账密登陆

项目登陆使用的是账户密码模式的登陆，登陆方式有以下3种:

在config.py中设置好账户密码:

USERNAME = '账户'

PASSWORD = '密码'

代码使用:

from component.toutiao import TTBot

bot = TTBot()

account = bot.account

account.login()

直接传入账户密码

from component.toutiao import TTBot

bot = TTBot()

account = bot.account

account.login(username='账户',password='密码')

使用cookie登陆在config.py 中设置账户cookie：

COOKIE = 'tt_web_id=xxxxx;sso_user=xxxx'

而后使用第一种方式代码登陆。

账户登陆需要用到selenium模拟滑动验证，请确保已经下载好Chrome浏览器对应版本的chromedriver.exe

4. 头条搜索(关键词综合、视频、用户搜索)

搜索模式一共有三种：

第一次搜索需要进行滑动验证，需要使用selenium进行模拟验证。

综合搜索

一般搜索结果为文章类，默认模式即为综合搜索:

from component.toutiao import TTBot

bot = TTBot()

# 搜索关键词 Gucci 的文章类头条结果，ALL置真表示获取所有结果，MDB置真表示使用数据库保存

results_all = bot.search('Gucci',ALL=True,MDB=True)

# 搜索关键词 Gucci 的文章类头条结果，ALL置False,count=100表示只获取100条结果，MDB置真表示使用数据库保存

results_100 = bot.search('Gucci',ALL=False,MDB=True,count=100)

# 登陆后再进行搜索，不进行数据库保存

results_login = bot.search('Gucci',ALL=True,login=True)

综合搜索返回的单条数据示例:

视频搜索

示例代码：

from component.toutiao import TTBot

bot = TTBot()

# 搜索关键词 java 的视频类头条结果，ALL置真表示获取所有结果，MDB置真表示使用数据库保存

results = bot.search('java',VIDEO=True,MDB=True,ALL=True)

# 搜索关键词 java 的视频类头条结果，ALL置False,count=100表示只获取100条结果，MDB置真表示使用数据库保存

results_100 = bot.search('java',ALL=False,MDB=True,count=100)

视频搜索返回的单条数据示例:

用户搜索

示例代码：

from component.toutiao import TTBot

bot = TTBot()

# 搜索名称中有 java 的头条用户，ALL置真表示获取所有结果，MDB置真表示使用数据库保存

results = bot.search('java',USER=True,MDB=True,ALL=True)

# 搜索名称中有 java 的头条用户，ALL置False,count=100表示只获取100条结果，MDB置真表示使用数据库保存

results_100 = bot.search('java',USER=True,ALL=False,MDB=True,count=100)

# strict置真表示只搜索匹配名称为 java 的头条用户,返回结果为匹配用户或None

results_strict = bot.search('java',strict=True,USER=True)

用户搜索返回的单条数据示例(strict=False情况下):

5. 新闻爬取

头条新闻的采集(无需登陆)可以分为45个类别的新闻，包括首页推荐、热点、科技、军事、美食、历史等，具体可以查看 component.news模块的TTNews类源码。示例代码:

from component.toutiao import TTBot

bot = TTBot()

# 新闻爬虫

spider = bot.news_spider

#获取首页推荐新闻,ALL置真表示获取所有，MDB置真表示存入数据库

recommend_news = spider.get_recommend_news(ALL=True,MDB=True)

#获取首页推荐新闻,ALL置False,count=100表示只获取前100条数据，MDB置真表示存入数据库

recommend_100 = spider.get_recommend_news(ALL=False,count=100,MDB=True)

#获取 2019-07-07 12:00:00 以后的所有首页推荐新闻，时间之前的数据忽略

recommend_by_dtime = spider.get_recommend_news(ALL=True,MDB=True,last_time='2019-07-07 12:00:00')

# --类似的API接口可以查看 TTNews 类的源码--

# 热点新闻获取

hot_news = spider.get_hot_news(MDB=True)

# 娱乐新闻

entertaining_news = spider.get_entertainment_news(MDB=True)

# 军事新闻

military_news = spider.get_military_news(MDB=True)

# 游戏新闻

game_news = spider.get_game_news(MDB=True)

# 财经新闻

financial_news = spider.get_finance_news(MDB=True)

# 投资新闻

investment_news = spider.get_investment_news(MDB=True)

# 美食新闻

food_news = spider.get_food_news(MDB=True)

...

新闻采集返回的单条数据示例(热点新闻为例):

6. 头条用户信息采集(无需登录)

一共有以下几个方面:

针对某个头条用户，我们需要获取到ta的相关信息，只需要知道其uid即可，即访问其头条首页，可以查看到用户的地址url类似：https://www.toutiao.com/c/user/3564799576/，那么3564799576即是用户的uid。

获取用户基本信息

示例代码：

from component.user import TTUser

user = TTUser('5787290902')

# 用户基本信息

info = user.info

返回结果：

获取用户关注列表

示例代码：

from component.user import TTUser

user = TTUser('5787290902')

#获取用户的所有关注用户并存入数据库

followings = user.get_followings(MDB=True)

# 获取用户的前100个关注用户并存入数据库

followings_100 = user.get_followings(MDB=True,count=100)

返回的单个关注用户数据示例：

获取用户粉丝列表

示例代码：

from component.user import TTUser

user = TTUser('5787290902')

# 获取用户的可见粉丝并存入数据库

fans = user.get_fans(MDB=True)

# 获取用户的前100个粉丝并存入数据库

fans_100 = user.get_fans(count=100,MDB=True)

返回的单个粉丝数据示例：

获取用户发布的文章

获取用户发布的媒体数据，用到的是component.user模块中的TTUser类methodget_published,该函数不仅可以获取到用户的媒体数据，还可以对每一次获取到的数据列表中的单条数据进行回调处理，可以传入参数data_cb、cb_args进行回调函数及其参数的设置。

示例代码：

from component.user import TTUser

user = TTUser('5787290902')

# 获取用户发布的所有文章并存储

articles = user.get_published(ALL=True,MDB=True)

# 获取用户发布的100条文章数据并存储

articles_100 = user.get_published(count=100,ALL=False,MDB=True)

采集到的用户文章单条数据示例：

使用回调函数对每一次获取到的数据集进行单条数据的处理:

from component.user import TTUser

user = TTUser('5787290902')

def print_data(data_item,sec_param):

'''

回调函数的第一个参数永远都是获取到的单条json数据 get_published函数

已经默认传入，所以在 cb_args 中需要传入的参数只能从第二个参数开始

当前函数的 sec_param 值为:'This is the sec param' 即为cb_args

的第一个值。

返回值提醒:

返回 None:回调函数处理后继续进行后续的数据库保存、格式清理等工作

返回 True:回调函数处理后忽略此条数据，进行下一条数据的获取处理

'''

print(data_item,sec_param)

# 对单条数据使用print_data回调函数处理

articles = user.get_published(count=100,MDB=True,data_cb=print_data,cb_args=('This is the sec param',))

#使用lambda 来表示上面的回调处理

results = user.get_published(count=100,MDB=True,data_cb=lambda x,y:print(x,y),cb_args=('This is the sec param',))

获取用户发布的视频

获取视频数据，对单条视频json数据进行处理的回调操作与获取文章数据回调处理是一样的,详见获取用户发布的文章

示例代码：

from component.user import TTUser

from settings import VIDEO

user = TTUser('5787290902')

# 获取用户发布的所有视频并存储

videos = user.get_published(MODE=VIDEO,ALL=True,MDB=True)

# 获取用户发布的100条视频数据并存储

videos_100 = user.get_published(MODE=VIDEO,count=100,MDB=True)

采集到的用户视频单条数据示例：

* #### 获取用户发布的微头条

获取微头条数据，对单条微头条json数据进行处理的回调操作与获取文章数据回调处理是一样的,详见[`获取用户发布的文章`](#h4-id262h4)

示例代码：

```python

from component.user import TTUser

from settings import WEITT

user = TTUser('5787290902')

# 获取用户发布的所有微头条并存储

weitt = user.get_published(MODE=WEITT,ALL=True,MDB=True)

# 获取用户发布的100条微头条数据并存储

weitt_100 = user.get_published(MODE=WEITT,count=100,MDB=True)

采集到的用户微头条单条数据示例：

7. 用户链式采集

当我们需要大量的头条用户发布数据进行数据分析时，我们可以使用用户链式爬取来采集数据，存入数据库。只需要提供一个入口用户ENTER_USER_ID给爬虫，便可以一键采集，可以在config.py中设置入口用户。主要用到的函数为component.toutiao模块中类TTBot的grab_all_user_posts(可以查看该类函数源码注释)。具体的采集逻辑：

示例代码:

from component.toutiao import TTBot

from settings import ARTICLE,VIDEO,WEITT

bot = TTBot()

# 链式爬取用户的所有发布数据，包括文章、视频、微头条

bot.grab_all_user_posts('all')

# 链式爬取用户的所有文章数据

bot.grab_all_user_posts(ARTICLE)

# 链式爬取用户的所有视频数据

bot.grab_all_user_posts(VIDEO)

# 链式爬取用户的所有微头条数据

bot.grab_all_user_posts(WEITT)

所有的返回爬取数据均可在数据库中查看，对应的数据库名称可以查看config.py中的数据库设置。采集单条数据示例与头条用户信息采集(无需登录)的一致。

8. 登录用户操作

有些操作需要登录头条账户才能进行操作，如：关注用户、发布头条图文等。需要先进行账密登录设置。

提示：以下内容均默认已在config.py中设置好账户密码。

后续操作示例代码中的 account 为以下代码变量：

from component.toutiao import TTBot

bot = TTBot()

account = bot.account

获取账户基本信息、状态

示例代码：

# 账户基本信息

user_info = account.user_info

# 账户头条媒体信息

media_info = account.media_info

# 账户头条状态

status = account.account_status

返回数据示例:

关注某个头条用户

示例代码：

# 关注头条uid为4492956276的用户 (央视新闻)

result = account.follow_user('4492956276')

返回结果示例：

{'message': 'success', 'data': {}}

取消关注某个头条用户

示例代码：

# 取消关注头条uid为4492956276的用户 (央视新闻)

result = account.unfollow_user('4492956276')

返回结果示例：

{'message': 'success', 'data': {}}

按照筛选条件关注用户列表

给定一个用户uid列表，按照自己筛选条件需求进行关注操作。

示例代码：

# 按照筛选条件关注用户列表 uids:[]

uids = ['50502346173','4377795668','3640241275']

# 关注列表中的所有用户

account.follow_users(uids)

# 关注列表中粉丝数不为0 的用户

account.follow_users(uids,skip_no_fans=True)

# 关注列表中关注数不为0 的用户

account.follow_users(uids,skip_no_followings=True)

# 关注列表中发布文章数不为0 的用户

account.follow_users(uids,no_articles=True)

# 关注列表中发布视频数不为0 的用户

account.follow_users(uids,no_videos=True)

# 关注列表中发布微头条数不为0 的用户

account.follow_users(uids,no_weitt=True)

# 关注列表中发布微头条数不为0、粉丝数不为0 的用户

account.follow_users(uids,no_weitt=True,skip_no_fans=True)

按照筛选条件取消关注用户列表

给定一个用户uid列表，按照自己筛选条件需求进行取消关注操作。

示例代码：

# 按照筛选条件取消关注用户列表 uids:[]

uids = ['50502346173','4377795668','3640241275']

# 取消关注列表中的所有用户

account.unfollow_users(uids)

# 取消关注列表中粉丝数为0 的用户

account.unfollow_users(uids,only_no_fans=True)

# 取消关注列表中关注数为0 的用户

account.unfollow_users(uids,only_no_followings=True)

# 取消关注列表中发布文章数为0 的用户

account.unfollow_users(uids,no_articles=True)

# 取消关注列表中发布视频数为0 的用户

account.unfollow_users(uids,no_videos=True)

# 取消关注列表中发布微头条数为0 的用户

account.unfollow_users(uids,no_weitt=True)

# 取消关注列表中发布微头条数为0、粉丝数为0 的用户

account.unfollow_users(uids,no_weitt=True,skip_no_fans=True)

按照筛选条件关注某个用户的关注列表

给定一个用户uid，对其关注列表根据自己需求筛选条件进行关注操作。

示例代码：

uid = '4377795668'

# 关注用户关注列表中的所有用户，参数ALL默认为True，表示默认获取所有用户关注的账户

account.follow_followings_of_user(uid)

# 关注用户关注列表中的粉丝数不为0 的所有用户

account.follow_followings_of_user(uid,skip_no_fans=True)

# 关注用户关注列表中的关注数不为0 的所有用户

account.follow_followings_of_user(uid,skip_no_followings=True)

# 关注用户关注列表中的发布文章数不为0 的所有用户

account.follow_followings_of_user(uid,no_articles=True)

# 关注用户关注列表中的发布视频数不为0 的所有用户

account.follow_followings_of_user(uid,no_videos=True)

# 关注用户关注列表中的发布微头条数不为0 的所有用户

account.follow_followings_of_user(uid,no_weitt=True)

# 关注用户关注列表中的发布文章数不为0 的前 20 个用户

account.follow_followings_of_user(uid,no_articles=True,count=20,ALL=False)

按照筛选条件取消关注某个用户的关注列表

给定一个用户uid，对其关注列表根据自己需求筛选条件进行取消关注操作。

示例代码：

uid = '4377795668'

# 取消关注用户关注列表中的所有用户，参数ALL默认为True，表示默认获取所有用户关注的账户

account.unfollow_followings_of_user(uid)

# 取消关注用户关注列表中的粉丝数为0 的所有用户

account.unfollow_followings_of_user(uid,only_no_fans=True)

# 取消关注用户关注列表中的关注数为0 的所有用户

account.unfollow_followings_of_user(uid,only_no_followings=True)

# 取消关注用户关注列表中的发布文章数为0 的所有用户

account.unfollow_followings_of_user(uid,no_articles=True)

# 取消关注用户关注列表中的发布视频数为0 的所有用户

account.unfollow_followings_of_user(uid,no_videos=True)

# 取消关注用户关注列表中的发布微头条数为0 的所有用户

account.unfollow_followings_of_user(uid,no_weitt=True)

# 取消关注用户关注列表中的发布文章数为0 的前 20 个用户

account.unfollow_followings_of_user(uid,no_articles=True,count=20,ALL=False)

发微头条(图文皆可)

示例代码：

# 如果微头条有图片，可以传入图片参数

# 多于一张的需用list列表传入

image_path = r'C://pictures/test.jpg'

image_list = [r'C://pictures/test01.jpg',r'C://pictures/test02.jpg']

weitt_content = '这是一个测试用微头条.[posted by TTBot]'

# 发布内容中只有一张图片

account.post_weitt(weitt_content,image=image_path)

# 发布内容中包含有两种或以上的图片

account.post_weitt(weitt_content,image=image_list)

返回结果数据示例：

{'message': 'success', 'data': {'open_url': '/group/1638551478768651/', 'group_id': 1638551478768651}}

发布头条号图文作品

头条的图文作品可以获得收益，关键在于阅读量点击量等有效参数，发布的图片作品归档于文章中。

示例代码：

cover_image_path = r'C://pictures/test.jpg'

cover_image_url = 'https://www.picture.com/test.jpg'

title = '头条测试作品，字数需大于5个字符'

content = '这是一篇头条图文作品的内容。可以是富文本。但不能包含img标签'

# 发布不含封面的图文作品默认投放头条广告 run_ad=True

account.post_article(title,content)

# 不投放头条广告

account.post_article(title,content,run_ad=False)

# 加入封面图片,使用本地图片上传

account.post_article(title,content,cover_img=cover_image_path)

# 加入封面图片,使用网络图片地址

account.post_article(title,content,cover_img=cover_image_url)

# 定时发布图文作品格式：2019-07-09 12:10:10

account.post_article(title,content,timer_time='2019-07-09 12:10:10')

# 使用扩展链接

account.post_article(title,content,extern_link='https://somewebsite.com')

# 发布的图文作品参加新写作大赛的模式： 0:不参加 1:参加主竞赛单元评选 2:参加青年竞赛单元评选

account.post_article(title,content,writting_race_mode=1)

返回结果数据示例:

{'message': '提交成功', 'code': 0, 'data': {'pgc_id': '6711509552061219331'}}

评论某个头条文章、视频、微头条

在知道某个头条发布媒体(文章、视频、微头条)的id后，直接发布评论。重复评论只算一个。

如何知道用户文章、视频、微头条id？查看其链接如：https://www.toutiao.com/i6711548842266853892/ 则 6711548842266853892 为该媒体id。

示例代码：

media_id = '6711548842266853892'

comment_content = '这是一个测试评论'

account.post_comment(comment_content,media_id)

返回的结果数据示例：

{

'comment':

{

'status': 7,

'text': '这是一个测试评论',

'create_time': '2019-07-09 16:58:09',

'user_id': 95480041731,

'id': 6711585125912084488,

'message': 'success',

'created': true,

}

获取某个头条媒体的可见评论

示例代码

# 获取头条文章(https://www.toutiao.com/i6689315272605565452/)的可见评论

comments = account.get_comments_of_media('6689315272605565452')

返回的数据示例:

{

'message': 'success',

'data':

{

'has_more': false,

'total': 10,

'comments': [

{

'text': '确认过眼神，阿里是干大事的',

'digg_count': 3,

'reply_data': {'reply_list': []},

'reply_count': 0,

'create_time': 1557494219,

'user':

{

'avatar_url': 'https://p9.pstatp.com/thumb/5d480005d11a693b87ef',

'user_id': 86931246069,

'name': 'Joshua2014',

'dongtai_id': '6689386720494043147',

'user_digg': 0,

'id': '6689386720494043147',

}

回复某个文章、视频、微头条下的某条评论

回复上述头条文章获取到的可见评论中的第一条评论。

示例代码：

# 参考上述的返回评论数据示例，可以获得相关的必须参数

item_id = '6689315272605565452'

comment_id = '6689386720494043147'

reply_text = '这是一个测试回复'

reply_to_user_id = '86931246069'

# 发表评论回复

account.post_reply(reply_text,item_id,comment_id,reply_to_user_id)

返回的json数据:

{

'message': 'success',

'data':

{

'comment':

{

'is_pgc_author': false,

'is_owner': false,

'text': '这是一个测试回复',

'content': '这是一个测试回复',

'create_time': 1562680661,

'reply_id': 0,

'user':

{

'verified_reason': '',

'screen_name': '贩卖咸鱼的木木',

'avatar_url': 'http://p1.pstatp.com/thumb/b724000372257b2b92aa',

'user_id': 95480041731,

'name': '贩卖咸鱼的木木',

'author_badge': [],

'user_auth_info': '',

'user_verified': false,

'description': '说出你要的视频哟~~！！',

'id': 6711662322362318860, // 此条回复的id

'comment_id': 6689386720494043147, // 回复的评论id

}

发布悟空问答问题(图文描述皆可)

示例代码:

title = '这是一个测试的悟空问答问题'

content = '这是问题的具体描述'

image = r'C://pictures/test.jpg'

image_list = [r'C://pictures/test01.jpg',r'C://pictures/test02.jpg']

# 发表悟空问答并附上本地图片一张

account.post_question(title,content,image)

# 发表悟空问答并附上本地图片多张，使用列表

account.post_question(title,content,image_list)

返回的结果数据示例:

{'qid': '6711665324736905475', 'err_no': 0, 'err_tips': ''}

转发并评论某个文章、视频、微头条

示例代码:

# 转发用户阿里达摩院扫地僧(uid:6636211626)的文章(id:6689315272605565452)

repost_content = '转发并评论的内容'

uid = '6636211626'

item_id = '6689315272605565452'

# 转发并评论

account.repost(repost_content,item_id,uid)

返回的结果数据示例:

{

'message': 'success',

'data':

{

'open_url': '/group/6711667304335802382/',

'group_id': 6711667304335802382,

}

删除自己发布的某条文章、视频、微头条

示例代码:

# 删除上一项自己发布的一个转发并评论阿里达摩院扫地的微头条,

# comment=True 表示此条微头条属于转发类型，如果属于转发类型的微头条，

# 删除时必须指定 comment=True

account.delete_media('6711667304335802382',comment=True)

# 如果是一般自己发布的图文微头条，则不用传入comment的值

account.delete_media('1638551478768651')

# 如果需要删除的是自己发布的小视频，则需使用 delete_video 函数,传入该小视频 id即可

account.delete_video('6711667304335802382')

返回数据示例:

{'message': 'success'}

删除自己头条号发布的图文作品

示例代码:

# 删除一个自己发布的头条图文作品需要知道该图文文章的 id

item_id = '6709615853203096071'

account.delete_article(item_id)

返回的数据示例:

{'code': 0, 'message': 'success', 'data': null}

根据筛选条件删除头条号发布的图文作品

头条号图文作品的发布状态有五种：已发表、未通过、审核中、已撤回、草稿。

对应的传入参数为:passed、unpassed、checking、hide、draft

可以根据作品关键词、开始时间、结束时间来搜索删除相关的图文作品

示例代码：

# 删除自己图文作品中未通过审核的所有作品

account.delete_articles(status='unpassed')

# 删除自己图文作品中通过审核的且包含关键词 “测试”、发布时间位于 2019-07-01 至 2019-07-03 的所有作品

account.delete_articles(status='passed',keyword='测试',start_date='2019-07-01',end_date='2019-07-03')

删除悟空问答中的草稿

示例代码:

# 需要传入问题id

account.delete_wenda_draft('6711665324736905475')

返回结果数据示例:

{'err_no': 0, 'err_tips': ''}

删除悟空问答问题

能进行删除操作的悟空问答问题只能是处于审核状态中的提问。

示例代码:

# 需要传入问题id

account.delete_question('6706694894238302478')

返回结果示例:

// 问题审核中已经删除

{'qid': '6711866197685567758', 'err_no': 0, 'err_tips': ''}

// 问题已过审核无法删除

{'qid': '6706694894238302478', 'err_no': 65546, 'err_tips': '问题状态不符合操作条件'}

删除头条号素材库中的图片

示例代码:

# 需要传入素材图片的uri 即以pgc-image 的web_uri

account.delete_resource_img('pgc-image/266565ea60cb42c3a54b94ebdc58923a')

返回结果数据示例：

{'message': 'success', 'now': 1562742921, 'data': '', 'reason': ''}

收藏某个文章、视频、微头条

必须参数：该头条媒体(文章、视频、微头条)的 group_id

示例代码：

account.store_media('6711635660941296132')

返回结果数据示例：

{'message': 'success'}

取消收藏某个文章、视频、微头条

必须参数：该头条媒体(文章、视频、微头条)的 group_id

示例代码：

account.unstore_media('6711635660941296132')

返回结果数据示例：

{'message': 'success'}

拉黑某个用户

必须参数：需要拉黑的用户uid

示例代码:

account.block_user('6681325527')

返回的结果数据示例：

{'message': 'success', 'now': 1562744234, 'data': '', 'reason': '拉黑成功！'}

取消拉黑某个用户

必须参数：需要取消拉黑的用户uid

示例代码:

account.unblock_user('6681325527')

返回的结果数据示例：

{'message': 'success', 'now': 1562744303, 'data': '', 'reason': '取消拉黑成功！'}

点赞某条评论

必须参数：需要点赞的评论的id,mp平台仅能操作作者自己的文章相关的评论

示例代码:

account.like_comment('6707339641345097735')

返回的结果数据示例：

{'message': 'success', 'now': 1562745148, 'data': '', 'reason': '点赞成功'}

取消点赞某条评论

必须参数：需要点赞的评论的id,mp平台仅能操作作者自己的文章相关的评论

示例代码:

account.unlike_comment('6707339641345097735')

返回的结果数据示例：

{'message': 'success', 'now': 1562745323, 'data': '', 'reason': '取消点赞成功'}

置顶某个头条文章作品

必须参数：需置顶文章的id,文章创建时间戳 create_time

示例代码：

account.set_top_article('6711941566493098504',create_time='1562745675')

返回的结果数据示例：

{'message': 'success', 'now': 1562746670, 'data': '', 'reason': '文章置顶成功'}

取消置顶某个头条文章作品

必须参数：需取消置顶文章的id,文章创建时间戳 create_time

示例代码：

account.cancel_top_article('6711941566493098504',create_time='1562745675')

返回的结果数据示例：

{'message': 'success', 'now': 1562746748, 'data': '', 'reason': '文章取消置顶成功'}

从主页中撤回某个图文作品

必须参数：需要从主页中撤回(隐藏)的文章id

示例代码

account.hide_article('6711941566493098504')

返回的结果数据示例：

{'code': 0, 'message': 'success', 'data': None}

恢复已撤回的某个图文作品到主页上

必须参数：需要从主页中恢复显示的文章id

示例代码：

account.unhide_article('6711941566493098504')

返回的结果数据示例：

{'code': 0, 'message': 'success', 'data': None}

头条素材库中收藏标记某张图片

必须参数：需要传入素材图片的uri 即以pgc-image 的web_uri

示例代码：

account.star_resource_img('pgc-image/a8dc04c83f194adc9d0b56365e42fe50')

返回的结果数据示例：

{'message': 'success', 'now': 1562807025, 'data': '', 'reason': ''}

头条素材库中取消收藏标记某张图片

必须参数：需要传入素材图片的uri 即以pgc-image 的web_uri

示例代码：

account.unstar_resource_img('pgc-image/a8dc04c83f194adc9d0b56365e42fe50')

返回的结果数据示例：

{'message': 'success', 'now': 1562807115, 'data': '', 'reason': ''}

获取关注列表用户

默认存储进入MongoDB数据库。与无需登录的头条用户信息采集(无需登录) 获取用户关注列表一致

示例代码：

# 获取所有的关注用户并存入数据库

account.get_followings(ALL=True,MDB=True)

# 获取前100个关注用户并存入数据库

account.get_followings(count=100,MDB=True)

返回的结果数据示例与头条用户信息采集(无需登录) 中获取用户关注列表获取到的单个用户json数据一致

获取粉丝列表用户

默认存储进入MongoDB数据库。与无需登录的头条用户信息采集(无需登录) 获取用户粉丝列表一致

示例代码

# 获取所有的可见粉丝用户并存入数据库

account.get_fans(ALL=True,MDB=True)

# 获取前100个粉丝用户并存入数据库

account.get_fans(count=100,MDB=True)

返回的结果数据示例与头条用户信息采集(无需登录) 中获取用户粉丝列表获取到的单个用户json数据一致

获取头条通知、未读消息、问答邀请

示例代码：

# 获取头条媒体(文章、视频、微头条)相关评论通知数

media_noty = account.get_notification_count()

# 获取账户新的粉丝数

unread_fans_count = account.get_unread_fans_count()

# 获取得到的问题邀请数

wenda_invited = account.get_wenda_invited_count()

返回的结果数据示例：

// media_noty 有相关的评论微头条2个新的评论，文章有1个新的评论

{'video_pgc_count': 0, 'graphic_count': 1, 'wtt_count': 2}

// unread_fans_count data 字段 1 表示有一个新的粉丝

{'message': 'success', 'now': 1562810209, 'data': 1, 'reason': ''}

// wenda_invited 表示收到4个问题邀请

{'invite_count': 4}

获取拉黑用户列表

示例代码：

account.get_blocking_users()

返回的结果数据示例：

[

{

'avatar_url': 'http://p1.pstatp.com/thumb/6edc0005cd0d88147ac6',

'user_id': 3784676286,

'name': '野史日记',

{

'avatar_url': 'http://p1.pstatp.com/thumb/173b60001126f6279daa9',

'user_id': 104957058916,

'name': '旅行诗人安安',

]

获取头条号订阅者列表

示例代码:

# 获取所有的订阅者数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的subscribers键值

account.get_subscribers(MDB=True)

# 获取100个订阅者数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的subscribers键值

account.get_subscribers(count=100,MDB=True,ALL=False)

返回的结果数据示例：

[

{

'following': 1, //是否你也关注了ta 1是 0否

'avatar_url': 'http://p3.pstatp.com/thumb/fe480000747798606b4c',

'user_id': 54009707197,

'screen_name': '刺派',

{

'following': 0,

'avatar_url': 'http://p1.pstatp.com/thumb/fe2c00002330aae7dbc5',

'user_id': 4160017817,

'screen_name': '水沐禅心34491537',

}

]

获取我的收藏列表

示例代码：

# 获取所有的收藏列表数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的favourite键值

account.get_favourites(MDB=True)

# 获取100条收藏列表数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的favourite键值

account.get_favourites(count=100,ALL=False,MDB=True)

返回的结果列表的单条json数据示例：

获取账户悟空问答草稿列表

示例代码：

# 获取所有的悟空问答草稿箱数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的wenda_draft键值

account.get_wenda_drafts(MDB=True)

# 获取100条悟空问答草稿箱数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的wenda_draft键值

account.get_wenda_drafts(count=100,ALL=False,MDB=True)

返回的结果列表的单条json数据示例：

获取发布的所有/指定数量的微头条、转发

示例代码：

# 获取当前登陆用户所有的微头条、转发数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的comments键值

account.get_posts(MDB=True)

# 获取100条当前登陆用户的微头条、转发数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的comments键值

account.get_posts(count=100,ALL=False,MDB=True)

返回的结果列表的单条json数据示例：

获取发布的所有/指定数量的视频

示例代码：

# 获取当前登陆用户所有的小视频数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的my_videos键值

account.get_videos(MDB=True)

# 获取100条当前登陆用户的小视频数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的my_videos键值

account.get_videos(count=100,ALL=False,MDB=True)

返回的结果列表的单条json数据示例：

获取发布的所有/指定数量的图文作品

图文作品的发布状态有五种：已发表、未通过、审核中、已撤回、草稿。

对应的传入参数为:passed、unpassed、checking、hide、draft

可以根据作品关键词(参数keyword)、开始时间(参数start_date)、结束时间(参数end_date)来搜索获取相关的图文作品

示例代码：

# 获取当前登陆用户所有的图文作品数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的my_articles键值

account.get_posted_articles(MDB=True)

# 获取100条当前登陆用户所有的图文作品数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的my_articles键值

account.get_posted_articles(count=100,ALL=False,MDB=True)

# 获取100条当前登陆用户正在审核中的图文作品数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的my_articles键值

account.get_posted_articles(count=100,ALL=False,MDB=True,status='checking')

# 获取100条当前登陆用户于 2019-07-01 至 2019-07-09 发布的正在审核中的图文作品数据并存入数据库，数据库名称在 config.py 中MONGODB设置里的my_articles键值

account.get_posted_articles(count=100,ALL=False,MDB=True,status='checking',start_date='2019-07-01',end_date='2019-07-09')

# --- 对获取到的单条数据进行回调处理参数：item_callbcak---

'''

想对爬取到的单条数据进行增删改字段等操作，可以使用回调函数：

假设想对获取到的每一条图文数据打印其当前状态，可以使用自己定义一个回调函数如下(callback_print_status):

'''

def callback_print_status(account,item):

'''

第一个参数永远都是account，代表当前登陆账户，

第二个参数表示的便是获取到的原始单条json数据具体内容可以查看下面的数据示例

None 表示处理完后继续执行后续代码；

1 表示处理完后忽略后续处理代码；

元组(item,200) 表示用item替换原先的单条数据再继续后续代码处理

'''

print(item.get('status_desc'))

# 使用回调函数处理每一条数据

account.get_posted_articles(item_callback=callback_print_status)

返回的结果列表的单条json数据示例：

获取互动粉丝排行榜

示例代码：

#获取粉丝互动排行榜的第一页数据的先后顺序表示了互动由高至低的排行

account.get_interact_fans(page=1)

返回的结果json数据示例：

获取头条号素材库图片

示例代码：

# 获取素材库全部图片的第二页每页20条显示

account.get_resource_images(page=2,pagesize=20)

# 获取素材库收藏图片的第一页每页20条显示

account.get_resource_images(page=1,pagesize=20,saved=True)

返回的结果json数据示例：

{

'message': 'success',

'now': 1562900747,

'data': {

'total_count': 77, //素材库图片总数

'resource_list': [

{

'create_time': 1562720147, //上传时间

'is_saved': false, //当前图片是否是收藏图片

'resource_id': 'pgc-image/a8dc04c83f194adc9d0b56365e42fe50',

}

'page_index': 1, //当前页码

'page_size': 20, //每页显示条数

'reason': '',

}

获取账户登陆操作日志

示例代码：

# 获取账户登陆操作日志的第二页每页20条显示

account.get_login_op_log(page=2,pagesize=20)

返回的结果json数据示例：

{

'data':

{

'op_log': [

{

'login_time': '2019-07-10T10:43:25+08:00',

'timestamp': 1562726605,

'ip_addr': '201.18.***.***',

'device': '电脑',

'device_name': 'Windows',

'app_name': '今日头条(Web版)',

'login_method': '密码登录',

}

获取账户敏感操作日志

示例代码：

# 获取账户敏感操作日志的第二页每页20条显示

account.get_sensitive_op_log(page=2,pagesize=20)

返回的结果json数据示例：

{

'data':

{

'op_log': [

{

'op_time': '2018-09-17T18:43:28+08:00',

'timestamp': 1537181008,

'ip_addr': '134.67.***.***',

'device': '电脑',

'device_name': 'Windows',

'action': '修改密码',

'Action': 402,

'total': 1,

'message': 'success',

}

上传图片至头条号素材库

示例代码：

# 通过本地图片上传

account.upload_resource_img_by_open(r'C://pictures/test.jpg')

# 通过网络图片地址上传

account.upload_resource_img_by_url('http://www.xxx.com/test.jpg')

返回结果数据示例：

{

'message': 'success',

'data': {

'url_list': [

{'url': 'http://p3.pstatp.com/origin/242a500005c02321b60e8'},

{'url': 'http://pb9.pstatp.com/origin/242a500005c02321b60e8'},

{'url': 'http://pb1.pstatp.com/origin/242a500005c02321b60e8'}

'web_uri': '242a500005c02321b60e8',

}

小视频状态趋势数据

示例代码：

# 获取'2019-07-01'至'2019-07-13'发布的小视频数据分析数据

account.small_videos_analysis('2019-07-01','2019-07-13')

返回的结果json数据示例：

{

'err_no': 0,

'list': [

{

'id': '6712621136334553100',

'href': 'http://toutiao.com/item/6712621136334553100/',

'title': 'test',

'play_count': 0, //播放量

'comment_count': 0, //评论数

'collect_count': 0, //收藏数

'forward_count': 0, //转发数

'average_progress': 0, //平均进度

'recommend_ratio': 0,

'follow_ratio': 0,

'message': 'success',

'totalPage': 1,

}

悟空问答状态趋势数据

仅获取最近7天内的回答数据

示例代码：

account.wenda_analysis()

返回的结果json数据示例：

{

'message': 'success',

'now': 1562904171,

'data':

{

'go_detail_count': 3, //阅读量

'answer_count': 0, //回答数

'digg_count': 1, //点赞数

'reason': '',

}

粉丝增长趋势数据

示例代码：

#获取 2019-07-10至2019-07-12的粉丝增长数据

account.get_fans_trend('2019-07-10','2019-07-12')

返回的结果json数据示例：

{

'message': 'success',

'now': 1562904306,

'data': {

'itemList': [

{

'date': '20190710',

'totalCount': 9, //粉丝总数

'incrCount': 0, //增长数

'decrCount': 0, //减少数

'netGrowthCount': 0, //净增长数

{

'date': '20190711',

'totalCount': 9,

'incrCount': 0,

'decrCount': 0,

'netGrowthCount': 0,

}

'end_date': '2019-07-12',

'start_date': '2019-07-10',

'reason': '',

}

发布作品的概况趋势数据

示例代码：

#获取 2019-07-10至2019-07-12 发布作品的概况趋势数据

account.get_content_overview('2019-07-10','2019-07-12')

返回的结果json数据示例：

{

'message': 'success',

'now': 1562904519,

'data': {

'comment_count': 1,

'surbscribe_go_detail_count': 0,

'go_detail_count': 11, //阅读量

'end_date': '2019-07-11',

'repin_count': 0, //收藏量

'detail_list': {

// 列表的元素数对应天数

'surbscribe_go_detail_count': [0, 0],

'go_detail_count': [10, 1],

'repin_count': [0, 0],

'impression_count': [1368, 270],

'comment_count': [0, 1],

'share_count': [0, 0],

'publish_num': [0, 0],

'share_count': 0, //转发量

'impression_count': 1638, //推荐量总数

'start_date': '2019-07-10',

'publish_num': 5,

'reason': '',

}

❤� 与一些用户进行交互

目前只写了与一些用户进行互动的代码，具体为：给定一个用户uid列表，对列表中的用户指定日期范围或最近发布的文章、视频、微头条进行指定条数的评论、转发的互动功能。

具体的参数解析可以查看component.toutiao模块的interact_with_users函数源码注释

示例代码：

account.interact_with_users(

uids=['50025817786','6026436452'], # 想要进行交互的用户uid列表

**{ 'comment_on_weitt':True, # 是否对这些用户的微头条进行评论

'comment_start_time':'2019-06-17 00:00:00', # 进行评论的用户头条媒体发布的开始时间范围

'comment_end_time':'2019-06-18 00:00:00', # 进行评论的用户头条媒体发布的结束时间范围

'comment_on_video':True, # 是否对这些用户的视频进行评论

'comment_on_article': True, # 是否对这些用户的文章进行评论

'comment_txt':'TTBot评论', # 对文章、视频、微头条进行评论的共同评论内容

'comment_article':'这是对文章的评论', # 对文章的评论，如果comment_txt参数已有，此项无效。需要comment_on_article为True

'comment_count':1, # 对各个类别(文章、视频、微头条)多少条数据进行评论

'repost_on_article':False, # 是否对列表里的用户进行文章的转发

'repost_txt':'TTBot转发', # 转发头条媒体(文章、视频、微头条)时的评论内容

'repost_count':1# 对各个类别(文章、视频、微头条)多少条数据进行转发并评论

}

)

9. 定时器

定时器可以根据给定的时间对特定的函数进行调用操作。具体模块为：component.timer

主要函数为setup、run 可见函数注释

具体使用：

使用setup函数进行定时器任务的注册

所有定时任务注册完后调用run函数进行定时器运行

示例代码：

from component.toutiao import TTBot

bot = TTBot()

'''

定时任务 1：

1. 定时于 2019-07-20 15:10:00 执行用户交互函数 interact_with_users

2. args 为希望交互的用户uid列表，也是 interact_with_users 函数的位置参数

3. kwargs 为 interact_with_users 函数的关键字参数

'''

bot.timer.setup(

'2019-07-20 15:10:00',

bot.interact_with_users,

args=(['75953693736','65445676041'],),

kwargs={

'comment_on_weitt':True,

'comment_start_time':'2019-06-17 00:00:00',

'comment_end_time':'2019-06-18 00:00:00',

'comment_txt':'定时器评论',

'comment_count':1,

'repost_on_article':True,

'repost_txt':'定时器转发',

'repost_count':1

)

'''

定时任务 2：

1. 定时于 2019-07-25 15:10:00 使用登陆账户发布微头条函数为 bot.account.post_weitt

2. args 为 bot.account.post_weitt 需要的位置参数，元组格式

3. looping 为 true 表示这个定时器任务会循环执行，间隔一段时间执行一次

4. frequency 为6 表示这个定时器任务 1个小时内执行6次，也就是规定了间隔时间为:3600/6=600秒=10分钟

即是10分钟执行一次

5.args_func 表示每一次任务执行时函数bot.account.post_weitt 需要的位置参数改变函数，即：

第一次执行时参数args为：('这是一个定时测试的微头条',) 执行完毕后间隔10分钟

第二次执行时参数 args 为:

args = lambda x:(f'{x[0]}-{time.time()}',) 的结果，其中x为第一次的参数，即：x=('这是一个定时测试的微头条',)

所以第二次执行的 args 为 ('这是一个定时测试的微头条-156663545.3658',)

依次类推，第三次执行时参数args即为第二次执行时的args传入args_func后的结果

6.callbcak 函数为执行完一次定时函数bot.account.post_weitt 后的回调函数，其参数为 bot.account.post_weitt的返回结果

即：

此处callback=lambda x:print(x)，当定时任务执行后，x=bot.account.post_weitt('这是一个定时测试的微头条')

即x为定时函数的返回结果传给callback回调

'''

bot.timer.setup(

'2019-07-25 15:10:00',bot.account.post_weitt,

args=('这是一个定时测试的微头条',),

looping=True,

frequency=6,

args_func=lambda x:(f'{x[0]}-{time.time()}',),

callback=lambda x:print(x))

# 注册完需要的定时任务1、2后，调用run运行定时器

bot.timer.run()

# 或者直接调用

bot.run_timer_jobs()

后续TODO

独立增加悟空问答模块

增加视频解析下载模块

增加视频上传模块

赞助支持

纯属个人维护，工作之余抽出时间进行维护(一般在周末和半夜)

Maybe you could buy me a cup of coffee :)

alipay: wechat:

学习交流

微信公众号：刺派(微信号:pylinc)

新开的公众号，分享关于python数据采集爬虫的技术经验,关注有惊喜

QQ 群: 刺派(qq群号:708736791)

技术讨论交流兼职接单

免责声明

本项目只作为娱乐学习使用，禁止使用本项目源码进行任何商业利用；

对使用本项目造成的一切风险及后果均由项目使用方负全责，请谨慎使用；

你可能感兴趣的:(python,头条新闻机器人)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite