ZXG20000

互联网用户信息处理

1.读取单文本中的序列号和上网时间年龄

import pandas as pd
import re
import os
inpath="association\\2012-05-07\\0B9205B65DE6BAF09AE4AA49F37011A1_2012-05-07_09-03-53.txt"
formatfile="user_duration.csv"
outpath="user_duration_new.csv"

files = pd.read_csv(formatfile,index_col=0)
df = pd.DataFrame(files)
f = open(inpath,encoding='gbk')
#对文件名进行解析，获取用户id
filename=os.path.split(inpath)[1].split(".")[0]
strlist=filename.split('_')
USERID=strlist[0]
file=f.readlines()
for i,line in enumerate(file):
        if(i==0) :
            a = line.strip('\n')
            a=a.replace('[=]','@')
            a_lists=a.split("@")
            for str in a_lists:
                str=str.replace('<=>','@')
                result=str.split("@")
                if len(result)!=2:
                    continue
                name    =result[0]
                value   =result[1]
                if name!='Last':
                    continue
                df.at[USERID,'Duration']=value
            break
f.close()
df.to_csv(outpath)

效果如图

2.多文本序列号和上网时间

import pandas as pd
import re
import os
def txt_duration(inpath,formatfile,outpath):
    files = pd.read_csv(formatfile,index_col=0)
    df = pd.DataFrame(files)
    f = open(inpath,encoding='gbk')
    #对文件名进行解析，获取用户id
    filename=os.path.split(inpath)[1].split(".")[0]
    strlist=filename.split('_')
    USERID=strlist[0]
    file=f.readlines()
    for i,line in enumerate(file):
        if(i==0) :
            a = line.strip('\n')
            a=a.replace('[=]','@')
            a_lists=a.split("@")
            for str in a_lists:
                str=str.replace('<=>','@')
                result=str.split("@")
                if len(result)!=2:
                    continue
                name    =result[0]
                value   =result[1]
                if name!='Last':
                    continue
                df.at[USERID,'Duration']=value
            break
    f.close()
    df.to_csv(outpath)
'''
inpath="association\\2012-05-07\\0B9205B65DE6BAF09AE4AA49F37011A1_2012-05-07_09-03-53.txt"
formatfile="user_duration.csv"
outpath="user_duration_new.csv"
txt_duration(inpath,formatfile,outpath)
'''
#对该路径下的文件和目录进行遍历
def print_list_dir(dir_path):
    dir_files=os.listdir(dir_path) #得到该文件夹下所有的文件
    #formatfile="user_duration.csv"
    outpath="user_duration_new.csv"
    for file in  dir_files:
        file_path=os.path.join(dir_path,file)  #路径拼接成绝对路径
        if os.path.isfile(file_path): #如果是文件，就打印这个文件路径
            txt_duration(file_path,outpath,outpath)

        if os.path.isdir(file_path):  #如果目录，就递归子目录
            print_list_dir(file_path)
            
if __name__ == '__main__':
    dir_path='E:\\Reptile_Data\\数智教育数据集\\互联网用户行为日志数据集.rardataset_616718\\association\\2012-05-07'
    print_list_dir(dir_path)

效果如图

4.将年龄变更为年龄段,并将年龄段排序

转换参考的目录

https://blog.csdn.net/qxqxqzzz/article/details/88356678 could not convert string to float:

错误类型，文本原来的格式为int ，修改生成的数据类型，在头加一段代码

path1="user_duration_newss.csv"
file1 = pd.read_csv(path1,index_col=0)
file1 = pd.DataFrame(file1, dtype='str')

import pandas as pd
import re
import os
path1="user_duration_newss.csv"


file1 = pd.read_csv(path1,index_col=0)
file1 = pd.DataFrame(file1, dtype='str')
df1 = pd.DataFrame(file1)


for i in range(0,len(df1)):
    tmpage=str(df1.at[i,'Age'])
    Age=""
    print(i)
    #tmpage=int(strs)
    if("0"<=tmpage<"10"):
        Age="0_9"
    elif ("10"<=tmpage<"20"):
        Age="10_19"
    elif ("20"<=tmpage<"30"):
        Age="20_29"
    elif ("30"<=tmpage<"40"):
        Age="30_39"
    elif ("40"<=tmpage<"50"):
        Age="40_49"
    elif ("50"<=tmpage<"60"):
        Age="50_59"
    elif ("60"<=tmpage<"70"):
        Age="60_69"
    elif ("70"<=tmpage<"80"):
        Age="70_79"
    elif ("80"<=tmpage<"90"):
        Age="80_89"
    elif ("90"<=tmpage<"100"):
        Age="90_99"
    df1.at[i,'Age']=Age

#数据按照年龄段大小排序
df1=df1.sort_values('Age',ascending=True)
df1.to_csv("user_duration_newss.csv")

效果如图

5.连接信息段

import pandas as pd 
import math
import re

df1=pd.read_csv('demographic.csv')
df2=pd.read_csv('user_duration_newss.csv')
df3=pd.merge(df1.reset_index(),df2,left_on='USERID',right_on='USERID')
df3.to_csv('duration_demographic_wash.csv',index=False)

效果如图

6.互联网用户24小时使用时间段

import pandas as pd 
import math
import os
import re


def process(inpath):
    #对文件名进行解析，获取用户id和使用时间段
    filename=os.path.split(inpath)[1].split(".")[0]
    strlist=filename.split('_')
    userid=strlist[0]
    startTime=strlist[2].split('-')[0]
    start=int(startTime)
    startTime=str(start)
    return userid,startTime
    

#对该路径下的文件和目录进行遍历
useridList=[]
usetimeList=[]
def print_list_dir(dir_path):
    dir_files=os.listdir(dir_path) #得到该文件夹下所有的文件
    for file in  dir_files:
        file_path=os.path.join(dir_path,file)  #路径拼接成绝对路径
        if os.path.isfile(file_path): #如果是文件，就打印这个文件路径
            [userid,startTime]=process(file_path)
            useridList.append(userid)
            usetimeList.append(startTime)
            #print(userid,startTime)
        if os.path.isdir(file_path):  #如果目录，就递归子目录
            print_list_dir(file_path)
            
if __name__ == '__main__':
    dir_path='E:/Reptile_Data/互联网用户行为日志数据集.rardataset_616718/association/2012-05-07'
    print_list_dir(dir_path)
    df=pd.DataFrame({'USERID': useridList, 'USETIME': usetimeList})
    df.to_csv("USERTIME_wash.csv",encoding='gbk',index=False)

效果如图

互联网用户行为日志分析时间处理

速度很快

1.单文本处理出使用时间

import os
def txt_delete_condition(inpath,outpath):
    f = open(inpath,encoding='utf-8')
    c=[]
    file=f.readlines()
    time=0
    for i,line in enumerate(file):
        if i<2 :
            c.append(line)
            continue
        a = line.strip('\n')
        line=line.strip('\n')
        a=a.replace('[=]','@')
        a_lists=a.split("@")
        strs=""
        if(line.find("T")==-1):
             line=line+"[=]"+"UTIME"+"<=>"+"0"+"\n"
        for strss in a_lists:
            strss=strss.replace('<=>','@')
            result=strss.split("@")
            name    =result[0]
            value   =result[1]
            if(name=="T"):
                strs=str(int(value)-time)
                time=int(value)
                line=line+"[=]"+"UTIME"+"<=>"+strs+"\n"
        c.append(line)        
    res="".join(c)
    with open(outpath,'w') as f:
        f.writelines(res)

inpath = "association\\2012-05-07\\0B9205B65DE6BAF09AE4AA49F37011A1_2012-05-07_09-03-53.txt"
txt_delete_condition(inpath,inpath)

处理效果如图UTIME字段为使用时间

2.多文本处理

import os
def txt_process(inpath,outpath):
    #f = open(inpath,encoding='utf8')
    f = open(inpath,encoding='utf-8')
    c=[]
    file=f.readlines()
    time=0
    for i,line in enumerate(file):
        if i<2 :
            c.append(line)
            continue
        a = line.strip('\n')
        line=line.strip('\n')
        a=a.replace('[=]','@')
        a_lists=a.split("@")
        strs=""
        if(line.find("T")==-1):
             line=line+"[=]"+"UTIME"+"<=>"+"0"+"\n"

        for strss in a_lists:
            strss=strss.replace('<=>','@')
            result=strss.split("@")
            if(len(result)<2):
                continue
            name    =result[0]
            value   =result[1]
            if(name=="T"):
                strs=str(int(value)-time)
                time=int(value)
                line=line+"[=]"+"UTIME"+"<=>"+strs+"\n"
        c.append(line)        
    res="".join(c)
    with open(outpath,'w',encoding='utf-8') as f:
        f.writelines(res)
#对该路径下的文件和目录进行遍历
def print_list_dir(dir_path):
    dir_files=os.listdir(dir_path) #得到该文件夹下所有的文件
    formatfile  ='new_data.csv'
    outpath     ='newss_data.csv'
    pos=0#定义当前位置
    for file in  dir_files:
        file_path=os.path.join(dir_path,file)  #路径拼接成绝对路径
        if os.path.isfile(file_path): #如果是文件，就打印这个文件路径
            txt_process(file_path,file_path)
        if os.path.isdir(file_path):  #如果目录，就递归子目录
            print_list_dir(file_path)
            
if __name__ == '__main__':
    dir_path='E:\\Reptile_Data\\互联网用户行为日志数据集.rardataset_616718\\association\\2012-05-07'
    print_list_dir(dir_path)

3.获取应用使用时间和关联度

USERID和P和UTIME

3.1单文本处理

import pandas as pd
import os
USERIDlist=[]
Plist=[]
UTIMElist=[]
def txt_process(inpath):
    f = open(inpath,encoding='utf-8')

    filename=os.path.split(inpath)[1].split(".")[0]
    strlist=filename.split('_')
    USERID=strlist[0]

    file=f.readlines()
    for i,line in enumerate(file):
        if i<2 :
            continue
        a = line.strip('\n')
        USERIDlist.append(USERID)
        if(a.find("P")==-1):
            Plist.append(" ")
        if(a.find("UTIME")==-1):
            UTIMElist.append(" ")
        a=a.replace('[=]','@')
        a_lists=a.split("@")
        pflag=True
        utimeflag=True
        for strss in a_lists:
            strss=strss.replace('<=>','@')
            result=strss.split("@")
            if(len(result)<2):
                continue
            name    =result[0]
            value   =result[1]

            if(name=="P") and pflag:
                Plist.append(value)
                pflag=False
            if(name=="UTIME") and utimeflag:
                UTIMElist.append(value)
                utimeflag=False

#对该路径下的文件和目录进行遍历
def print_list_dir(dir_path):
    dir_files=os.listdir(dir_path) #得到该文件夹下所有的文件
    formatfile  ='new_data.csv'
    outpath     ='newss_data.csv'
    pos=0#定义当前位置
    for file in  dir_files:
        file_path=os.path.join(dir_path,file)  #路径拼接成绝对路径
        if os.path.isfile(file_path): #如果是文件，就打印这个文件路径
            txt_process(file_path)
        if os.path.isdir(file_path):  #如果目录，就递归子目录
            print_list_dir(file_path)
            


inpath = "association\\2012-05-07\\0B9205B65DE6BAF09AE4AA49F37011A1_2012-05-07_09-03-53.txt"

txt_process(inpath)
df=pd.DataFrame({"USERID":USERIDlist,"P":Plist,"UTIME":UTIMElist})
df.to_csv("user_P_time.csv",index=False)

处理效果如图

3.2多文本处理

import pandas as pd
import os
USERIDlist=[]
Plist=[]
UTIMElist=[]
def txt_process(inpath):
    f = open(inpath,encoding='utf-8')

    filename=os.path.split(inpath)[1].split(".")[0]
    strlist=filename.split('_')
    USERID=strlist[0]
    file=f.readlines()
    for i,line in enumerate(file):
        if i<2 :
            continue
        a = line.strip('\n')
        USERIDlist.append(USERID)
        if(a.find("P")==-1):
            Plist.append(" ")
        if(a.find("UTIME")==-1):
            UTIMElist.append(" ")
        a=a.replace('[=]','@')
        a_lists=a.split("@")
        pflag=True
        utimeflag=True
        for strss in a_lists:
            strss=strss.replace('<=>','@')
            result=strss.split("@")
            if(len(result)<2):
                continue
            name    =result[0]
            value   =result[1]

            if(name=="P") and pflag:
                Plist.append(value)
                pflag=False
            if(name=="UTIME") and utimeflag:
                UTIMElist.append(value)
                utimeflag=False

#对该路径下的文件和目录进行遍历
def print_list_dir(dir_path):
    dir_files=os.listdir(dir_path) #得到该文件夹下所有的文件
    formatfile  ='new_data.csv'
    outpath     ='newss_data.csv'
    pos=0#定义当前位置
    for file in  dir_files:
        file_path=os.path.join(dir_path,file)  #路径拼接成绝对路径
        if os.path.isfile(file_path): #如果是文件，就打印这个文件路径
            txt_process(file_path)
        if os.path.isdir(file_path):  #如果目录，就递归子目录
            print_list_dir(file_path)
            



if __name__ == '__main__':
    dir_path='E:\\Reptile_Data\\互联网用户行为日志数据集.rardataset_616718\\association\\2012-05-07'
    print_list_dir(dir_path)
    df=pd.DataFrame({"USERID":USERIDlist,"P":Plist,"UTIME":UTIMElist})
    df.to_csv("user_P_time.csv",index=False)

4.查找使用时间最长的15个应用

import pandas as pd
import os
import re
df1=pd.read_csv('user_P_time.csv')
#去除使用时间为负数的
df2=df1[df1['UTIME']>0]
df3=df2.pivot_table(index='P',values='UTIME',aggfunc='sum')
#获得15个时间最长的
df4=df3.nlargest(15,columns='UTIME')
df4.to_csv('user_P_time_wash.csv')

效果如图

5.处理这15个应用的关联度

import pandas as pd
import numpy  as np
import os
import re
def process(x):
    if(np.isnan(x)!=True):
        x=1
    return x
df1=pd.read_csv('user_P_time.csv')
#去除使用时间为负数的
df2=df1[df1['UTIME']>0]
df3=df2.pivot_table(index='USERID',columns="P",values='UTIME',aggfunc='count')
#要选取的列
lists=["explorer.exe","QQ.exe","360se.exe","iexplore.exe","IEXPLORE.EXE","sogouexplorer.exe","360chrome.exe","AliIM.exe","EXCEL.EXE","NetSurvey.exe"]
df4=pd.DataFrame(df3,columns=lists)

for name in lists:
    df4[name]=df4[name].apply(process)
df4.to_csv('user_P_time_wash1.csv')

处理效果

6.使用时间最长的15个网页

6.1获取网页停留时间

import pandas as pd
import os
import re
USERIDlist=[]
Ulist=[]
UTIMElist=[]
#正则匹配提取域名
def url_process(strs):
    pattern='([\S]+?\.(com|cn))'
    try:
        a=re.search(pattern,strs)
        strs=a.group(0)
        #print('匹配成功，结果为：',a.group(0))
    except:#删除不能匹配的行
        strs=""
    return  strs
def txt_process(inpath):
    f = open(inpath,encoding='utf-8')

    filename=os.path.split(inpath)[1].split(".")[0]
    strlist=filename.split('_')
    USERID=strlist[0]

    file=f.readlines()
    for i,line in enumerate(file):
        if i<2 :
            continue
        a = line.strip('\n')
        if(a.find("U<=>")==-1):
            continue
            #Ulist.append(" ")
        USERIDlist.append(USERID)
        if(a.find("UTIME")==-1):
            UTIMElist.append("")
        a=a.replace('[=]','@')
        a_lists=a.split("@")
        uflag=True
        utimeflag=True
        for strss in a_lists:
            strss=strss.replace('<=>','@')
            result=strss.split("@")
            if(len(result)<2):
                if(result[0]=="U"):
                    Ulist.append("")
                    uflag=False
                continue
            name    =result[0]
            value   =result[1]

            if(name=="U") and uflag:
                value=url_process(value)
                Ulist.append(value)
                uflag=False
            if(name=="UTIME") and utimeflag:
                UTIMElist.append(value)
                utimeflag=False
    f.close()

#对该路径下的文件和目录进行遍历
def print_list_dir(dir_path):
    dir_files=os.listdir(dir_path) #得到该文件夹下所有的文件
    for file in  dir_files:
        file_path=os.path.join(dir_path,file)  #路径拼接成绝对路径
        if os.path.isfile(file_path): #如果是文件，就打印这个文件路径
            txt_process(file_path)
        if os.path.isdir(file_path):  #如果目录，就递归子目录
            print_list_dir(file_path)
            



if __name__ == '__main__':
    dir_path='E:\\Reptile_Data\\互联网用户行为日志数据集.rardataset_616718\\association\\2012-05-07'
    print_list_dir(dir_path)
    print(len(USERIDlist))
    print(len(Ulist))
    print(len(UTIMElist))
    df=pd.DataFrame({"USERID":USERIDlist,"U":Ulist,"UTIME":UTIMElist})
    df.to_csv("user_U_time.csv",index=False)

6.2获取网页

处理效果

import pandas as pd
import os
import re
df1=pd.read_csv('user_U_time.csv')
#去除使用时间为负数的
df2=df1[df1['UTIME']>0]
df3=df2.pivot_table(index='U',values='UTIME',aggfunc='sum')
#获得15个时间最长的
df4=df3.nlargest(15,columns='UTIME')
df4.to_csv('user_U_time_wash.csv')

python pip报错：Preparing metadata (pyproject.toml) ... error 我有一个魔盒其他 python pip 开发语言
环境：win11（Python3.9.13）原因：想安装低版本python，结果安装成了32位的，但是依赖包基本都是64位的。解决办法：重装64位python（可能还需要VisualStudio内安装“使用C++的桌面开发”）异常报错：Collectingmatplotlib~=3.0(fromgradio)Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/
python安装scipy库出错_解决scipy安装（pip install scipy）失败,以及其他问题 weixin_39663933
解决scipy安装(pipinstallscipy)失败,以及其他问题解决：1.在scipy官方库中并没有适合Windows的python3.6相关版本，故需要在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy下载适合的版本，下载如：scipy‑0.19.1‑cp36‑cp36m‑win32.whl2.Windows中scipy安装成功后，还会存
Python 安装scipy失败 _不二_ python python
在使用pip安装scipy时会报错OSError:[Errno13]Permissiondenied:'/usr/local/lib/python2.7/dist-packages/scipy'网上查了，说是由于墙的原因，但我已经翻了墙的，任然报这个错误，下载速度特别慢，到11%或者27%就挂啦，最后很无赖，直接手动安装吧。先去官网搜索scipy选择合适的版本如下图下载完成后pipinstalls
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
Python前端开发 PITSU 正则表达式 html css3 mysql
Python前端开发1.前端三剑客（HTML，CSS和JavaScript）1.1HTML1.1.1HTML简介HyperTextMark-upLanguage,指的是超文本标记语言；html是开发网页的语言；html中的标签大多数都是成对出现的,格式:1.1.2HTML结构第一行是文档声明部分HTML：分为页头，页身和页脚。标签大部分是成对出现1.1.3第一行文档声明部分HTML在vscode中
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
python中strip()，lstrip()，rstrip()函数的讲解使用方法高质量海王哦 python python
在Python中，strip()、lstrip()和rstrip()是用于处理字符串的三个常用方法，它们的作用都是去除字符串两端的空白字符或指定字符，但它们的去除位置有所不同。下面是它们的详细讲解：1.strip()方法strip()方法用于去除字符串两端的空白字符（默认情况下，包括空格、换行符、制表符等），或者去除指定的字符序列。语法：string.strip([chars])chars：可选参
疯狂python讲义学习日志06——异常处理静笃归心方得平和心气 Python学习日志异常处理 python学习 python笔记 python速成
疯狂python讲义学习日志06——异常处理引言1异常处理机制1.1使用try...except处理异常1.2异常类的继承体系1.3多异常捕获1.4访问异常信息1.5else块1.6使用finally回收资源2使用raise处理异常2.1引发异常2.2自定义异常类2.3except和raise同时使用3.python的异常传播轨迹4.异常处理规则4.1不要过度使用异常4.2不要忽略异常引言异常机制
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Python中 rstrip()、 lstrip（）、 strip() 的用法和区别一只小小的土拨鼠深度学习面试前端 java python 深度学习
目录：题目一：Python中rstrip()、lstrip（）、strip()的用法和区别题目二：python中append（）、expend（）函数的用法和区别题目三：Python中zip()、zip(*zipped)、*zip()函数的用法和区别题目一：Python中rstrip()、lstrip（）、strip()的用法和区别考点这三个函数都是去除头尾字符、空白符的函数strip：用来去除头
Python个人学习笔记（17）：模块（sys、pickle&json） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
五、sys模块sys.exit()：退出while1:print(123)sys.exit(0)#程序退出，0是正常退出，1是非正常退出，记录在日志中sys.version：得到当前解释器的运行环境sys.platform：运行平台，win32=windows代码：print(sys.version)print(sys.platform)结果：3.13.0(tags/v3.13.0:60403a5
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
python strip/rstrip/lstrip详细讲解（涵盖许多例子、作用以及复杂行为处理） zilan23 Python python
pythonstrip/rstrip/lstrip详细讲解：在Python中，strip、lstrip、rstrip是用于字符串处理的常用方法，主要功能是去除字符串首尾的指定字符。它们的区别如下：1.strip([chars])作用：删除字符串开头和结尾处所有属于chars的字符，直到遇到不属于chars的字符为止。默认行为：若未提供chars参数，默认去除空白符（空格、换行\n、制表符\t等）。
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

互联网用户信息处理

互联网用户信息处理

1.读取单文本中的序列号和上网时间年龄

2.多文本序列号和上网时间

4.将年龄变更为年龄段,并将年龄段排序

5.连接信息段

6.互联网用户24小时使用时间段

互联网用户行为日志分析时间处理

速度很快

1.单文本处理出使用时间

2.多文本处理

3.获取应用使用时间和关联度

3.1单文本处理

3.2多文本处理

4.查找使用时间最长的15个应用

5.处理这15个应用的关联度

6.使用时间最长的15个网页

6.1获取网页停留时间

你可能感兴趣的:(Python,python)