2023年12月20日学习总结

今日to do list:

  • 学习kaggle中store sales中的dart forcasting
  • 大概搜集一个声纹识别的报告(老师给的新项目)
  • 学习时不刷手机
    okkkkkkkkkkkkkk
    开始

    目录

      • 1. 时间序列预测- a complete guide
        • (1)时序预测有三条规则:
        • (2)时序数据time series data的组成
        • (3)分析的流程
          • 1. import libraries
          • 2.导入数据并且初步查看数据
          • 3. EDA:exploratory data analysis
          • 4. data pre-processing
      • 2.python中的语法学习(纯小白)
        • (1)pandas中的date_range
      • 3. 学习darts库
      • 4.声纹识别调研
        • 声纹识别研究现状
        • 声纹识别技术指标
        • 一些开源链接(之后逐个排查哈)

1. 时间序列预测- a complete guide

总结一下这篇博客:Time Series Forecasting — A Complete Guide
我想大概再了解一下时间序列预测的基本流程

(1)时序预测有三条规则:

  • 粒度规则(granularity rule):预测的粒度越小(比如时间尺度是分钟还是小时),预测的准确性越高(分钟的时间尺度准确性就会提高)。因为聚集的数据方差会更小,因此误差也会更小(没太明白这个因果,先过吧,之后再看看
  • 频率规则(frequency rule):为了捕捉新的有用的信息,我们需要不断的更新数据,更新数据的频率越高,预测的也就更加准确
  • 地平线规则(horizon rule) :不要预测太远,我们应该预测一个短期时间的结果

(2)时序数据time series data的组成

2023年12月20日学习总结_第1张图片
一些专有名词:

  • level:复杂的时间序列都是由一个base line 和 different components组成的,base line 就是 level
  • trend:increase or decrease
  • seasonality(季节性):数据中暗藏着一种一段时间就会重复一次的模式,就叫做季节性
  • cyclicity(周期性):周期性也是一种模式,但和季节性不同就是,季节性是每隔固定的间隔就会重复,但是周期性是不固定的间隔重复
  • noise:但我们把数据中的level, trend, seasonality, cyclicity删除之后剩下的就是noise,noise是数据中完全随机的干扰

(3)分析的流程

这个是这个博主给的,后续我可以把在kaggle中学到的一些流程加进去,先写一个初步的吧

1. import libraries

首先把需要的包导入进来

2.导入数据并且初步查看数据

导入数据就使用pandas.read_csv就好了,要注意相对路径
初步查看数据可以使用这个函数:basic_eda

def basic_eda(df):
    print("-------------------------------TOP 5 RECORDS-----------------------------")
    print(df.head(5))
    print("-------------------------------INFO--------------------------------------")
    print(df.info())
    print("-------------------------------Describe----------------------------------")
    print(df.describe())
    print("-------------------------------Columns-----------------------------------")
    print(df.columns)
    print("-------------------------------Data Types--------------------------------")
    print(df.dtypes)
    print("----------------------------Missing Values-------------------------------")
    print(df.isnull().sum())
    print("----------------------------NULL values----------------------------------")
    print(df.isna().sum())
    print("--------------------------Shape Of Data---------------------------------")
    print(df.shape)
    print("============================================================================ \n")
3. EDA:exploratory data analysis

内个文章写的不大全我自己先初步总结一下

4. data pre-processing

2.python中的语法学习(纯小白)

(1)pandas中的date_range

函数功能:于生成一个日期范围的序列

full_time_period = pd.date_range(start='2013-01-01', end='2017-08-31', freq='D')
# start和end参数定义了日期范围的开始和结束日期
# freq参数定义了日期范围的频率
# 生成一个包含2013年1月1日至2017年8月31日之间每天日期的pandas.DatetimeIndex对象

3. 学习darts库

4.声纹识别调研

声纹识别研究现状

声纹识别搜索关键词:Speaker Recognition/Identification/Verification
声纹识别有三个阶段:

  • machine learning:最佳基线模型iVector
  • deep learning:bottleneck feature、d-vector、x-vector、j-vector
  • attention mechanism、Learning to rank
    2023年12月20日学习总结_第2张图片
    声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector,采用pLDA信道补偿算法,所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿,但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector(文本有关)以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。

声纹识别技术指标

参考链接:添加链接描述

一些开源链接(之后逐个排查哈)

http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet

resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频,感觉效果很不错
2023年12月20日学习总结_第3张图片

你可能感兴趣的:(学习,数据库)