资源分享(nlp、kaggle、pytorch、datawhale)

文章目录

    • 一、.机器学习、深度学习库、优秀课程
      • 1.1 资源库
      • 1.2 优秀课程
      • 1.3 优秀作者、公众号
    • 二、NLP相关
      • 2.1 NLP相关
      • 2.2 transformer资源
      • 2.3 Hugging Face:
      • 2.4 其它文章
    • 三、CV相关
    • 四、数据挖掘
      • 4.1 pandas、sns工具类
    • 五、kaggle赛事
      • 5.1 NLP赛事
    • 六、 其它赛事:
      • 6.1 datawhale、Coggle数据科学赛事总结
      • 6.2 NLP比赛
      • 6.3 其它CV类比赛:
      • 6.4 结构化比赛:
      • 6.5 推荐系统
      • 6.6 赛事技巧
    • 七、datawhale组队学习相关:
      • 7.1 组队学习课程
    • 八、深度学习、github资源
      • 8.1 深度学习文章
      • 8.2 github资源
    • 九、推荐系统
    • 十、colab、markdown、模型训练等
    • 十一、面试类、LeetCode刷题
    • 十二、杂类:

收藏了各种文章、github资源、赛事top方案等等

美图开启好心情

一、.机器学习、深度学习库、优秀课程

1.1 资源库

  • 《ApacheCN 深度学习译文集》、《PyTorch 中文教程 1.7》
  • 《PyTorch官网教程》、 中文文档
  • scikit-learn官网
  • 各种语言、代码库官方API文档集合
  • AI Studio帮助文档、paddle-github地址、paddle文档
  • 《Jupyter Notebook:Python数据分析利器》

1.2 优秀课程

  • 李沐《动手学深度学习 》中文第二版,github地址、课程主页
  • paddleNLP资源合集(提取码u8dg )和哔哩哔哩视频、paddleOCR系列学习资料链接提取码:aabp
  • 百度AI产品与应用学习路线、paddle应用实践、paddle课程
  • 《自然语言处理》(车万翔)配套案例代码地址
  • 《深度学习基础》
  • Python语言(参考《python3.6.3中文手册》、《Python 3 教程》、《十万行代码》)、python3.10中文文档

1.3 优秀作者、公众号

  • 网站《Python深度学习基于PyTorch》貌似是介绍了PyTorch官网的几乎所有内容。还有配套bilibili视频讲解《Python深度学习:基于Pytorch (合集)》
  • 张贤笔记: 《PyTorch 学习笔记汇总(完结撒花)》、 [PyTorch 学习笔记] 6.1 weight decay 和 dropout
  • 多多笔记 之《2021年如何科学的“微调”预训练模型?》
  • 知乎:致Great、张贤同学、阿水公众号【Coggle数据科学】、鱼遇雨欲语与余​公众号:Coggle数据科学、苏剑林、台运鹏
  • kaggle:致Great、Venkatkumar R
  • 苏剑林个人主页、github


二、NLP相关

2.1 NLP相关

  1. 生成对抗网络

    • 功守道:NLP中的对抗训练 + PyTorch实现
    • 《PaddleGAN预习课程》、《生成对抗网络七日打卡营》、PaddleGAN github地址
    • 《讯飞——新闻文本分类》惊鹊代码
    • bilibili视频、博客文章《NLP 中的对抗训练(附 PyTorch 实现)》
    • 《NLP中的对抗训练》、《bert 对抗训练实现代码》
  2. NLP中的数据增强

    • 《一文了解NLP中的数据增强方法》及视频、《 基于自然语言解释的数据增强》、《【工大SCIR笔记】自然语言处理领域的数据增广方法》
    • 《实际业务超好用的SimBERT》、伪标签《基于半监督或自监督解决文本分类中样本不均衡问题》

2.2 transformer资源

  • 《使用huggingface transformers全家桶实现一条龙BERT训练和预测》

  • 知识蒸馏Distilled BiLSTM论文解读《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 》,原文链接。

  • 《The Annotated Transformer》:原文以及中文翻译、datawhale地址

  • 《Attention Is All You Need 原始论文中英文对照翻译》

  • 《苏神文章解析》

    • 《浅谈Transformer的初始化、参数化与标准化》
    • 《词向量与Embedding究竟是怎么回事?》
    • 《Transformer如戏,全靠Mask》
  • transformer知识点:

    • 《用可视化解构BERT,我们从上亿参数中提取出了6种直观模式》

    • 深度学习之注意力机制

    • 关于BERT和Transformer的易错点

    • 知乎文章《史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案》

    • 《超细节的BERT/Transformer知识点》

  • 论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型、《A Survey of Transformers》英文pdf

  • 深度学习论文翻译:Image Classification、Object Detection、OCR

  • 图神经网络论文翻译及解读

  • 刘知远老师-NLP研究入门之道

  • 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

  • 苏剑林博客-关于Transformers的合集

  • (强推)李宏毅2021春机器学习课程:重点:self- attention ,transformer,Bert

  • Transformer【动手学深度学习v2】(李沐bilibili视频)

  • 张贤笔记:

    • [PyTorch 学习笔记] 6.1 weight decay 和 dropout
    • Pytorch:model.train()和model.eval()用法和区别

2.3 Hugging Face:

  • Hugging Face主页课程 1-3译文
  • Summary of the tokenizers
  • Using tokenizers from Tokenizers
  • 从头训练分词器,中文翻译见此贴第二节、《BPE、wordpiece、ULM三大分词原理》
  • Loading a Dataset,dataset拆分和切片
  • 从头开始预训练BERT模型、《pytorch loop微调预训练模型》
  • 在modelpoint基础上训练语言模型、中文翻译可以查看:datawhale中文教程
  • trainer参数设定参考:《huggingface transformers使用指南之二——方便的trainer》
  • huggingface transformers使用指南(更新and待续)
  • hugging face 官方文档——datasets、optimizer
  • transformers/trainer.py
  • 社区文档:社区transformer资源、notebook

2.4 其它文章

  • Pytorch Bert+BiLstm文本分类
  • 《torchtext.vocab构建词表》

三、CV相关

  • 《CNN卷积神经网络》

  • 清欢守护者《CV》(包括数据增强、cv论文、各种模型等等98篇)

  • 太阳花的小绿豆,图像分类、目标检测等等

  • OpenMMLab、MMCV 中文文档、API文档

  • 《Pillow速通教程》、pillow中文文档

四、数据挖掘

4.1 pandas、sns工具类

  • 《速度起飞!替代 pandas 的 8 个神库》、Data Table 使用文档
  • 《Seaborn官网》、《Seaborn 绘制 21 种超实用精美图表》、《Seaborn入门详细教程》、《一文学会Seaborn!》


五、kaggle赛事

5.1 NLP赛事

  1. U.S. Patent Phrase to Phrase Matching(2022.3.21——2022.7.20)

    • 数据分析《The Complete Overview》
    • 1st place solution
    • 2nd Place Solution
    • 3rd place solution
    • 5th solution: prompt is all you need
    • 7th place solution - the power of randomness
    • 8th place solution: Predicting Targets at Once Led Us to Gold
    • 10th place Solution : Single model public lb 0.8562, private lb 0.8717
    • 12th Place Solution
  2. Feedback Prize - Evaluating Student Writing(2021.12.14——2.22.3.15)
    Though a Named Entity Recognition competition as opposed to classification, the dataset contains 11,403 additional essays and 70,763 additional essay sections.

    • 数据分析.
    • 1st solution with code(cv:0.748 lb:0.742)
    • 2nd Place - Weighted Box Fusion and Post Process
    • 3rd Place Solution w code and notebook
    • 4th place solution - ️ my first gold medal ️ (+source code available!)
    • 5’th place : simultaneous span segmentation and classification + WBF
    • 6th place solution. A YOLO-like text span detector.
    • 7th place solution
    • 9th solution, deberta is the king, pure ensemble of bert models
    • 10th solution
  3. 《NBME - Score Clinical Patient Notes》(2022.2.1——2022.3.3)

    • 1st solution
    • #2 solution
    • 3rd Place Solution: Meta Pseudo Labels + Knowledge Distillation
    • 4th place solution: Deberta models & postprocess
    • 5th place solution
    • 6th place solution
    • 7th place solution: Get 0.892 in just 10 minutes
    • 8th place solution
    • 9th Weight search and threshold modification
  4. 《Jigsaw Rate Severity of Toxic Comments》(2021.11.8——2022.2.7)

    • 1st place solution with code
    • Toxic Solution and Review (2nd Place)
    • 4th - This is Great! - Shared Solution
    • 5th place solution
    • 7th Place Solution
  5. Jigsaw Unintended Bias in Toxicity Classification | 2019/2020


六、 其它赛事:

6.1 datawhale、Coggle数据科学赛事总结

  1. Datawhale competition-baseline汇总(github)、 Datawhale大满贯赛事文档、
  2. Coggle数据科学 competition-baseline汇总(gitee)、 Coggle年度原创文章汇总:各种竞赛总结
  3. 科大讯飞2021 AI开发者大赛算法赛(附30场比赛答辩视频)
  4. 《Kaggle 2021年 45场比赛&优胜方案汇总》
  5. 每月赛事学习:Coggle 30 Days of ML
    • Coggle 30 Days of ML(21年10月)、打卡石墨文档、10月活动总结(含优秀打卡汇总)、
    • 「Coggle 30 Days of ML」11月活动总结、打卡石墨文档
    • 「Coggle 30 Days of ML」12月活动总结、打卡石墨文档
    • Coggle 30 Days of ML(22年1&2月)
    • Coggle 30 Days of ML 虎年3月竞赛学习、3月活动总结
    • Coggle 30 Days of ML(22年7月)、活动总结

6.2 NLP比赛

  1. 2021 CCF 爱奇艺剧本角色情感识别赛道 baseline、致Great-baseline

  2. 《科大讯飞中文相似度 Top10》、中文问题相似度挑战赛0.9+paddle版本baseline

  3. 《datawhale-baseline-互联网新闻情感分析》

  4. 入门NLP - 新闻文本分类

    • 《新闻文本分类(一)——TF-IDF》
    • 新闻文本分类参考代码:惊鹊《Rank4 NLP新闻文本分类-开源代码+经验分享》及github
    • 张贤的知乎代码解析:《阿里天池 NLP 入门赛 Bert 方案1》、 《 Bert 方案 -2 Bert 源码讲解》、 《Bert 方案 -3 Bert 预训练与分类》、github代码地址
    • 赛事讨论区张帆等方案(task1-6)
    • 冬于bert预训练和微调代码
    • nlp群直播链接10-8第一期结构化赛题、10-4竞赛分享、10-8结构化赛题、学习资料
  5. 学术论文分类挑战赛0.79+paddle版本Baseline

  6. CCKS2022通用信息抽取竞赛

  7. 科大讯飞《非标准化疾病诉求的简单分诊挑战赛2.0》,baseline

  8. 《新冠疫情相似句对判定大赛 线上第一名方案》

  9. 2022搜狐校园算法大赛 NLP赛道第一名方案分享

  10. Kaggle 专利匹配比赛金牌方案赛后总结

6.3 其它CV类比赛:

  • 图像去模糊算法代码实践!
  • 人脸关键点检测挑战赛(CV)、

6.4 结构化比赛:

  • 《2021科大讯飞-车辆贷款违约预测赛事 Top1方案》
  • 《KDD Cup 2021 时序异常检测(附 Top1 至 Top7思路视频 )》
  • 入门数据挖掘 - 二手车交易价格预测
  • 《电信客户流失预测挑战赛》、baseline

6.5 推荐系统

  1. 比赛总结:微信大数据挑战赛(内有决赛 Top1 至 Top7答辩视频 + PPT)

6.6 赛事技巧

  • 特征选择算法大总结

  • Kaggle Top1% 是如何炼成的!

  • 《【论文解读】文本分类上分利器:Bert微调trick大全》



七、datawhale组队学习相关:

7.1 组队学习课程

  • 优秀作业:《天国之影笔记》、于冬笔记、初晓宇笔记、胡先生笔记、pytorch视频

  • 2022年4月datawhale开源学习汇总

  • 开源项目:深入浅出PyTorch

  • 基于transformers的自然语言处理(NLP)入门、 nlp之情感分析(RNN/CNN/LSTM/BERT)

  • 数据挖掘/机器学习、 数据可视化(matplotlib)、 动手学数据分析、清洗、重构、建模

  • 计算机视觉(cv)、pandas数据处理与分析及讲解视频

  • 集成学习(上)、集成学习(中)、 集成学习(下)、强化学习

  • 统计学习要素(ELS)中文翻译、代码实现及其习题解答



八、深度学习、github资源

8.1 深度学习文章

  • 深度神经网络模型训练中的 tricks(原理与代码汇总)
  • 《【论文解读】文本分类上分利器:Bert微调trick大全》
  • 《从ReLU到GELU,一文概览神经网络的激活函数》、《机器学习常用损失函数小结》

8.2 github资源

  • Advance Search快速查找GitHub资源

  • 人工智能1,2,3班资料,(d5dq)

  • pytorch-sentiment-analysis

  • 中文数据增强包、参考文献:[2019-EDA]EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

  • 搭建博客

  • 《《从零构建知识图谱:技术、方法与案例》代码》

九、推荐系统

  • 推荐系统——召回篇
  • datawhale深度学习推荐系统

十、colab、markdown、模型训练等

  • 《Python环境配置保姆教程(Anaconda、Jupyter、GPU环境)》

  • cloud tpu文档、colab使用方法总结、 Google Colab 使用说明(翻译)、Cloud TPU飞书总结

  • 《pytorch里巧用optimizer.zero_grad增大batchsize》、苏剑林《用时间换取效果:Keras梯度累积优化器》、《【PyTorch基础教程4】反向传播与计算图》

  • markdown文档、公式格式调整(可以写作 f o r m u l a \mathbf {formula } formula

  • 防止自动断开连接
    在colab页面,按Ctrl+Shit+i,打开检查页面(也可以右击鼠标,选择“检查”),并切换到控制台或terminal标签,chrome中为Console。

function ConnectButton(){
    console.log("Connect pushed"); 
    document.querySelector("#top-toolbar > colab-connect-button").shadowRoot.querySelector("#connect").click() 
}
setInterval(ConnectButton,60000);

十一、面试类、LeetCode刷题

  • 【剑指offer】高频ML/DL面试题(持续更新)

  • 刷题攻略 知识星球《代码随想录》、 datawhale力扣项目

  • Datawhale面经小组,项目地址

  • 算法工程师面试分享。提取码:ftxx

  • 学习理论基石:学习五环法录制文件

  • 毕业三年的经验分享


十二、杂类:

  • SigOpt(调参?)

  • trainner最原始的版本(trainner一开始是不存在的,可以看huggingface的examples里的代码,由于启动训练需要特别多的参数,而各个nlp任务又有很多通用的参数,就被抽象出来了trainner。trainner就是把训练开始之前需要的参数合并了起来)

  • 《如何理解NLLLoss?》

  • 深度学习500问

  • 推荐书籍:Transformers-for-Natural-Language-Processing,张帆发的

  • 神经网络与深度学习

  • Attention is all you need的Pytorch实现

  • Sentence Transformers:使用 BERT & Co 的多语言句子、段落和图像嵌入,Sentence Transformers文档

  • GPU 显存不足怎么办

  • ipynb文件转md:

jupyter nbconvert --to markdown notebook.ipynb
jm="jupyter nbconvert --to markdown"
jm docs/篇章4-使用Transformers解决NLP任务/4.1-文本分类.ipynb
jm docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.ipynb
  • md文件转ipynb:
pip3 install jupytext --upgrade # 安装jupytext
jupytext --set-formats ipynb,md filename.md 

你可能感兴趣的:(pytorch,自然语言处理,深度学习)