[论文笔记] Megatron: mistral sliding window(ImportError: /workspace/venv/lib/python3.10/site-packag报错解决)
pyTorch—TransformerEngine1.2.1documentation论文:https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention(新版本2以上,这里用的最新版本2.5.2)里对sliding_window的实现。所以不需要用transformerengine。直接用