在文章开篇,小圈先介绍下 昆仑万维
公司旗下的AI大模型**『天工』**,它是由昆仑万维自研的双千亿级大语言模型, 也是国内首个对标ChatGPT的双千亿级大语言模型,可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等需求。
早在今年上半年的时候,小圈还申请过天工的 内测试用资格。而当时各种ChatGPT产品层出不穷,功能使用上也都前篇一律,所以也就试用过几次没在关注过了。
而现在天工支持平台也扩展了,支持了:网页端、IOS端、Android端
前不久再次登录官网时发现,官方已经在GitHub上开源了 SkyChat、SkyPaint、SkyText、SkyCode
四款AI功能产品。一查之下,确定它们是基于百亿级大语言模型“天工”Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。而且这些模型开发者不需要额外的申请,可以直接使用甚至商用。
今天主要分享一下四款开源产品的主要功能和应用场景。
SkyChat
是一款基于中文GPT-3 API研发的聊天机器人项目。它可以像ChatGPT一样,实现人机聊天、对话、你问我答,除此之外还能支持中英文互译、对对联、内容续写、写古诗、生成菜谱、第三人称转述、创建采访问题等多种功能。
项目地址:https://github.com/SkyWorkAIGC/SkyChat-Chinese-Chatbot-GPT3
官方也提供了相应的API示例及文档参考,以供开发者调用使用。
比如:生成菜谱API演示
效果展示:
Python版API - Demo(需注册申请APIKey):
SkyPaint
是基于 Stable Diffusion
优化的AI绘画模型。支持输入中英文文本,可生成多种现代艺术风格的高质量图像。
项目地址:https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion
机械狗:
宫崎骏动画-城堡-大海:
Python模型调用示例(模型下载在GitHub上):
from diffusers import StableDiffusionPipeline
device = 'cuda'
pipe = StableDiffusionPipeline.from_pretrained("path_to_our_model").to(device)
prompts = [
'机械狗',
'城堡 大海 夕阳 宫崎骏动画',
'花落知多少',
'鸡你太美',
]
for prompt in prompts:
prompt = 'sai-v1 art, ' + prompt
image = pipe(prompt).images[0]
image.save("%s.jpg" % prompt)
SkyText
是由奇点智源(昆仑万维收购的新企AI公司)发布的中文GPT3预训练大模型,可以进行聊天、问答、中英互译等不同的任务。应用这个模型,除了可以实现基本的聊天、对话、你问我答外,还能支持中英文互译、内容续写、对对联、写古诗、生成菜谱、第三人称转述、创建采访问题等多种功能。(跟SkyChat很像)
项目地址:https://github.com/SkyWorkAIGC/SkyText-Chinese-GPT3
模型使用:
# -*- coding: utf-8 -*-
from transformers import GPT2LMHeadModel
from transformers import AutoTokenizer
from transformers import TextGenerationPipeline
# 以 SkyWork/SkyText(13billions) 为例,还有 SkyWork/SkyTextTiny(2.6billions) 可用, 期待使用
model = GPT2LMHeadModel.from_pretrained("SkyWork/SkyText")
tokenizer = AutoTokenizer.from_pretrained("SkyWork/SkyText", trust_remote_code=True)
text_generator = TextGenerationPipeline(model, tokenizer, device=0)
input_str = "今天是个好天气"
max_new_tokens = 20
print(text_generator(input_str, max_new_tokens=max_new_tokens, do_sample=True))
SkyCode
是一个多语言开源编程大模型,采用GPT3模型结构,支持Java, JavaScript, C, C++, Python, Go, shell等多种主流编程语言,并能理解中文注释。模型可以对代码进行补全,拥有强大解题能力。
项目亮点:涵盖多种编程语言、针对中文注释进行优化、极其出色的解题能力
项目地址:https://github.com/SkyWorkAIGC/SkyCode-AI-CodeX-GPT3
体验地址:https://sky-code.singularity-ai.com/
模型能力对比:
model | pass@1 | pass@10 | pass@100 |
---|---|---|---|
GPT-Neo 1.3B | 4.79% | 7.47% | 16.30% |
GPT-Neo 2.7B | 6.41% | 11.27% | 21.37% |
GPT-J 6B | 11.62% | 15.74% | 27.74% |
SKY_code(2.6B) | 12.84% | 21.07% | 35.97% |
模型使用:
# -*- coding: utf-8 -*-
from transformers import GPT2LMHeadModel
from transformers import AutoTokenizer
from transformers import TextGenerationPipeline
model = GPT2LMHeadModel.from_pretrained("SkyWork/SkyCode")
tokenizer = AutoTokenizer.from_pretrained("SkyWork/SkyCode", trust_remote_code=True)
text_generator = TextGenerationPipeline(model, tokenizer, device=0)
input_str = "if __name__"
max_new_tokens = 40
print(text_generator(input_str, max_new_tokens=max_new_tokens, do_sample=True))