本期为TechBeat人工智能社区第560期线上Talk。
北京时间1月3日(周三)20:00,香港科技大学在读博士生—陈竞晔的Talk已准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “TextDiffuser系列让扩散模型渲染文本不再是难题”,介绍了他的团队在文本分割网络与大语言模型提供的显式视觉文本信息引导扩散模型所做的研究。
主题:TextDiffuser系列让扩散模型渲染文本不再是难题
嘉宾:香港科技大学在读博士生 陈竞晔
时间:北京时间 1月3日(周三)20:00
地点:TechBeat人工智能社区
点击下方链接,即可观看视频!
TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=839
TextDiffuser系列工作专注于解决扩散模型无法准确渲染视觉文本的难题。现如今即使是较强的扩散模型,渲染文本时经常会缺失或添加额外的字符,使整体图像的真实度与美观度下降。TextDiffuser系列通过文本分割网络与大语言模型提供的显式视觉文本信息引导扩散模型,大幅度提升文本渲染的准确率。
1、背景 - 现如今文本生成图像扩散模型生成视觉文本的能力
2、TextDiffuser-1 - 基于字符级分割掩码辅助扩散模型生成文本图像的方法
3、TextDiffuser-2 - 释放语言模型的能力以解决文本渲染的方法
4、总结与未来展望
论文链接:
https://arxiv.org/abs/2305.10855
代码链接:
https://github.com/microsoft/unilm/tree/master/textdiffuser
论文链接:
https://arxiv.org/abs/2311.16465
代码链接:
https://github.com/microsoft/unilm/tree/master/textdiffuser-2
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
陈竞晔
香港科技大学在读博士生
我是香港科技大学二年级博士生,师从陈启峰教授。我主要研究方向为扩散模型,文本渲染,与大语言模型。相关研究工作曾以第一作者身份发表于NeurIPS, CVPR, AAAI, IJCAI等国际会议。TextDiffuser-1曾于2023年6月登上HuggingFace Demo趋势榜单前10。
个人主页: https://www.techbeat.net/grzytrkj?id=36257
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区