[人工智能教程] 人工智能暑期课实践项目建议

哈工大人工智能暑期课实践项目建议

这个博客介绍了暑期课实践作业的建议。
时间:7/10 - 7/22. 一周上课, 一周项目实践。
要求:项目实践的过程请用公开的博客记录。 项目的源代码请放到 github 中。

每4 ~ 5 人一个小组,从下面的候选中选择题目:

1)手写数字识别增强版。 在 MNist示例程序 的基础上进一步扩展,
阶段要求:

  1. 能实现多个数字的手写体识别
  2. 能实现加减乘除符号的识别
  3. 能做一个手写体识别四则运算的APP (可以是网页服务或手机App)

微软讲师提供:识别单个字符的基本版程序。
给学生的建议:我们通过这个练习要学会如何增量改进人工智能模型(把已有模型加强,多个模型的合作)。
另外,我们借用这个练习来学习 OCR 的通用流程,看看有哪些可以重用的地方。
工程上的建议:先设计整个流程,并写完程序框架。把整个程序跑通后,再关心如何提高识别质量。

2) 识别海报照片中的信息并给用户提醒。
场景:你路过一个海报, 上面写了“某年某月某日 有某某活动”, 觉得有点意思,就随手照了一张照片,继续办你的事情去了。 过了一会儿,你的手机自动给你加了一个提醒,提醒内容就是刚才看到的那个海报,但是程序自动识别了海报的日期,标题,地点等关键信息。你的手机上还有其他很多照片,但是 AI 程序并没有把那些照片搞成提醒, 它是怎么做到的呢?

微软工程师提供:一个基本的框架,并在课程中使用这个框架
给学生的建议:
收集训练数据,比如从网上爬取,自己从校园内收集
大量数据需要标记,考虑使用或自制工具辅助标记工作

3) 控制智能家居
在微软讲师提供的实例程序之上,增加新的场景
典型场景:
可以通过语音下达指令。
支持自然语言的多轮对话,如“打开卧室的灯。厨房的也打开。”
通过个性化的语音(如学生自己的语音)进行反馈。
微软讲师提供:语音控制开关灯的示例程序
给学生的建议:
通过微软认知服务语音转文本、语言理解来识别声音输入。
可以尝试通过识别特定的词汇来判断是否是后几轮对话,并复用之前识别出的上下文。
通过微软认知服务文本到语音转换来实现个性化语言输出。

4) 漫画的文字翻译
场景:很多优秀的漫画都是英文或日文的,我们能否用AI 把这些漫画中的文字抠出来,翻译为中文,并把中文再放回原来的地方,这样用户可以马上看到中文的漫画了?
阶段要求:
能替换、翻译基本的文字
能替换、翻译特殊字体的文字(如装饰性文字、音效文字)
能保持原有文字的字体和风格
微软讲师提供的材料:Microsoft Cognitive Service 介绍和示例程序。
给学生的建议:深入了解认知服务中视觉、语言以及必应的服务。着重在如何将几种服务集成到一起,设计出解决问题的流程。避免一开始将太多时间花在界面、数据等问题上。

5) 打造一个 黄金点 竞赛平台并用AI 程序参与比赛
详情见: 黄金点游戏

6)自选项目 (项目必须通过老师的审核,请准备 NABCD 的项目提案文档)

作业要求

  1. 创建一个团队博客,(可以在csdn.net 或 cnblogs.com), 请把博客地址告诉老师(发布到微信群里)
  2. 博客1:列出团队要实现的项目和大致的计划,列出项目的源代码仓库(见下面第3点),博客必须有一个团队成员在工作的照片(可以遮挡脸部)。
  3. 博客2:项目结束后,写一个博客描述项目的进程,软件的功能演示(可以录制视频或截屏),以及你在这个过程中碰到的困难, 对AI 工具的反馈,等。
  4. 在Github 创建一个公开的项目,把项目的代码签入到那里。 希望可以看到每天大部分队员都有代码签入,而不是最后一天 所有代码 “神奇地” 由一个成员签入。没有中间的签入代码的,项目部分得 0 分。 另外,项目可以使用外部的模块/数据/AI模型,请说明模块/数据/模型的来源,并尊重知识产权和遵守使用的要求。如果违背原来作者的使用协议,则项目部分得 0 分。
  5. 检查标准:
    博客1, 博客2,Github 的程序能够被 clone 并能在一个全新的机器编译成功,基本功能运行成功。

你可能感兴趣的:(AI,软件工程)