第2次作业(个人项目):词频统计-PSP设计

一、团队介绍

合作人:严康为、崔峰瑞

合作人情况简介:见文末

分工安排:

  基本功能点:各自完成

  升级功能点:严康为完成1、2,崔峰瑞完成3

 

二、项目计划

功能点说明:

基本功能点:设计一个控制台程序,用于统计一个TXT文档(例如input.txt)中的以下几个指标:

  1、统计文件的字符数:只需要统计ASCII码,汉字不需考虑。空格,水平制表符,换行符,均算字符。

  2、统计文件的单词总数,单词:以英文字母开头,跟上字母数字符号,单词以分隔符分割,不区分大小写。

  3、统计文件的有效行数:任何包含非空白字符的行,都需要统计。

  4、统计文件中各单词的出现次数,最终只输出频率最高的10个。频率相同的单词,优先输出字典序靠前的单词。

  5、将统计结果按照字典序输出到文件result.txt

升级功能点12功能点为任务时间内必须完成的升级功能点,3功能点为扩展功能点,视情况完成):

  1、将控制台界面改成GUI界面,可在GUI界面上实现TXT文档路径的选择以及统计结果的显示。

  2、将统计得到的10个最高频率单词出现的频率数以柱状图的形式展现。

  3、对中文进行分词,统计得到10个最高频率的中文词汇,并将频率以柱状图的形式展现。

初步设计GUI界面草图:

第2次作业(个人项目):词频统计-PSP设计_第1张图片

 

时间节点安排:

基本功能点:

  12019.1.5完成代码规范学习,预计用时5小时。

  22019.1.8完成控制台程序的基本框架搭建,预计用时30小时(初次接触C#,对语言本身学习时间较多)。

  32019.1.9完成对文件字符数、单词总数、有效行数的统计,预计用时4小时。

  42019.1.10完成对文件中各单词的出现次数统计,预计用时8小时。

  52019.1.10整体程序优化完毕,预计用时4小时。

升级功能点:

  1、2019.1.13完成对中文分词的算法设计,预计用时20小时(包含对中文分词的方法学习及设计,因此时间较多)

  22019.1.15完成从控制台界面到GUI界面的转移,预计用时30小时(初次接触C#的GUI界面开发,对语言本身学习时间较多)

  32019.1.16严康为完成10个最高频率单词的柱状图展现,预计用时8小时;崔峰瑞完成对中文的分词,预计用时20小时

  42019.1.17整体程序整合优化完毕,预计用时8小时。

 

三、环境配置:

编程语言:C#

代码规范:参考https://wenku.baidu.com/view/b5be911b6bd97f192279e9bd.html

仓库链接:个人项目:严康为:https://gitee.com/bellight/WordCountPerson1     崔峰瑞:https://gitee.com/hjgc_dcfs_cfr/WordCountPerson1

 

附录:

个人简介:

严康为:

  本科有过c、汇编、MATLAB、LabVIEW语言相关的编程学习和训练。

  课堂教学中运用c语言写过机房管理系统程序,运用汇编语言写过四则运算存储计算器程序。

  课外竞赛中参加过一款光电探测器的开发和两款小型载人赛车的开发,运用c编写过一些STM32单片机的库开发程序,运用MATLAB完成过一些数学模型的建模,运用LabVIEW写过测控系统上位机的界面。

  总代码训练量大约在两万行左右。

崔峰瑞:

第2次作业(个人项目):词频统计-PSP设计_第2张图片

 

你可能感兴趣的:(第2次作业(个人项目):词频统计-PSP设计)