一篇文章中包含了空格,双引号换行等字符,如何分辨这些字符与单词的区别是实现字符串统计的关键。本文采用了状态机的思想,结构图如下:

状态:
OUT: 表示初始状态,也是一个可以停留的状态,系统一开始处于该状态
IN:表示相反状态,可从OUT状态转换而来
状态转换:
程序初始化阶段,状态设置为out,当程序按照字母往下浏览时,检测到有字母会将状态设置为in。当程序继续浏览文件时,发现有分隔符,空格时,就会将状态设置为out。
有限状态自动机常用于词法分析(如编译器前端对源程序进行词法分析 )、文本处理、模式匹配等领域,通过定义不同状态和状态间的转换条件,来识别特定的字符序列模式。
编程思路:
- 宏定义设置变量名OUT, IN, INIT
- 设置count_word函数,首先初始化变量init和word,然后用fopen函数打开文件,文件打开为指针类型。编辑while函数,当指针值不为EOF时,执行判断语句。如果c为分隔符,则状态变量设置为out,如果c=字母时,状态变量设置为in。当指针指到文章尾部时候,此时指针值为EOF,退出循环。
- 设置主函数,先判断指令是否正确,再用print函数输出count_word函数统计结果。
#include <stdio.h>
#define OUT 0
#define IN 1
#define INIT OUT
int count_word(char *filename)
{
int status = INIT;
int word = 0;
FILE *fp = fopen(filename, "r");
if (fp == NULL) return -1;
char c;
while ((c = fgetc(fp)) != EOF)
{
if((' ' == c)||('\n' == c)||('\t' == c))
{
status = OUT;
}else if (OUT == status)
{
status = IN;
word ++;
}
}
return word;
}
int main(int argc, char *argv[]){
if (argc < 2) return -1;
printf("the number is %d\n", count_word(argv[1]));
}
865

被折叠的 条评论
为什么被折叠?



