● 摘要
基于手机短信的移动增值业务已逐渐形成一个巨大的产业,但由于基于关键词搜索[10]的传统手机搜索不够人性化,即中国5亿多手机用户中的大部分用户都不知道什么是关键字,再加上目前中国短信的限制是70个汉字,因此采用自然语言输入和直接返回简短答案(而不是链接)的短信搜索无疑是最适合目前中国老百姓的模式。首先对用户查询天气、股票等日常生活信息的常用句子进行分析,统计其中出现频率高的词汇,构建了比较完备的具有领域特征的分词词典。然后在分词词典[17]的基础上,结合中文短信查询句式简单的特点,采用了应用最为广泛的正向最大匹配分词算法[16],并在分词过程中将存放在数据库中的词典读入内存使用级联Hash表来存储,大大提高了中文分词的效率。此外,通过在数据库中为每个用户保存查询场景的方式来解决查询上下文的自然语言理解问题。最后,根据自然语言处理引擎生成的查询条件,可以直接去本地数据库搜索结果,或者利用网页爬虫技术和Web Service技术,直接去Internet上获取数据,这样不仅保证了查询信息的丰富性和时效性,而且大大节省了系统管理人员维护海量数据的麻烦。本系统避免了采用传统自然语言处理技术大而全但理解率低的问题,手机用户只需通过编辑短信发送口语化的问题、短句或者关键词到指定的短信服务号,便可获得相应的内容回复。本系统在绝大部分的测试用例下都获得了正常的返回结果,正确率达到了98%以上,而且短信的平均回复时间都在10s之内,真正实现了“口语化提问,精确解答”的目标。关键词:自然语言处理,短信查询,中文分词,关键词搜索。