当前位置:问答库>论文摘要

题目:中文法律信息的获取与分类技术研究

关键词:法律信息; 抓取; 分类

  摘要


我们国家的法律信息属于公共的信息,允许自由复制和传播,不受著作权法的限制和约束。而且政府也有相关的规定,在新的法律通过后也要在公共的渠道进行发布和传播。所以对于我们广大人民来说可以非常方便的从公共渠道获取法律信息。这其中的一个最重要的渠道是通过互联网,根据权威机构统计中国在线发布法律信息的颁布机关有上万家之多。因此我们可以非常方便和顺畅的从公共的传播渠道获取这些法律信息。这为广大人民获得法律提供了便利,同样也为准确、及时、全面的获取法律信息带来了很大的难度。

当前也有为数不多一些国内和国外的专业公司提供法律信息服务,但是主要是针对律师事务所、法学院等专业机构服务,并且只提供收费用户服务。互联网上也有许多小的法律网站,但是绝大多数都不够专业,信息不全且杂乱无章,不能一站式解决大众对法律信息的渴求。所以及时的得到并对这些信息进行分类整理是很有必要的。国内目前的法律信息系统从信息收集、分类整理到信息发布有很多环节都是手工进行的。

本文对信息抓取技术和信息分类技术进行了研究、比较和分析。抓取技术主要包括通用抓取、主题抓取、动态内容抓取等技术,分类方法主要包括基于统计和基于规则的方法,此外还有对信息的预处理技术,主要包括关键信息提取、去除重复信息、分词、索引等技术。并将这些技术应用在中文法律信息上加以实践,以达到法律信息获取自动化与整理、分类智能化的效果。满足大众对法律信息资源的需求,本系统使用了多种技;术,是一个相对完整的系统,从数据的在互联网上获取到数据的特征提取到分类呈现,系统分为几个部分:数据抓取、数据预处理、数据分类;最终使用比较简洁的方式对计算结果进行了展示。