证券代码:870411  联系电话:400-885-0951

错敏字在线校对服务

时间:2020-12-09      来自:本站


1. 项目背景

本项目根据《中华人民共和国政府信息公开条例》、《国务院办公厅关于开展第一次全国政府网站普查的通知》(国办发〔2015〕15号)及《国务院办公厅关于印发政府网站发展指引的通知》国办发〔2017〕47号等文件精神,为进一步推动政府网站健康发展,对政府门户网站提供事前错别字监测服务,有效帮助和解决信息安全与合规性问题,助力政府门户网站内容及质量进一步的提升,更好的应对全国政府网站的检测与考核。

2. 错别字校对介绍

2.1. 错别字敏感词库

基于覆盖社会科学和自然科学各领域的1000亿字汉语语料的分析,采用国际计算语言先进的语法分析和语料库统计相结合的方法,具有汉语切分技术、汉语语法分析技术、汉语依存关系分析技术等优秀的中文智能技术。内嵌79个专业词库、4800万条专业词汇、450万条错误核心库,查错准确率和校对效率已经达到一个崭新的高度。

基于海量文本特征库沉淀,敏感词库覆盖反动、暴恐、涉黄、低俗、保密信息、涉政、宗教、谩骂、灰产、黑产等敏感词汇,应对政府网站中出现的敏感信息可以准确进行校对。

2.2.  具有强大的政治性错误校对功能

精确校对领导人姓名、职务和领导人排序错误。

精确校对涉及台湾和其他敏感的政治性错误。

即时更新的、可自定义的领导人职务库。

2.3. 依据新版《现代汉语词典》等权威标准

依据《现代汉语词典》第5版,参考《辞海》、《现代汉语规范词典》、《中国成语大辞典》等权威词典。

依据国家语委《第一批异形词整理表》、参考《264组异形词整理表》等。

2.4. 首屈一指的海量词库

海量专业词库词汇量超过4800万条,包括物理、数学、机械、纺织、气象、历史、考古、文物、交通、邮电、环境、农林牧渔、化学、石化、冶金、煤炭、建筑、水利、图书、印刷、医学、生物、心理、经济、证券、会计、财政、审计、电脑、电子、电力、新闻、政治、哲学、教育、少儿、文学、戏曲、电影、广电、法律、宗教、民族、军事、航空、地理、地质等79个专业词库。覆盖1000亿字高质量语料。

2.5. 高效的重点词、敏感词校对技术

根据需求定制重点词监控词库,能够准确快速地校对出所有与重点词相似的错误,支持大容量的重点词监控库。

2.6. 同音字校对

具备同音字校对模块,能够自动对同音但是字不同的文本进行识别,并提供改进意见,如李祖善的同音字为:理祖善李祖善里祖善鲤祖善礼祖善哩祖善俚祖善悝祖善澧祖善逦祖善娌祖善锂祖善蠡祖善等。

2.7. 支持上下文校对与自适应技术

基于汉语切分技术、汉语语法分析技术、汉语依存关系分析技术等。并且具有自适应功能,能够随着使用率的增加而不断增加校对准确性,如下图:


3. 事前错别字敏感词接口介绍

通过在内容发布系统嵌入错别字校对api接口功能,用户可在内容发布编辑时进行校对,亦可根据网站实际情况自定义词库,增加所需监测的内容,实现信息发布之前在源头上解决错别字问题。用户可根据返回校对结果自行进行数据展示,如下图:

 

3.1. 自定义词库

用户可根据实际情况添加错别字及敏感词,如图:

 

3.2. 校对流程图

3.3. 在线校对工具

事前错别字校对可采用我司提供的校对工具亦可通过api接口接入网站内容发布系统。通过事情错别字工具,用户可不再另外进行接入工作,可直接将需要校对的信息复制到我司提供的内容编辑框中进行,支持文本和文档等格式数据导入校对。如图:

 

3.4. 错敏字在线校对接口说明

内容发布系统接入可调用以下接口。

3.4.1. 校对接口说明

接口调用时可根据接口返回的参数进行其他自定数据显示,例如高亮显示错别字位置、提示校正词结果显示样式等等。

接口参数说明

 4. 事后错别字校对介绍

4.1. 监测内容

系统每日网站进行扫描,监测是否存在错别字,例如将国名、国家机构名称,以及党和国家领导人姓名写错,背离社会主义核心价值观,有可能产生恶劣影响的严重错别字,以及其他一般错别字。

并能过根据信息发布识别其信息来源,对应相关信息发布责任单位。

针对监测后发现的可疑错别字每日进行人工审核,最终形成监测结果提供用户使用。

4.2. 校对流程图

4.3. 结果展示

4.3.1. 系统数据展示

基础校对完成后,其工作人员根据上下文再次进行数据审核,保证最后的数据准确性,并提供数据审核、定位、报表下载、修改标记等功能。

(1)错别字审核功能:

进入错别字监测结果页,如下图:

 

网站管理员账号用户对错别字列表中的错别字进行审核,在审核确认后,对应点击上图中红框标示部分的选项“不必修改”、“严重性”、“一般性”,即可对该错别字进行审核分类。“不必修改”代表监测出来的错别字并非真的错别字,“严重性”则表示该错别字为严重性错别字,如网站处出现“中国人民共和国”“习尽平主席”等这类错误。“一般性”则表示该错别字为一般性错别字,如户口薄旅游渡假等错误。

注:审核时主要依据国办普查指标,分为一般性错别字和严重性错别字。

(2)错别字定位分析:

点击错别字列表中的错别字,如下图中的“各司其责”,即可在该错别字的引用页中定位。

 

错别字定位同错误链接定位,系统会标红显示,且分为源代码定位和网页定位:

(1)源代码定位:

 

(2)网页定位:

 

其他操作

按下图红框标注处,可进行如下操作:

(1)进行错别字分类或者按关键词查询操作;

(2)点击下载不同版本错别字报告;

(3)点击“已修改”或者“不修改”,对错别字的修改状态进行标记。

 

4.3.2. 自定义监测数据接口

根据信息公开专栏每日监测结果形成对应监测结果接口,接口需包括网址、发布单位、错别字、校正词等内容。




在线营销
live chat