随着知识更新的速度越来越快,信息发布、知识传播的时效性要求越来越高,新闻出版从业人员编辑加工文字的工作量越来越大,编校质量面临的挑战也越来越多。与此同时,人工智能技术、自然语言理解技术、机器深度学习技术的发展,为内容质量把关和提升提供了新的解决办法。
12月30日,方正电子正式发布方正智能辅助审校系统v1.0。这是方正电子联合数字出版技术国家重点实验室、高等院校、行业专家等一起进行技术研究和攻关的成果,也是在众多新闻出版单位的积极参与和应用检验下,经过不断迭代更新的产品,在字词审校、知识审校、格式审校、逻辑审校方面都取得了实质性的进展。
▲方正智能辅助审校产品功能介绍
系统简介
方正智能辅助审校立足新闻出版行业,并逐渐向整个文化传媒领域延伸,为出版社、报刊社、民营书商、排版公司、互联网企业、政府机关等机构用户以及作者、工作室等个人用户提供强大且易用的智能辅助审校服务。
该系统是专门为新闻出版机构提供数字化内容辅助审校的工具,能够对内容进行多方面检校,包括:字词检查、标点符号检查、文章逻辑检查、上下文查重、专业术语检查、敏感词检查等。
该系统提供两种产品形态的服务,支持对word稿件和标准pdf稿件进行内容审校,满足不同人员角色、不同工作场景的使用需求。
01.word客户端插件
▲产品形态之一:word客户端插件
02.云端在线审校平台
▲产品形态之二:云端在线审校平台
功能介绍
方正智能辅助审校通过语言模型和机器深度学习技术,通过构建算法模型对海量真实语料不断训练及优化,累积的错词、专业术语、敏感词、慎用词、异形词等类型的编校知识词条超过百万。
方正智能辅助审校系统参考并依据《作者编辑常用标准及规范》(第三版)《标点符号用法 gbt 15834-2011》以及《图书编辑校对实用手册》《通用规范汉字表2013版》等标准规范或权威资料,将模型、语料、规则三者相结合,研发出逻辑类、字词类、知识类、格式类四类审校功能。
通过方正智能辅助审校系统,使用者不仅能够对稿件中的错词错字、敏感词、相似内容、公元纪年、历史纪年、干支纪年、标点符号进行检查,还可以对稿件的大纲标题、图表公式列表的序号等进行检查,对于识别出的错误还可以给出修改建议,并且支持对错误进行快速定位、导出及修改。具体功能介绍如下:
错词错字检查
检查稿件中是否存在错字、别字、叠字、叠词,以及“的地得”类错误。
▲图中:“因些该尺度具有﹥和﹤的数学特性”,“因些”需改为“因此”
敏感词检查
敏感词检查包括国家主权和领土完整、港澳台问题、民族宗教问题、国际关系等敏感内容检查。
▲不得称为“全国人大副委员长”
▲“珠穆朗玛峰”不得称为“额菲尔士峰”
▲“从香港征集回国”,有将香港视为国家的嫌疑
▲“回族就是伊斯兰教”将民族和宗教混为一谈
▲“锡金是中国的邻国”,2005年5月起,不得将锡金作为独立国家提及
▲对有身体伤疾的人士不使用“独眼龙”等蔑称
标点检查
检查稿件中是否存在成对标点符号缺失或格式不一致,以及不同标点符号是否叠用、连用的错误。
▲图中:“但其也有一些缺陷,如发展速度易受资金、,人力、时间等方面的限制”,标点“、,”不应该连用
大纲检查
检查稿件大纲的标题序号是否连续,体例或格式是否一致,标题内容是否重复,是否为孤标题。
▲图中“3.为加强业务管理……”中的序号“3.”应改为“2.”
图、表、公式、列表序号检查
检查稿件中图片、表格、公式的序号是否存在不连续、体例或格式不一致、缺少引用的错误。
▲图中“图1-6”应改成“图1-5”,“图2-2”应改成“图2-1”
上下文查重
检查稿件中是否存在相似度较高或者完全相同的内容。
▲图中稿件第10页和第82页两句话重复,且内容完全相同
纪年检查
检查稿件中的纪年类内容是否存在公元年份、干支纪年以及历史纪年的错误。
▲图中稿件“正德三年(1508)”应改为“正德三年(1713)”;“明嘉靖癸己年(1533)”应改为“明嘉靖癸巳年(1533)”
格式检查
检查稿件中数值的千分空是否使用正确,数值与单位符号之间是否使用了不间断空格,以及数学符号是否使用了中文全角。
▲图中:“有两个乡的水稻平均单产都是400kg,甲乡的水稻单产在350~450kg之间的地块”,“400kg”和“450kg”,数值和单位kg之间没有使用不间断空格;“%”应该使用半角格式
公式识别
方正审校还提供公式识别功能,除了能够将图片格式的公式识别为可编辑的mathtype公式外,还可对全文所有公式进行内容一致性检查。
▲图片格式的公式利用公式识别功能,可以快速转换为可编辑的文字公式
此外,该产品还内嵌正版《大辞海》,用户可以很方便地利用该功能对稿件中的名词术语进行检索。
核心技术
方正智能辅助审校系统基于方正三十余年在内容处理方面的技术积累,结合北京大学、数字出版技术国家重点实验室等在自然语言处理方面的最新研究成果,并在数十家用户验证反馈的基础上研发而成。系统采用云架构、应用机器学习和深度学习,融合分词、实体识别、句法分析、深度语言模型等技术,围绕图书、期刊出版规范标准对内容和体例进行检查。
通过建立学科领域知识模型和大规模语料库进行训练学习,基于深度学习的序列标注和通顺度评价算法,利用字词混淆对集候选结果进行综合排序,并进一步结合大规模知识和语料库进行常识检查,形成包括错别字、用词不当、敏感词等十二类检查的智能化引擎,生成具有可反馈学习和强交互的勘误表。
方正智能辅助审校系统具备审校准确率高、查全率高、速度快、语料更新及时、用户使用方便等特点。在产品试用阶段,已在全国范围内100多个机构用户试用。
未来,方正智能辅助审校系统还将通过人工智能技术赋能行业智能化升级,以优异的产品和技术为出版行业各单位创造更大的价值。