极速手机网

敏感词库集合包敏感词排查方法

敏感词库集合是小编收集的最新、最全的敏感词,内容覆盖两万多条,包括色情、暴恐、反动、民生及贪腐等六大类词库,敏感词库集合了各种敏感词的txt文档,收录2017最新、最全的敏感词库,内容覆盖两万多条,根据不同行业的进行了分类提供了txt、xlsx文本格式方便用户直接导入使用python、php、Java、数据库都很方便,敏感词主要的范围指的就是带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语言,在现实中,随着网络科技的发展,随着而来的网络暴力也越来越严重,越来越的人因为网络上的留言而走上轻生的地步,因此国家有关部分特意针对此类问题分布了一系列禁止出现的敏感词,当用户在网络上发帖或者发文章的时候,若出现此类敏感信息系统就将自动屏蔽,或者直接不允许分布,需要的朋友赶紧来下载使用吧。
敏感词库集合包敏感词排查方法
敏感词库集合包图1
软件说明:
整合了多个敏感词库,并添加java实现敏感词过滤的工具类 需要根据具体业务适当调整词库内容;敏感词集合,共2W+的敏感词,已通过程序算法去除重复项;里面整理了最新网络词库
包含的敏感词库:
★色情词库
★暴恐词库
★反动词库
★民生词库
★其他词库
★贪腐词库
敏感词库集合包敏感词排查方法
敏感词库集合包图2
敏感信息词概论:
为了方便管理,大多数论坛都设置了敏感词。 例如,当您使用特定的预设词发布信息时,将无法发送该信息。 或者,该单词会自动替换为星号(*)或叉号(X)等,或者是统一的。 在大多数网站上,敏感词通常是指具有敏感政治倾向(或反执政党倾向),暴力倾向,不健康色彩的词或不文明的词;也有一些网站设置了一些特殊的敏感词,这些词仅根据其实际情况适用于该网站。 例如,许多电子商务网站都会涉及一些侵犯知识产权并且不适合销售的产品,例如将“山寨”,“平行进口”和“盗版”,“烧伤”等设置为 敏感词,不能在产品简介中发布。竞争对手的名字也是敏感词,不能在某些电子商务网站上发布
敏感信息词举例说明:
例如,“ Pi”一词在中国绝对是一个敏感的词。 主要原因是它不雅,另一个是与黄色的联系。 然而,实际上,“ Pi”的使用率惊人地高。 诸如此类的词,例如“皮敏”,“皮字”,“狗皮不合理”,“皮尿”等,人们通常会在正常写作中愤怒地看到。 同时,“ Pi”通常用于称呼泰国某人。 如果您的名字叫Chen,您在泰国将被称为“ Pi Chen”。 同时,如果您称呼某人为“ Pipi”,则更受尊重,例如老人或女人。 王姓,你叫她“皮皮王”,她会很高兴。 显然,在泰国,“ Pi”是一个受人尊敬的名称,类似于我们所说的“老王”和“小罗”。
敏感词库集合包敏感词排查方法
敏感词库集合包图3
特点:
1. 2017年敏感信息词典集成了多个敏感词典,并添加了Java工具来实现敏感词过滤。 词典的内容需要根据具体业务进行适当调整。
2.敏感词集,总共2W +个敏感词,程序算法已删除了重复项。
3.内部组织了最新的在线同义词库
4.考虑到各个行业要求的不同分词规则,因此没有合并
5.该文件为txt,xlsx文本,用于敏感单词过滤
百度经验敏感词排查方法:
一、大致锁定敏感词出现的范围,进行替换尝试
1.明确你的经验,是否是敏感词密集型的主题,比如政治、性等在中国有管制的主题;如果是的话,那你就要注意你通篇的措辞,如何巧妙得选择词汇,避开敏感词,将是非常考验写手经验的。
2.如果只是普通主题,那可能是一些词汇的问题。这些词汇,可能还是色情(OXOX)、广告(链接、手机)、政治(人名、事件)、骂人语等一般来说你只要发现文中有此类型(不和谐)的词汇,都不用进行下一步了,直接删了或改了吧
二、对不确定的词,进行搜索尝试
1.可以在百度经验的搜索栏内对可能的敏感词进行搜索,凡是出现显示为“抱歉,没有找到包含关键词XX的经验。”就可以确定XX是敏感词了
2.在搜索框内搜索敏感词,是根据“没有结果”这个结果来判断的。而很多时候搜索的句子太长,也会没有结果。所以建议以“词”为单位进行搜
三、尝试若失败,建议通过隔离段落法来排查
1.在使用这种方法之前,你必须要明白这么做的代价。
那就是:因为使用隔离法,提交时你的文章是残缺的,若检测通过了,文章的状态会变成“提交中”
2.此时的代价有:
风险1:通过的文章有很多地方不能修改了。比如标题、分类、工具都不能修改了
风险2:可能因为段落的残损导致审核不通过。
风险3:在不断的复制粘贴中,留一份文章的附本吧,免得敏感词没照出来,文章都被剪没了
3.隔离法究竟隔离几段,留下几段呢?
方法一:
一般的方法都是减去其中一段,提交剩下的段落。以此来确定减去的段落是否含有“不当词汇”,这种方法操作起来比较方便,建议首选。
但是有两个缺点,
1.如果是最后一段含有“不当词汇”,需要每段都提交一次。(所以应该根据经验来选择隔离顺序。)
2.如果运气很差,“不当词汇”出现了不只一次,在几个段落里都有,那你用这种方法,根本查不出来啦
方法二:一段一段提交。
先提交一段,审核通过,再提交第二段,...,以此类推,直到出现不能提交的那段。但是并此方法不好,因为提交一次,就需要等待审核一次,相当耗时间。
但是这种方法克服了前面那种方法里,多段中都有敏感词却查不出来的缺点。
不过总的来说,这种方法并不常用
方法三:,不断划分文章进行排查(相当于二分法)。
把所有段落分成两部分,先隔离第二部分,提交第一部分。
第一部分若通过,则证明敏感词在第二部分中;若没通过,则证明敏感词就在第一段中。
此时选取有敏感词的那部分,再次进行划分,提交。最终可以找到那有“不当词汇”的一段。
此方法是前两种方法的折中,速度还可以,也可以查多段都有敏感词的情况,建议第一种方法不行时,用此方法

相关下载

下载

敏感词库

大小:210 KB

相关文章

大家都在找