互联网不良信息监测系统

本系统可以实现对移动互联网用户和固网用户的上下行内容进行实时采集和监测。根据筛选准则,对用户访问的图片和文字的内容自动审核(即自动识别),判断其是否为疑似不良内容。自动审核筛选出来的疑似不良内容,必须再经过人工审核后,才能最终判定是否为不良内容。对于人工审核判定为不良内容的网站域名需生成相应的封堵黑名单,发送到封堵设备(域名管控系统)进行封堵。

  1. 产品特色
  • 网络图像和文本数据获取,支持爬虫技术和网络协议解析技术;
  • 图像与文本数据的去重;
  • 色情图像的智能识别;
  • 色情文本的智能识别,支持关键字匹配和语义分析;
  • 黑白名单管理;
  • 识别策略配置;
  • 不良信息记录取证;
  1. 系统组网及部署

本系统由网络内容监测前端机、内容识别服务器、中心处理服务器等组成。前端机采用数据旁路方式接入被监测链路,采集还原出链路数据中的图像和文本数据,同时对图像和文本数据进行去重。内容识别服务器是对前端机传输过来的图像和文本数据进行识别,并将中标的图像和文本数据上传到中心处理服务器。应用服务器完成监测功能配置、数据统计分析、监测记录存储、人工二次审核等功能。

  1. 主要功能模块

3.1 不良文字识别模块

  • 语义识别:能进行语境分析,使文字不良含义识别更准确;
  • 权重:不同增减权重级别区分不同违规程度和增强识别准确率;
  • 通配符:采用关键字+通配符模糊识别技术,更加快速准确;
  • 分类字典:支持不同关键字字典;支持 少数民族字符集,如维、藏文等; 支持的文本内容格式包括:TXT、RTF、DOC、PDF等。

3.2 图片智能识别模块

可以识别的图片格式包括JPEG、JPG、PNG、TIFF、JBIG、JPEG-2000、RAW、PNM、PPM、PGM、RAS、MNG、BMP、GIF、ICO、TGA、PCX、WBMP、WMF、SKA、SVG、其中“WBMP、TIFF、SVG ”为生僻格式,识别能力为业界领先。

3.2.1 样例库图片分析识别(实时)

对于特定图片可以采用样例库图片分析技术,即由用户手工在样例库中添加该图片,系统通过先进的图片摘要技术可以自动的识别任何与该样例库图片特征相符的图片。

在下列条件下,分析识别的准确率可以超过90%:

明暗亮度修改在50%以内;

按比例放大缩小在300%以内;

不按比例拉伸在300%以内;

在原图的基础上增加或删除不超过30%的内容。

对于和其他图片叠加、覆盖以及重复曝光的情况下,系统的摘要算法同样可以高效的进行分析。在样例库图片保留明显的原有特征的情况下,识别准确率可以超过90%。

3.2.2 黄色图片智能识别判定

系统创新性地采用了“基于内容的图像识别技术”,建立了人工智能的图像识别数学模型,根据标准肤色、姿态特征库直接对图像进行判断,而不是和现有图像库进行简单的对比,对色情图像的识别率大于90%,成功实现了变被动防御状态为真正主动过滤,极大地提高了过滤的有效性。

 

黄色图片识别关键技术-视觉指纹识别技术:视觉指纹识别技术为客户端提供了自动甄别图片和视频内容的方法。系统每天能甄别上千万张图片或数万小时视频。视觉指纹识别技术使用细微而致密的视觉指纹,从每一个图片/帧中提取出几百个指纹。

3.2.3 图片文字识别

针对彩信图片中的文字信息,进行文字提取和识别,以确认图片内容是否合法,其中OCR识别技术针对文字颜色单一,大小不固定,背景不固定等因素影响的情况下,可以支持以下性能:

支持目前各种主流的字体;

支持横幅、图片文字识别;

识别率90%左右。

3.3 视频智能识别模块

3.3.1 样例库视频分析识别(实时)

对于特定视频可以采用样例库视频分析技术,即由用户手工在样例库中添加该视频,系统通过先进的视频摘要技术可以自动的识别任何与该样例库视频特征相符的视频。分析识别的准确率可以超过99%。

3.3.2 黄色视频智能识别判定

为了实现对视频文件的识别,首先需要做的就是对视频文件进行分帧,也就是把一段视频文件切割成许多图片,然后对这些切割出来的图片进行内容判别,从而识别出视频中是否包括淫秽的内容,实现对视频进行监控的功能。

基于FFmpeg的AVbin库可以解析大多数视频文件(AVI、MPG、MPEG、DAT、RA、RM、RMVB、MOV、QT、ASF、WMV、FLV、MP4、WAV、SWF、DV、KMVC、AMV、ZMBV、MJPEG),为业界领先。Pyglet模块可以对视频进行抽取,PIL模块可以对图片进行处理。

黄色视频识别,采用的是敏感视频识别算法(Sensitive Video Recognition),并结合基于静态内容和视频动态性的技术,实现针对视频帧集的敏感/正常视频的识别与判定。该方法有如下特点:

利用视频帧内容的颜色、纹理、形状和姿态特性,识别精确度高;

快速识别策略大大缩短帧和视频的识别时间,识别速度快;

利用视频帧动态特性和敏感帧的连续性,针对性强;

可以通过预设图片(商标、旗帜、特定标志、物件等)查找包含这些预设内容的图片及视频。

3.4 多媒体监控告警模块:

发现疑似非法图片记录监控、智能识别非法图片、疑似非法视频记录、智能识别非法视频、智能识别非法文字信息、人工审核视频和图片等信息后产生告警。

 

3.5 不良信息黑名单模块:

该模块记录联动相关设置产生的黑白名单,可以针对域名进行过滤查询。当启用联动此非法信息数据内容与防火墙黑、白名单模块数据一致。

3.6 日常巡检模块:

包括阻断域名个数、信任域名个数、阻断URL个数、新增数据柱状图、一周内的阻断总次数曲线图、一周内的关键词命中次数总和曲线图。

3.7 关键词扫描模块:

包含关键字扫描统计、域名扫描统计、域名关键字扫描统计、疑似非法关键词记录、语义识别合法记录、语义识别非法记录、审核记录、关键字管理、信息检索等功能。

3.8 域名备案模块:

包含备案检查、未备案记录、已备案记录、待查询、ip域名统计域名备案审核、可疑主机列表等功能。

3.9 域名规则管理模块:

信任域名、阻断域名、阻断UR、阻断日志、阻断设置。

3.10 报表统计模块:

关键词统计、图片统计、视频统计、阻断统计以及各种日志。

  1. 产品优势

4.1 灵活高效的检测

系统引擎采用框架加检测插件的架构,在结构上保证了检测的灵活性和高效性。在应用中,用户可根据自身的网络特征和业务特征加载或预设最适当检测插件。

根据多种模式信息(肤色/姿态/外形/图像信息熵等)进行综合判断,极大地提高识别准确率(>90%)

4.2 强大的处理性能

系统在设计时选用高性能硬件平台,同时优化计算引擎的底层算法,从而使得流量分析系统的处理性能最高可以达到每秒处理8万条流记录(flow)的能力,能够完全满足各种网络的流量分析监测要求。

4.3 自适应学习

采用了向量机(SVM)分类器和最近邻(NN) 分类器的领先算法,使识别速度得到极大的提升;

系统具有自学习的算法;

当处理样本增多时,系统可以进行自适应学习,不断提高识别率。

4.4 大型规模化应用

成功实现了万兆(10G)以上流量的实时采集监测能力。