破译垃圾邮件“变脸”密码完美解决方案 |
发布时间: 2012/8/1 20:30:44 |
不道德的电子邮件发送者可以不费多大成本或根本不费成本地分发大量消息,而正常用户却被迫花费一些时间和精力从他们的邮箱中清除这些欺诈性的或不需要的邮件。本文描述了几种方法,这些方法可用计算机代码消除不请自来的商业性电子邮件、病毒,包括特洛伊木马、蠕虫病毒、怀有恶意欺诈性的电子邮件,以及其它一些不希望收到的、令人烦恼的电子邮件。在某种意义上,消除垃圾邮件最好的终极解决方案是通过立法来制止。然而,在此期间,即在法律的进步(如果有过的话)还未解决公众不断所受到的困扰之前,可以用代码开发一些工具作为过渡性的解决方案来处理这类问题。 从技术角度考虑 — 但也是常识 — 我们所说的“垃圾邮件”的含义通常比“不请自来的商业性电子邮件”的范畴要广;垃圾邮件包含了所有我们不需要的以及没有明确表明要发送给我们的电子邮件。这样的消息其本身并不总是具有商业性,而对于有些消息,很难说是我们所需要的。例如,我们不想感染上病毒(即使来自不谨慎的朋友);通常也不想收到连锁电子邮件(chain letter),即使这些邮件不是来要钱的;既不想收到来自陌生人的诱劝性的消息;也不想收到完全是欺骗性的邮件。在任何一种情况中,都能很清楚地确定邮件是否为垃圾邮件,许许多多人都曾收到过这样的邮件。垃圾邮件的问题是,它会将正常的电子邮件淹没。 垃圾邮件“变脸术” 随着垃圾邮件的日益泛滥成灾、市场上也出现很多基于关键字过滤的反垃圾邮件产品。而垃圾邮件的发送者为了提高垃圾邮件的到达率和回馈率(这是垃圾邮件制造者的最终目的),针对关键字过滤技术,也不断开发出新的垃圾邮件生成技术。 在目前绝大多数的垃圾邮件中,我们都可以看到使用HTML格式,使垃圾邮件中包含了很多颜色、字体、图片以及网页连接。通过使用HTML格式,垃圾邮件制造者能够使用很多的HTML技术,使得基于关键字的过滤技术无法成功地过滤垃圾邮件。一个很简单的例子是“Free"这个英文单词在HTML里就可以用下面三种表示方式: Free Fr ee Free 这样,在Outlook,Foxmail等邮件客户端上,显示出来的还是“Free”这个词。而对于单纯基于关键字的过滤方法,则无法识别出“Free”这个关键字了。针对这样的现象,一些基于关键字的过滤方法也作了相应改进,如把注释语句去掉(针对第一种情况)、做ASCII码转换(针对第二种情况)等等。在这种情况下,垃圾邮件制造者也进一步把他们的技术升级,使用了更加狡猾的HTML隐藏手段。如果我们把使用单纯的推销词汇称为第一代垃圾邮件技术,简单的间隔(如F*R*E*E)称为第二代垃圾邮件技术,上面这些HTML方法称为第三代垃圾邮件技术,那么现在垃圾邮件制造者使用的一些方法就可以称为第四代技术了。下面,我们介绍一些我们观察和总结到的第三、四代垃圾邮件技术。 * 黑洞技术 黑洞技术就是在垃圾邮件关键字的中间加上空格或其他间隔性的字符。如果单纯的空格,那相对应的过滤技术就很简单。因此,垃圾邮件制造者便开始使用HTML里的 ,代表空格。同时,HTML还提供了另外一种工具,那就是使用来注释 ,这样在邮件客户端里,就不会对间隔的词造成任何影响。比如,Viagra这个词就可以用下面方法来表示: V i a g r a 当然,这样的代价是原来一个6字节的词变成了136字节,垃圾邮件所发送的时间会更长。但是,因为使用了这样的技术,使得原来很多用“Viagra"作为关键字过滤垃圾邮件的方法失效了。 * 数字游戏 数字游戏是指用数字来代替字母的垃圾邮件技术。因为HTML设计时的全球化考虑,因此在HTML里可以用字母的数字编码来代替字母,如字母“A"可以用A来表示。中文字也可以用相对应的GB码来表示。这样,在HTML里,象“Viagra"就可以这样表示: Vsagra 这样一些简单的垃圾邮件过滤工具无法过滤此类邮件,尽管智能一些的工具会进行相关的处理,进行编码的解码,而垃圾邮件制造者也会将“数字游戏”和“黑洞技术”相结合,使其推销的关键字仍旧不会被发现。 * 隐形墨水 有的时候,垃圾邮件制造者为了隐藏其邮件的真正目的,会希望在其邮件里混杂一些与其推销产品无关的内容。因为对于垃圾邮件过滤工具而言,非常需要注意的一点就是要尽量减少过滤掉非垃圾邮件的几率。垃圾邮件制造者正是利用这一点,在其垃圾邮件中加入看上去属正规邮件的内容,而同时却不希望这些内容被邮件的阅读者看到。于是垃圾邮件制造者会使用“隐形墨水”技术。 最常用的“隐形墨水”技术是使用背景色来隐藏那些与产品无关的内容。在HTML里,使用就可以将内容变成白色。这样邮件阅读者就不会看到这些内容,而垃圾邮件过滤工具就会碰到这些内容了,例如下面这段: 激情电影 张经理,你好!请发给我你们机床产品的报价单。 多谢!小李 而对于垃圾邮件制造者,他们会更进一步把“隐形墨水”和上面两项技术结合在一起,这样就让垃圾邮件过滤工具更加难以辨认。 * “铡刀错位"技术 使用HTML Table技术,垃圾邮件制造者能够将一些词变成竖立的单字组合,使过滤工具根本无法辨认。比如一个垃圾邮件里需要下面这几个英文单词: Viagra Samples FREE 通过“铡刀错位”技术,可以把它们变成以下7个竖状的单字组合。 在一个支持HTML的邮件客户端软件里,显示出来是这样的: 而一个智能的关键字过滤工具(能够把HTML格式去掉)看到的则是VsF, iaR, amE, gpE, rl, ae, s这几个字,那肯定无法将它过滤掉。 通过以上的分析我们可以看出,现在垃圾邮件制造技术已经发展到很复杂的程度。在这种情况下,普通的依靠关键字过滤的技术,或者单纯的“智能学习”技术已经无法有效地过滤这样的垃圾邮件。 多种“破译”过滤术 利用基本的默认规则及过程,卓尔InfoGate通过不同的检测方法对用户收到的每一封电子邮件进行检查。 * “特征检测”技术 任何事物都有两面性,垃圾邮件制造者使用各种各样的手段躲避过滤工具,但同时也把自己给暴露出来了,因为一个正常邮件是不会使用列举一类的技巧的。根据这一判断,卓尔InfoGate产品使用了特有的“特征检测”技术,以其人之道还制其人之身,根据垃圾邮件以上躲避过滤的技术来判断其垃圾邮件的特性。 卓尔伟业公司和其在海外的研究机构合作,收集大量在网上流行的垃圾邮件,根据垃圾邮件制造者不断变化的技术,总结出相关的特征库,能够对采用相关技术的垃圾邮件进行高效率的过滤。 * “智能学习”技术 卓尔InfoGate反垃圾邮件技术采用贝叶斯信息分类理论对垃圾邮件以及非垃圾邮件进行有效的分类。通过对垃圾邮件以及非垃圾邮件的预先分类学习,卓尔InfoGate反垃圾邮件技术能够对垃圾邮件的用词以及非垃圾邮件的用词形成一个概率分布。然后对于扫描的邮件根据其用词的概率分布来判断其是否为垃圾邮件。 * 完整性分析 卓尔InfoGate对每一封邮件的邮件头、版面和组织进行检查,以识别垃圾邮件的一般特征。 在单次传递过程中,高级模式匹配引擎同时应用数百个算法,然后确定其可能得分以判断该邮件是否为垃圾邮件。 这种用于检测垃圾邮件的方法非常准确。 * 前瞻性检测 前瞻性检测通过一系列内部测试来判断某个邮件是垃圾邮件的可能性,每一个测试都有相应的分值,以便降低错误率。强大的前瞻性检测功能确保卓尔InfoGate能够前瞻性地工作,以保护您的环境免受垃圾邮件的威胁。 * 内容过滤 该功能可以用来识别电子邮件中的关键字或关键短语,从而判断其是否为垃圾邮件。 管理员可以输入字或短语来创建被禁止内容的列表。 * 黑名单和优先名单支持 管理员定义的黑名单会拦截住管理员认为是垃圾邮件发件人所发送的电子邮件,而管理员定义的优先名单则允许管理员指定域中的电子邮件的通过。 通过以上专门针对第四代垃圾邮件“变脸”招术的“破译”过滤办法,卓尔InfoGate防垃圾邮件模块为各类型企业的垃圾邮件防范与过滤提供了性能优异的解决方案。 本文出自:亿恩科技【www.enkj.com】 |