1.僵尸网络是什么网络
2.常见爬虫/BOT对抗技术介绍(一)
3.动手做一个QQ 群聊机器人
僵尸网络是什么网络
僵尸网络
Botnet
僵尸网络是指采用一种或多种传播手段,将大量主机感染bot程序(僵尸程序),从而在控制者和被感染主机之间所形成的一个可一对多控制的网络。
在Botnet的概念中有这样几个关键词。“bot程序”是robot的缩写,是ecshop团购源码指实现恶意控制功能的程序代码;“僵尸计算机”就是被植入bot的计算机;“控制服务器(Control Server)”是指控制和通信的中心服务器,在基于IRC(因特网中继聊天)协议进行控制的Botnet中,就是指提供IRC聊天服务的服务器。
Botnet
首先是一个可控制的网络,这个网络并不是指物理意义上具有拓扑结构的网络,它具有一定的分布性,随着bot程序的不断传播而不断有新位置的僵尸计算机添加到这个网络中来。
其次,这个网络是采用了一定的恶意传播手段形成的,例如主动漏洞攻击,邮件病毒等各种病毒与蠕虫的传播手段,都可以用来进行Botnet的传播,从这个意义上讲,恶意程序bot也是一种病毒或蠕虫。
最后一点,也是Botnet的最主要的特点,就是可以一对多地执行相同的恶意行为,比如可以同时对某目标网站进行分布式拒绝服务(DDos)攻击,同时发送大量的垃圾邮件等,而正是这种一对多的控制关系,使得攻击者能够以极低的代价高效地控制大量的资源为其服务,这也是Botnet攻击模式近年来受到黑客青睐的根本原因。在执行恶意行为的时候,Botnet充当了一个攻击平台的角色,这也就使得Botnet不同于简单的病毒和蠕虫,也与通常意义的木马有所不同。
僵尸网络是互联网上受到黑客集中控制的一群计算机,往往被黑客用来发起大规模的网络攻击,如分布式拒绝服务攻击(DDoS)、海量垃圾邮件等,同时黑客控制的这些计算机所保存的信息,譬如银行帐户的密码与社会安全号码等也都可被黑客随意“取用”。因此,不论是对网络安全运行还是用户数据安全的保护来说,僵尸网络都是极具威胁的隐患。僵尸网络的威胁也因此成为目前一个国际上十分关注的问题。然而,发现一个僵尸网络是非常困难的,因为黑客通常远程、隐蔽地控制分散在网络上的“僵尸主机”,这些主机的用户往往并不知情。因此,僵尸网络是目前互联网上黑客最青睐的作案工具。
对网友而言,感染上“僵尸病毒”却十分容易。网络上搔首弄姿的美女、各种各样有趣的小游戏,都在吸引着网友轻轻一点鼠标。但事实上,点击之后毫无动静,oscam源码解析原来一切只是骗局,意在诱惑网友下载有问题的软件。一旦这种有毒的软件进入到网友电脑,远端主机就可以发号施令,对电脑进行操控。
专家表示,每周平均新增数十万台任人遥控的僵尸电脑,任凭远端主机指挥,进行各种不法活动。多数时候,僵尸电脑的根本不晓得自己已被选中,任人摆布。
僵尸网络之所以出现,在家高速上网越来越普遍也是原因。高速上网可以处理(或制造)更多的流量,但高速上网家庭习惯将电脑长时间开机,唯有电脑开机,远端主机才可以对僵尸电脑发号施令。
网络专家称:“重要的硬件设施虽然非常重视杀毒、防黑客,但网络真正的安全漏洞来自于住家用户,这些个体户欠缺自我保护的知识,让网络充满地雷,进而对其他用户构成威胁。”
Botnet的发展过程
Botnet是随着自动智能程序的应用而逐渐发展起来的。在早期的IRC聊天网络中,有一些服务是重复出现的,如防止频道被滥用、管理权限、记录频道事件等一系列功能都可以由管理者编写的智能程序所完成。于是在 年,在IRC 聊天网络中出现了Bot 工具——Eggdrop,这是第一个bot程序,能够帮助用户方便地使用IRC 聊天网络。这种bot的功能是良性的,是出于服务的目的,然而这个设计思路却为黑客所利用,他们编写出了带有恶意的Bot 工具,开始对大量的受害主机进行控制,利用他们的资源以达到恶意目标。
世纪年代末,随着分布式拒绝服务攻击概念的成熟,出现了大量分布式拒绝服务攻击工具如TFN、TFN2K和Trinoo,攻击者利用这些工具控制大量的被感染主机,发动分布式拒绝服务攻击。而这些被控主机从一定意义上来说已经具有了Botnet的雏形。
年,在第八届DEFCON 年会上发布的SubSeven 2.1 版开始使用IRC 协议构建攻击者对僵尸主机的控制信道,也成为第一个真正意义上的bot程序。随后基于IRC协议的bot程序的大量出现,如GTBot、Sdbot 等,使得基于IRC协议的bug影视源码Botnet成为主流。
年之后,随着蠕虫技术的不断成熟,bot的传播开始使用蠕虫的主动传播技术,从而能够快速构建大规模的Botnet。著名的有年爆发的Agobot/Gaobot 和rBot/Spybot。同年出现的Phatbot 则在Agobot 的基础上,开始独立使用P2P 结构构建控制信道。
从良性bot的出现到恶意bot的实现,从被动传播到利用蠕虫技术主动传播,从使用简单的IRC协议构成控制信道到构建复杂多变P2P结构的控制模式,Botnet逐渐发展成规模庞大、功能多样、不易检测的恶意网络,给当前的网络安全带来了不容忽视的威胁。
Botnet的工作过程
Botnet的工作过程包括传播、加入和控制三个阶段。
一个Botnet首先需要的是具有一定规模的被控计算机,而这个规模是逐渐地随着采用某种或某几种传播手段的bot程序的扩散而形成的,在这个传播过程中有如下几种手段:
(1)主动攻击漏洞。其原理是通过攻击系统所存在的漏洞获得访问权,并在Shellcode 执行bot程序注入代码,将被攻击系统感染成为僵尸主机。属于此类的最基本的感染途径是攻击者手动地利用一系列黑客工具和脚本进行攻击,获得权限后下载bot程序执行。攻击者还会将僵尸程序和蠕虫技术进行结合,从而使bot程序能够进行自动传播,著名的bot样本AgoBot,就是实现了将bot程序的自动传播。
(2)邮件病毒。bot程序还会通过发送大量的邮件病毒传播自身,通常表现为在邮件附件中携带僵尸程序以及在邮件内容中包含下载执行bot程序的链接,并通过一系列社会工程学的技巧诱使接收者执行附件或点击链接,或是通过利用邮件客户端的漏洞自动执行,从而使得接收者主机被感染成为僵尸主机。
(3)即时通信软件。利用即时通信软件向好友列表发送执行僵尸程序的链接,并通过社会工程学技巧诱骗其点击,从而进行感染,如年年初爆发的MSN性感鸡(Worm.MSNLoveme)采用的就是这种方式。
(4)恶意网站脚本。攻击者在提供Web服务的网站中在HTML页面上绑定恶意的脚本,当访问者访问这些网站时就会执行恶意脚本,使得bot程序下载到主机上,并被自动执行。
(5)特洛伊木马。伪装成有用的软件,在网站、FTP 服务器、P2P 网络中提供,诱骗用户下载并执行。
通过以上几种传播手段可以看出,在Botnet的形成中传播方式与蠕虫和病毒以及功能复杂的间谍软件很相近。
在加入阶段,每一个被感染主机都会随着隐藏在自身上的python源码翻译bot程序的发作而加入到Botnet中去,加入的方式根据控制方式和通信协议的不同而有所不同。在基于IRC协议的Botnet中,感染bot程序的主机会登录到指定的服务器和频道中去,在登录成功后,在频道中等待控制者发来的恶意指令。图2为在实际的Botnet中看到的不断有新的bot加入到Botnet中的行为。
在控制阶段,攻击者通过中心服务器发送预先定义好的控制指令,让被感染主机执行恶意行为,如发起DDos攻击、窃取主机敏感信息、更新升级恶意程序等。图3为观测到的在控制阶段向内网传播恶意程序的Botnet行为。
Botnet的分类
Botnet根据分类标准的不同,可以有许多种分类。
按bot程序的种类分类
(1)Agobot/Phatbot/Forbot/XtremBot。这可能是最出名的僵尸工具。防病毒厂商Spphos 列出了超过种已知的不同版本的Agobot(Sophos 病毒分析),这个数目也在稳步增长。僵尸工具本身使用跨平台的C++写成。Agobot 最新可获得的版本代码清晰并且有很好的抽象设计,以模块化的方式组合,添加命令或者其他漏洞的扫描器及攻击功能非常简单,并提供像文件和进程隐藏的Rootkit 能力在攻陷主机中隐藏自己。在获取该样本后对它进行逆向工程是比较困难的,因为它包含了监测调试器(Softice 和ODbg)和虚拟机(VMware 和Virtual PC)的功能。
(2)SDBot/RBot/UrBot/SpyBot/。这个家族的恶意软件目前是最活跃的bot程序软件,SDBot 由C语言写成。它提供了和Agobot 一样的功能特征,但是命令集没那么大,实现也没那么复杂。它是基于IRC协议的一类bot程序。
(3)GT-Bots。GT-Bots是基于当前比较流行的IRC客户端程序mIRC编写的,GT是(Global Threat)的缩写。这类僵尸工具用脚本和其他二进制文件开启一个mIRC聊天客户端, 但会隐藏原mIRC窗口。通过执行mIRC 脚本连接到指定的服务器频道上,等待恶意命令。这类bot程序由于捆绑了mIRC程序,所以体积会比较大,往往会大于1MB。
按Botnet的控制方式分类
(1)IRC Botnet。是指控制和通信方式为利用IRC协议的Botnet,形成这类Botnet的主要bot程序有spybot、GTbot和SDbot,目前绝大多数Botnet属于这一类别。
(2)AOL Botnet。与IRC Bot类似,AOL为美国在线提供的一种即时通信服务,这类Botnet是依托这种即时通信服务形成的网络而建立的,被感染主机登录到固定的服务器上接收控制命令。AIM-Canbot和Fizzer就采用了AOL Instant Messager实现对Bot的控制。
(3)P2P Botnet。boll 指标源码这类Botnet中使用的bot程序本身包含了P2P的客户端,可以连入采用了Gnutella技术(一种开放源码的文件共享技术)的服务器,利用WASTE文件共享协议进行相互通信。由于这种协议分布式地进行连接,就使得每一个僵尸主机可以很方便地找到其他的僵尸主机并进行通信,而当有一些bot被查杀时,并不会影响到Botnet的生存,所以这类的Botnet具有不存在单点失效但实现相对复杂的特点。Agobot和Phatbot采用了P2P的方式。
Botnet的危害
Botnet构成了一个攻击平台,利用这个平台可以有效地发起各种各样的攻击行为,可以导致整个基础信息网络或者重要应用系统瘫痪,也可以导致大量机密或个人隐私泄漏,还可以用来从事网络欺诈等其他违法犯罪活动。下面是已经发现的利用Botnet发动的攻击行为。随着将来出现各种新的攻击类型,Botnet还可能被用来发起新的未知攻击。
(1)拒绝服务攻击。使用Botnet发动DDos攻击是当前最主要的威胁之一,攻击者可以向自己控制的所有bots发送指令,让它们在特定的时间同时开始连续访问特定的网络目标,从而达到DDos的目的。由于Botnet可以形成庞大规模,而且利用其进行DDos攻击可以做到更好地同步,所以在发布控制指令时,能够使得DDos的危害更大,防范更难。
(2)发送垃圾邮件。一些bots会设立sockv4、v5 代理,这样就可以利用Botnet发送大量的垃圾邮件,而且发送者可以很好地隐藏自身的IP信息。
(3)窃取秘密。Botnet的控制者可以从僵尸主机中窃取用户的各种敏感信息和其他秘密,例如个人帐号、机密数据等。同时bot程序能够使用sniffer观测感兴趣的网络数据,从而获得网络流量中的秘密。
(4)滥用资源。攻击者利用Botnet从事各种需要耗费网络资源的活动,从而使用户的网络性能受到影响,甚至带来经济损失。例如:种植广告软件,点击指定的网站;利用僵尸主机的资源存储大型数据和违法数据等,利用僵尸主机搭建假冒的银行网站从事网络钓鱼的非法活动。
可以看出,Botnet无论是对整个网络还是对用户自身,都造成了比较严重的危害,我们要采取有效的方法减少Botnet的危害。
Botnet的研究现状
对于Botnet的研究是最近几年才逐渐开始的,从反病毒公司到学术研究机构都做了相关的研究工作。最先研究和应对Botnet的是反病毒厂商。它们从bot程序的恶意性出发,将其视为一种由后门工具、蠕虫、Spyware 等技术结合的恶意软件而归入了病毒的查杀范围。著名的各大反病毒厂商都将几个重要的bot程序特征码写入到病毒库中。赛门铁克从 年开始,在其每半年发布一次的安全趋势分析报告中,以单独的章节给出对Botnet活动的观测结果。卡巴斯基也在恶意软件趋势分析报告中指出,僵尸程序的盛行是年病毒领域最重大的变化。
学术界在年开始关注Botnet的发展。国际上的一些蜜网项目组和蜜网研究联盟的一些成员使用蜜网分析技术对Botnet的活动进行深入跟踪和分析,如Azusa Pacific大学的Bill McCarty、法国蜜网项目组的Richard Clarke、华盛顿大学Dave Dittrich和德国蜜网项目组。特别是德国蜜网项目组在年月到 年1月通过部署Win蜜罐机发现并对近个Botnet进行了跟踪,并发布了Botnet跟踪的技术报告。
Botnet的一个主要威胁是作为攻击平台对指定的目标发起DDos(分布式拒绝服务攻击)攻击,所以DDos的研究人员同样也做了对Botnet的研究工作。由国外DDosVax组织的“Detecting Bots in Internet Relay Chat Systems”项目中,分析了基于IRC协议的bot程序的行为特征,在网络流量中择选出对应关系,从而检测出Botnet的存在。该组织的这个研究方法通过在plantlab中搭建一个Botnet的实验环境来进行测试,通过对得到的数据进行统计分析,可以有效验证关于Botnet特征流量的分析结果,但存在着一定的误报率。
国内在年时开始对Botnet有初步的研究工作。北京大学计算机科学技术研究所在年1月开始实施用蜜网跟踪Botnet的项目,对收集到的恶意软件样本,采用了沙箱、蜜网这两种各有优势的技术对其进行分析,确认其是否为僵尸程序,并对僵尸程序所要连接的Botnet控制信道的信息进行提取,最终获得了, 多个僵尸程序样本分析报告,并对其中多个仍然活跃的Botnet进行跟踪,统计出所属国分布、规模分布等信息。
国家应急响应中心通过-网络安全监测平台,在年共监测到的节点大于个的Botnet规模与数量统计如图4所示。
这些数据和活动情况都说明,我国国内网上的Botnet的威胁比较严重,需要引起网络用户的高度重视。
CCERT恶意代码研究项目组在年7月开始对Botnet的研究工作,通过对大量已经掌握的Botnet的实际跟踪与深入分析,对基于IRC协议的Botnet的服务器端的特征进行了分类提取,形成对于Botnet 服务器端的判断规则,从而可以对网络中的IRC Server进行性质辨别。设计并初步实现了Botnet自动识别系统,应用于中国教育和科研计算机网络环境中。
可以看出,从国内到国外,自年以来对Botnet的研究越来越多地受到网络安全研究人员的重视,研究工作已经大大加强。但是这些工作还远远不够,在检测和处置Botnet方面还有许多工作要做。
Botnet的研究方法
对于目前比较流行的基于IRC协议的Botnet的研究方法,主要使用蜜网技术、网络流量研究以及IRC Server识别技术。
(1)使用蜜网技术。蜜网技术是从bot程序出发的,可以深入跟踪和分析Botnet的性质和特征。主要的研究过程是,首先通过密罐等手段尽可能多地获得各种流传在网上的bot程序样本;当获得bot程序样本后,采用逆向工程等恶意代码分析手段,获得隐藏在代码中的登录Botnet所需要的属性,如Botnet服务器地址、服务端口、指定的恶意频道名称及登录密码,以及登录所使用到的用户名称,这些信息都为今后有效地跟踪Botnet和深入分析Botnet的特征提供了条件。在具备了这些条件之后,使用伪装的客户端登录到Botnet中去,当确认其确实为Botnet后,可以对该Botnet采取相应的措施。
(2)网络流量研究。网络流量的研究思路是通过分析基于IRC协议的Botnet中僵尸主机的行为特征,将僵尸主机分为两类:长时间发呆型和快速加入型。具体来说就是僵尸主机在Botnet中存在着三个比较明显的行为特征,一是通过蠕虫传播的僵尸程序,大量的被其感染计算机会在很短的时间内加入到同一个IRC Server中;二是僵尸计算机一般会长时间在线;三是僵尸计算机作为一个IRC聊天的用户,在聊天频道内长时间不发言,保持空闲。将第一种行为特征归纳为快速加入型,将第二、三种行为特征归纳为长期发呆型。
研究对应这两类僵尸计算机行为的网络流量变化,使用离线和在线的两种分析方法,就可以实现对Botnet的判断。
(3)IRC Server识别技术的研究。通过登录大量实际的基于IRC协议的Botnet的服务器端,可以看到,由于攻击者为了隐藏自身而在服务器端刻意隐藏了IRC服务器的部分属性。同时,通过对bot源代码的分析看到,当被感染主机加入到控制服务器时,在服务器端能够表现出许多具有规律性的特征。通过对这些特征的归纳总结,就形成了可以用来判断基于IRC协议的Botnet的服务器端的规则,这样就可以直接确定出Botnet的位置及其规模、分布等性质,为下一步采取应对措施提供有力的定位支持。
以上三种研究方法都是针对基于IRC协议的Botnet。对于P2P结构的Botnet的研究较少,原因是由于其实现比较复杂,在网络中并不占有太大比例,同时也因为其在控制方式上的分布性使得对它的研究比较困难。但随着Botnet的发展,对于P2P结构的Botnet的研究也将进一步深入。
常见爬虫/BOT对抗技术介绍(一)
爬虫,作为数据获取的有效手段,在互联网发展中不断演进。本文将介绍现代爬虫/BOT对抗技术,如有疏漏,欢迎指正。
一、反爬虫/BOT技术
1.1 Robots.txt
Robots.txt文件,位于域名根目录,如example.com/robots.txt。它指引爬虫遵守的规则,告知哪些内容可抓取,哪些不可。虽然它并不算反爬虫技术,但对搜索引擎爬虫有约束作用。
1.2 IP层/网络层
网络层关注IP地址,来源地址难以伪造,成为反爬策略核心。封杀IP/IP段是网站执行的严厉惩罚。国内NAT技术导致大量用户共用IP,使得IP封杀策略执行时需谨慎,以避免误杀正常用户。
1.3 HTTP层
HTTP层包含多个有趣HTTP头,如X-Forwarded-For、Referer、User-Agent。这些头在制定反爬策略时至关重要。
1.3.1 X-Forwarded-For
X-Forwarded-For头用于识别客户端原始IP,由普通HTTP代理添加,新手程序员误用可能导致爬虫利用。
1.3.2 Referer
Referer头指示用户上一页面的URL,%以上流量应携带此头。不携带Referer头的请求,可能导致触发要求输入验证码策略。
1.3.3 User-Agent
User-Agent头指示浏览器版本等信息。伪装User-Agent策略已在其他文章中讨论,本文不再赘述。
1.4 应用层/浏览器层
应用层反爬虫/BOT技术主要包括验证码、JS渲染、接口加密、数据混淆、行为分析、存储跟踪、navigator对象、假链陷阱、浏览器指纹、JS引擎指纹。
1.4.1 验证码
验证码是广泛应用的核心爬虫对抗技术,但随着机器学习、神经网络的发展,简单验证码接近无效。验证码存在人工打码平台,单一验证码难以有效处理爬虫问题。
1.4.2 JS渲染
Ajax技术使爬虫从静态爬虫转变为动态爬虫,网站构建前端需解析Ajax接口返回的数据,增加了爬取难度。
1.4.3 接口加密与JS混淆
通过额外的Token参数加密ajax接口,前端JS混淆,增加破解难度,但不是绝对防御。
1.4.4 数据混淆
返回错误数据代替正确数据,隐蔽且能对爬虫造成干扰,非常有效。
1.4.5 行为分析
基于规则或机器学习分析用户操作轨迹,判断爬虫,与反爬手段结合,有效干扰爬虫。
1.4.6 存储跟踪与flash Storage
利用Cookies和Flash跟踪用户行为轨迹,识别伪装浏览器,以避免误杀正常用户。
1.4.7 navigator对象
浏览器中的navigator对象提供操作系统、浏览器信息,与Useragent、flash分析判断是否为伪装浏览器。
1.4.8 假链陷阱
构建不可见标签,爬虫跟踪链接时,会触发反爬策略。
1.4.9 浏览器指纹
不同浏览器、操作系统等,使得canvas操作产生不同结果,用于跟踪浏览器,但误杀率较高。
1.4. JS引擎指纹
不同JS引擎执行相同语句时,结果不同,通过比较JS引擎动作和UserAgent判断是否为伪造浏览器。
1.4. 前端逆向
分析HTML、JS源码获取数据,避免使用浏览器模拟。
1.4. 浏览器模拟
利用真实浏览器请求、执行页面脚本,对抗动态渲染和接口加密,常用框架有Selenium WebDriver、PhantomJS。
1.4. 字符识别
高级OCR技术,基于神经网络识别简单验证码。
1.4. 行为模拟
有意留下Cookie,请求无关接口,模拟用户行为,对抗行为分析。
1.4. 打码平台
组织人员识别高难度验证码,提供给爬虫。
1.4. JS Hook
替换JS上下文对象,避免被跟踪,主要在CEF二次开发中实现。
二、IP层反反爬虫技术
2.1 代理服务器
代理服务器通过更改源IP,使用HTTP或SOCKS代理,实现IP地址变换,是爬虫客户端常用方法。
2.2.1 HTTP代理
HTTP代理的普通代理和高匿代理分别处理XFF头部,服务端难以判断XFF头的真假。
2.2.2 Socks代理
Socks5代理常见,通过TCP连接作为隧道进行代理。
三、并发PPP连接技术
3.1 PPP协议栈简单介绍
3.2 PPP连接和ADSL的关系
3.3 城域网技术简介
3.4 并发PPP连接方案的适用范围
3.5 国内并发PPP连接服务提供商
四、Linux路由
4.1 Linux基础路由简介
4.2 Linux高级路由简介
动手做一个QQ 群聊机器人
QQ 机器人是与个人 QQ 号绑定的工具,可以实现自动回复和自定义回复,提升群聊互动效率。本文将指导您 DIY 一个 QQ 群聊机器人。教程源自 hwk 在 实验楼 的发布,地址如下:基于图灵机器人实现QQ群聊机器人。
实验简介包括:
了解 QQ 群机器人,通常是基于腾讯 SmartQQ 协议的开源项目。本文将结合图灵机器人的 API,构建一个能满足日常聊天需求的群聊机器人。
所需知识点包括:
学习图灵机器人的 API 使用方法。
实验步骤包括:
下载 QQRobot 源码:GitHub - zeruniverse/QQRobot。
在 Xfce 终端执行操作。
注册图灵机器人账号,创建和设置机器人。
在 QQBot.py 中添加图灵机器人 APIkey。
编辑 groupfollow.txt,加入需要监控的群名。
运行程序,生成二维码,通过手机 QQ 扫描完成登陆。
启动后,机器人开始运行,自动回复和响应群聊消息。
功能包括:
启动成功后,绑定的 QQ 号将收到自动回复。
通过其他 QQ 号发送消息指令,群聊机器人会执行相应的动作。
实验分析涉及:
登录验证、消息收发、好友管理、群聊和讨论组操作。
完整代码、步骤和示例可在 实验楼 查看。更多 Python 项目资源:Python 全部 - 课程。
关注公众号“实验楼”,获取更多项目教程,使用手机查看。