lvs集群(3)

本文在分析服务器集群实现虚拟网络服务的相关技术上,详细描述了lvs集群中实现的三种ip负载均衡技术(vs/nat、vs/tun和vs/dr)的工作原理,以及它们的优缺点。

1.前言

在前面文章中,讲述了可伸缩网络服务的几种结构,它们都需要一个前端的负载调度器(或者多个进行主从备份)。我们先分析实现虚拟网络服务的主要技术,指出ip负载均衡技术是在负载调度器的实现技术中效率最高的。在已有的ip负载均衡技术中,主要有通过网络地址转换(network address translation)将一组服务器构成一个高性能的、高可用的虚拟服务器,我们称之为vs/nat技术(virtual server via network address translation)。在分析vs/nat的缺点和网络服务的非对称性的基础上,我们提出了通过ip隧道实现虚拟服务器的方法vs/tun (virtual server via ip tunneling),和通过直接路由实现虚拟服务器的方法vs/dr(virtual server via direct routing),它们可以极大地提高系统的伸缩性。vs/nat、vs/tun和vs/dr技术是lvs集群中实现的三种ip负载均衡技术,我们将在文章中详细描述它们的工作原理和各自的优缺点。

在以下描述中,我们称客户的socket和服务器的socket之间的数据通讯为连接,无论它们是使用tcp还是udp协议。下面简述当前用服务器集群实现高可伸缩、高可用网络服务的几种负载调度方法,并列举几个在这方面有代表性的研究项目。

2.实现虚拟服务的相关方法

在网络服务中,一端是客户程序,另一端是服务程序,在中间可能有代理程序。由此看来,可以在不同的层次上实现多台服务器的负载均衡。用集群解决网络服务性能问题的现有方法主要分为以下四类。

2.1. 基于rr-dns的解决方法

ncsa的可伸缩的web服务器系统就是最早基于rr-dns(round-robin domain name system)的原型系统[1,2]。它的结构和工作流程如下图所示:

 

图1:基于rr-dns的可伸缩web服务器 (注:本图来自文献【9】)

有一组web服务器,他们通过分布式文件系统afs(andrew file system)来共享所有的html文档。这组服务器拥有相同的域名(如www.ncsa.uiuc.edu),当用户按照这个域名访问时, rr-dns服务器会把域名轮流解析到这组服务器的不同ip地址,从而将访问负载分到各台服务器上。

这种方法带来几个问题。第一,域名服务器是一个分布式系统,是按照一定的层次结构组织的。当用户就域名解析请求提交给本地的域名服务器,它会因不能直接解析而向上一级域名服务器提交,上一级域名服务器再依次向上提交,直到rr-dns域名服器把这个域名解析到其中一台服务器的ip地址。可见,从用户到rr-dns间存在多台域名服器,而它们都会缓冲已解析的名字到ip地址的映射,这会导致该域名服器组下所有用户都会访问同一web服务器,出现不同web服务器间严重的负载不平衡。为了保证在域名服务器中域名到ip地址的映射不被长久缓冲,rr-dns在域名到ip地址的映射上设置一个ttl(time to live)值,过了这一段时间,域名服务器将这个映射从缓冲中淘汰。当用户请求,它会再向上一级域名服器提交请求并进行重新影射。这就涉及到如何设置这个 ttl值,若这个值太大,在这个ttl期间,很多请求会被映射到同一台web服务器上,同样会导致严重的负载不平衡。若这个值太小,例如是0,会导致本地域名服务器频繁地向rr-dns提交请求,增加了域名解析的网络流量,同样会使rr-dns服务器成为系统中一个新的瓶颈。

第二,用户机器会缓冲从名字到ip地址的映射,而不受ttl值的影响,用户的访问请求会被送到同一台web服务器上。由于用户访问请求的突发性和访问方式不同,例如有的人访问一下就离开了,而有的人访问可长达几个小时,所以各台服务器间的负载仍存在倾斜(skew)而不能控制。假设用户在每个会话中平均请求数为20,负载最大的服务器获得的请求数额高于各服务器平均请求数的平均比率超过百分之三十。也就是说,当ttl值为0时,因为用户访问的突发性也会存在着较严重的负载不平衡。

第三,系统的可靠性和可维护性差。若一台服务器失效,会导致将域名解析到该服务器的用户看到服务中断,即使用户按“reload”按钮,也无济于事。系统管理员也不能随时地将一台服务器切出服务进行系统维护,如进行操作系统和应用软件升级,这需要修改rr- dns服务器中的ip地址列表,把该服务器的ip地址从中划掉,然后等上几天或者更长的时间,等所有域名服器将该域名到这台服务器的映射淘汰,和所有映射到这台服务器的客户机不再使用该站点为止。

2.2. 基于客户端的解决方法

基于客户端的解决方法需要每个客户程序都有一定的服务器集群的知识,进而把以负载均衡的方式将请求发到不同的服务器。例如,netscape navigator浏览器访问netscape的主页时,它会随机地从一百多台服务器中挑选第n台,最后将请求送往wwwn.netscape.com。然而,这不是很好的解决方法,netscape只是利用它的navigator避免了rr-dns解析的麻烦,当使用ie等其他浏览器不可避免的要进行 rr-dns解析。

smart client[3]是berkeley做的另一种基于客户端的解决方法。服务提供一个java applet在客户方浏览器中运行,applet向各个服务器发请求来收集服务器的负载等信息,再根据这些信息将客户的请求发到相应的服务器。高可用性也在applet中实现,当服务器没有响应时,applet向另一个服务器转发请求。这种方法的透明性不好,applet向各服务器查询来收集信息会增加额外的网络流量,不具有普遍的适用性。

2.3. 基于应用层负载均衡调度的解决方法

多台服务器通过高速的互联网络连接成一个集群系统,在前端有一个基于应用层的负载调度器。当用户访问请求到达调度器时,请求会提交给作负载均衡调度的应用程序,分析请求,根据各个服务器的负载情况,选出一台服务器,重写请求并向选出的服务器访问,取得结果后,再返回给用户。

应用层负载均衡调度的典型代表有zeus负载调度器[4]、pweb[5]、reverse-proxy[6]和sweb[7]等。zeus负载调度器是zeus公司的商业产品,它是在zeus web服务器程序改写而成的,采用单进程事件驱动的服务器结构。pweb就是一个基于apache 1.1服务器程序改写而成的并行web调度程序,当一个http请求到达时,pweb会选出一个服务器,重写请求并向这个服务器发出改写后的请求,等结果返回后,再将结果转发给客户。reverse-proxy利用apache 1.3.1中的proxy模块和rewrite模块实现一个可伸缩web服务器,它与pweb的不同之处在于它要先从proxy的cache中查找后,若没有这个副本,再选一台服务器,向服务器发送请求,再将服务器返回的结果转发给客户。sweb是利用http中的redirect错误代码,将客户请求到达一台web服务器后,这个web服务器根据自己的负载情况,自己处理请求,或者通过redirect错误代码将客户引到另一台web服务器,以实现一个可伸缩的web服务器。

基于应用层负载均衡调度的多服务器解决方法也存在一些问题。第一,系统处理开销特别大,致使系统的伸缩性有限。当请求到达负载均衡调度器至处理结束时,调度器需要进行四次从核心到用户空间或从用户空间到核心空间的上下文切换和内存复制;需要进行二次tcp连接,一次是从用户到调度器,另一次是从调度器到真实服务器;需要对请求进行分析和重写。这些处理都需要不小的cpu、内存和网络等资源开销,且处理时间长。所构成系统的性能不能接近线性增加的,一般服务器组增至3或4台时,调度器本身可能会成为新的瓶颈。所以,这种基于应用层负载均衡调度的方法的伸缩性极其有限。第二,基于应用层的负载均衡调度器对于不同的应用,需要写不同的调度器。以上几个系统都是基于http协议,若对于ftp、mail、pop3 等应用,都需要重写调度器。

2.4. 基于ip层负载均衡调度的解决方法

用户通过虚拟ip地址(virtual ip address)访问服务时,访问请求的报文会到达负载调度器,由它进行负载均衡调度,从一组真实服务器选出一个,将报文的目标地址virtual ip address改写成选定服务器的地址,报文的目标端口改写成选定服务器的相应端口,最后将报文发送给选定的服务器。真实服务器的回应报文经过负载调度器时,将报文的源地址和源端口改为virtual ip address和相应的端口,再把报文发给用户。berkeley的magicrouter[8]、cisco的localdirector、 alteon的acedirector和f5的big/ip等都是使用网络地址转换方法。magicrouter是在linux 1.3版本上应用快速报文插入技术,使得进行负载均衡调度的用户进程访问网络设备接近核心空间的速度,降低了上下文切换的处理开销,但并不彻底,它只是研究的原型系统,没有成为有用的系统存活下来。cisco的localdirector、alteon的acedirector和f5的big/ip是非常昂贵的商品化系统,它们支持部分tcp/udp协议,有些在icmp处理上存在问题。

ibm的tcp router[9]使用修改过的网络地址转换方法在sp/2系统实现可伸缩的web服务器。tcp router修改请求报文的目标地址并把它转发给选出的服务器,服务器能把响应报文的源地址置为tcp router地址而非自己的地址。这种方法的好处是响应报文可以直接返回给客户,坏处是每台服务器的操作系统内核都需要修改。ibm的 netdispatcher[10]是tcp router的后继者,它将报文转发给服务器,而服务器在non-arp的设备配置路由器的地址。这种方法与lvs集群中的vs/dr类似,它具有很高的可伸缩性,但一套在ibm sp/2和netdispatcher需要上百万美金。总的来说,ibm的技术还挺不错的。

在贝尔实验室的one-ip[11]中,每台服务器都独立的ip地址,但都用ip alias配置上同一vip地址,采用路由和广播两种方法分发请求,服务器收到请求后按vip地址处理请求,并以vip为源地址返回结果。这种方法也是为了避免回应报文的重写,但是每台服务器用ip alias配置上同一vip地址,会导致地址冲突,有些操作系统会出现网络失效。通过广播分发请求,同样需要修改服务器操作系统的源码来过滤报文,使得只有一台服务器处理广播来的请求。

微软的windows nt负载均衡服务(windows nt load balancing service,wlbs)[12]是1998年底收购valence research公司获得的,它与one-ip中的基于本地过滤方法一样。wlbs作为过滤器运行在网卡驱动程序和tcp/ip协议栈之间,获得目标地址为vip的报文,它的过滤算法检查报文的源ip地址和端口号,保证只有一台服务器将报文交给上一层处理。但是,当有新结点加入和有结点失效时,所有服务器需要协商一个新的过滤算法,这会导致所有有session的连接中断。同时,wlbs需要所有的服务器有相同的配置,如网卡速度和处理能力。

3. 通过nat实现虚拟服务器(vs/nat)

由于ipv4中ip地址空间的日益紧张和安全方面的原因,很多网络使用保留ip地址(10.0.0.0/255.0.0.0、 172.16.0.0/255.128.0.0和192.168.0.0/255.255.0.0)[64, 65, 66]。这些地址不在internet上使用,而是专门为内部网络预留的。当内部网络中的主机要访问internet或被internet访问时,就需要采用网络地址转换(network address translation, 以下简称nat),将内部地址转化为internets上可用的外部地址。nat的工作原理是报文头(目标地址、源地址和端口等)被正确改写后,客户相信它们连接一个ip地址,而不同ip地址的服务器组也认为它们是与客户直接相连的。由此,可以用nat方法将不同ip地址的并行网络服务变成在一个ip地址上的一个虚拟服务。

vs/nat的体系结构如图2所示。在一组服务器前有一个调度器,它们是通过switch/hub相连接的。这些服务器提供相同的网络服务、相同的内容,即不管请求被发送到哪一台服务器,执行结果是一样的。服务的内容可以复制到每台服务器的本地硬盘上,可以通过网络文件系统(如nfs)共享,也可以通过一个分布式文件系统来提供。

 

图2:vs/nat的体系结构

客户通过virtual ip address(虚拟服务的ip地址)访问网络服务时,请求报文到达调度器,调度器根据连接调度算法从一组真实服务器中选出一台服务器,将报文的目标地址 virtual ip address改写成选定服务器的地址,报文的目标端口改写成选定服务器的相应端口,最后将修改后的报文发送给选出的服务器。同时,调度器在连接hash 表中记录这个连接,当这个连接的下一个报文到达时,从连接hash表中可以得到原选定服务器的地址和端口,进行同样的改写操作,并将报文传给原选定的服务器。当来自真实服务器的响应报文经过调度器时,调度器将报文的源地址和源端口改为virtual ip address和相应的端口,再把报文发给用户。我们在连接上引入一个状态机,不同的报文会使得连接处于不同的状态,不同的状态有不同的超时值。在tcp 连接中,根据标准的tcp有限状态机进行状态迁移,这里我们不一一叙述,请参见w. richard stevens的《tcp/ip illustrated volume i》;在udp中,我们只设置一个udp状态。不同状态的超时值是可以设置的,在缺省情况下,syn状态的超时为1分钟,established状态的超时为15分钟,fin状态的超时为1分钟;udp状态的超时为5分钟。当连接终止或超时,调度器将这个连接从连接hash表中删除。

这样,客户所看到的只是在virtual ip address上提供的服务,而服务器集群的结构对用户是透明的。对改写后的报文,应用增量调整checksum的算法调整tcp checksum的值,避免了扫描整个报文来计算checksum的开销。

在一些网络服务中,它们将ip地址或者端口号在报文的数据中传送,若我们只对报文头的ip地址和端口号作转换,这样就会出现不一致性,服务会中断。所以,针对这些服务,需要编写相应的应用模块来转换报文数据中的ip地址或者端口号。我们所知道有这个问题的网络服务有ftp、irc、h.323、 cuseeme、real audio、real video、vxtreme / vosiac、vdolive、vivoactive、true speech、rstp、pptp、streamworks、ntt audiolink、ntt softwarevision、yamaha midplug、ichat pager、quake和diablo。

Comments

I read your post and wisehd I was good enough to write it

Super jazzed about getting that knh-woow. http://apghlugxl.com [url=http://rtvigd.com]rtvigd[/url] [link=http://hbcutvc.com]hbcutvc[/link]