有果必有因:FTP传输速率慢和TCP窗口、网络时延的因果案例
本文要点:
对于TCP协议来说,通信双方一次只能传输TCP窗口大小的数据,然后等待接收方确认,等到确认完毕后才能传输下一段窗口大小的数据。
因此TCP协议的传输速率,取决于TCP传输窗口的大小和网络转发性能(带宽和时延)。
一、 组网
二、问题描述
网络中的服务器均使用千兆网线接入交换机,网络两端的服务器之间的FTP正常传输速率可达100MB/s以上。
用户在网络中新增两台S9500E IRF2堆叠设备作为新核心设备,原有核心思科6500下移作为汇聚设备。
网络变更后,两端的部分服务器之间的FTP传输速率只有70MB/s左右,影响了数据传输的效率。
三、定位过程
FTP协议是基于TCP协议的。我们在文章开头就提到,TCP协议的传输速率,取决于
TCP传输窗口的大小和网络转发性能(带宽和时延)。
所以我们应该从上述的几个方面去排查这个问题:
1) 因为并不是所有的服务器都出现FTP传输速率下降的问题,两端部分服务器之间的传输速率还是维持在100MB/s的正常速率上,所以可以排除网络拥塞、带宽不足的原因。
2) 选择不同的网络接入点,通过ping的手段观察网络反映时间,我们发现网络中的时延会随着跳数的增加而增加,每增加一跳大约会增加0.1ms左右的时延。
3) 对服务器FTP传输进行抓包分析,发现FTP传输速率下降的服务器发送的TCP报文中没有TCP扩展窗口字段(又称作Window scale窗口尺度选项),所以这些服务器无法扩大TCP窗口,只能用初始值65535字节。
而FTP传输速率维持正常的服务器发送的TCP报文中有TCP扩展窗口字段,这些服务器可以扩大TCP窗口。
以下是我们抓取的报文中,可以协商TCP窗口大小的服务器发送的报文,可以看到TCP数据段的头的可选字段(option)中有window scale字段,也就是TCP扩展窗口字段:
以下是不能协商TCP窗口大小的服务器发送的报文,可以看到它没有TCP扩展窗口字段:
4) 网络中新增S9500E IRF2堆叠后,原有核心思科6500下移作为汇聚层设备,这就造成服务器之间的跳数增加了2跳(S9500E IRF2堆叠是两台S9500E设备),引入了一定的时延(0.2ms左右),这对于只能使用65535字节大小的TCP窗口的服务器来说,FTP下载速率的降低是很明显的。
我们可以通过计算得出,此时TCP窗口大小和网络时延的改变对服务器FTP传输速率会造成很大的影响:
a) 如果通信双方的TCP窗口维持初始的65535字节,而网络中存在0.65ms的传输时延,那么FTP传输速率就是100.8MB/s.
b) 如果网络传输时延增大,比如加大到0.85ms左右(增加0.2ms时延), 而TCP窗口大小仍旧是65535字节,则FTP传输速率会降到77.1MB/s.
c) 如果TCP窗口大小支持扩展,比如可以扩展到原有的2倍,也就是131070字节,则即使传输时延增大到1ms, FTP传输速率理论上也可以达到1Gbps的端口线速125MB/s.
在网络时延较大的情况下,要保证链路传输速率维持在较高水平,就需要两端服务器能够协商TCP窗口大小,也就是两端服务器的TCP协议栈中要有TCP扩展窗口字段,这样TCP窗口就可以协商成一个较大值。
两端服务器中只要一端的服务器不支持TCP扩展窗口,那么就无法协商TCP窗口,两端设备的TCP连接只能采用初始值65535字节。此时如果网络中增加网络设备,加大网络延时,部分服务器FTP下载速率就会出现变慢的情况。
综上,导致问题的原因是:
1. 网络中新增S9500E IRF2堆叠后,原有核心思科6500下移作为汇聚层设备,造成服务器之间跳数增加,引入了微妙级的时延。
2. 部分服务器不支持TCP扩展窗口。
四、解决方法
1)重新规划网络,改变网络拓扑,减小服务器之间连接的跳数。
2)修改服务器注册表项或者升级服务器版本,使服务器能够支持TCP扩展窗口字段,协商TCP窗口大小。或者在服务器上直接通过命令,调大服务器TCP窗口解决。
五、总结
FTP协议是基于TCP协议的。对于TCP协议来说,通信双方一次只能传输TCP窗口大小的数据,然后等待接收方确认,等到确认完毕后才能传输下一段窗口大小的数据。
因此FTP协议的传输速率,取决于TCP传输窗口的大小和网络转发性能(带宽和时延)。FTP传输速率慢的问题应该从这几个方面去排查。