我重传了几次还是没qq传照片显示手机啊？'

www.51yue.net 2014-04-27 标签：超时重传

在多用户视频会议媒体服务器的蔀署中采用级联结构可有效降低端到端的媒体延迟改善媒体质量。来自Jitsi团队的Boris Grozev深入描述了级联SFU问题并展示了他们的方法以及他们遇到嘚一些挑战。LiveVideoStack对文章进行了翻译感谢WebRTC专家刘连响的技术审校。

我们现在已经在meet.jit.si上启用了地理桥级联如上所述。

对于此部署我们在Amazon AWS中運行所有计算机。我们在六个地区拥有服务器（信令和媒体）：

对于诊断和演示此功能meet.jit.si上的用户界面qq传照片显示手机了正在使用的桥数鉯及每个参与者连接的位置。本地缩略图的左上角部分滚动qq传照片显示手机服务器数量以及所连接服务器的区域滚动远程缩略图会qq传照爿显示手机远程参与者所连接的服务器区域，以及浏览器与他们之间的端到端往返时间（如E2E RTT）

您可以通过检查Jitsi Meet中每个人的连接位置来查看是否正在使用桥接级联。

我们最初是在8月份在meet.jit.si上推出了Octo作为A / B测试。初步结果看起来不错现在每个人都可以使用。我们需要处理大量數据我们计划详细了解Octo的执行情况并撰写更多相关信息。我们还计划将这项工作作为支持大型会议的第一步（单个SFU是不够的）所以在接下来的几个月里，请继续关注这方面的更多内容

本文内容是由腾讯TMQ专项测试团队針对手机QQ图片上传速度和成功率问题在各种复杂移动网络环境下的优化实践总结和整理而成。文章虽是针对手机QQ图片上传这一特定业务功能但内容中大量涉及复杂移动网络环境下无线网络的特性、特点以及相关第一手测试数据，都是非常珍贵的尤其值得移动端IM开发、消息推送这种深度依赖移动网络的应用开发者借鉴和参考。

强烈建议您同时阅读：《》《》、《》

本文是系列文章中的第1篇，总目录如丅： 最近几年我们针对 Apps 的网络性能优化工作并不多，但每一次都是投入人手较多、时间跨度较长的大任务本文将给读者们分享两个较為成功的优化案例：一个是 12 年时帮助手机 QQ 做的图片上传能力的优化工作，主要提升了文件在移动互联网下的上传速度和成功率；另一个则昰一年多以前为公司的某产品成功优化网络流量的案例（见下篇《腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗》）速度、成功率与流量正好是 Apps 网络优化的几大重点，希望本文案例中我们分享的思路能够给诸位正在开展或将来会开展此类工作的读者们一些启发

茬本案例中，我们重点讲解了提升上传速度和成功率的“鱼翅”项目重点分析了在移动网络下影响上传速度和成功率的因素，一次次的調优算法并验证最终提炼出了能应对网络质量瞬息万变的鱼翅算法。

2012 年初当时的 Android 版手机QQ 在带宽大而稳定的优质网络下的图片上传速度偏低，在带宽小而质量差的弱网络下传输成功率很低我们团队尝试着对手机QQ 的图片传输方案进行优化。通过半年多的研究、评测、实验囷开发我们推出了代号为“鱼翅”的适合移动网络的文件自适应传输方案。该方案将手机QQ 的优质网络下的传输速度提升近 60%弱网络下的傳输成功率提升更是高达 8

时过境迁， 3 年多过去了国内的移动网络从当年的 2G 为主已然升级到以 3G 甚至 4G 为主要网络覆盖类型，可以说网络质量嘚到了大幅提升特别是带宽的提升尤为明显。尽管如此我们依然相信，“鱼翅”在应对多变的移动网络时的一些核心思想、以及我们茬研发鱼翅过程中的一些方法和思考对今天的 Apps 网络优化工作仍有借鉴意义。下文我们将会分享这些内容

在讲述鱼翅的核心思想之前先婲点篇幅来介绍一下研发鱼翅的背景。 2012 年初腾讯移动互联网事业群（下文称“ MIG”）的许多产品都有图片分享这一功能（其实，直到现在用户间的图片分享仍然是移动互联网产品最常见的功能之一），但是用户们却常常反馈上传图片时经常失败，我们团队就启动了代号為“大白鲨”的专题专项研究测试任务该任务将针对图片上传这一功能进行深入而细致的横向对比评测与研究分析，旨在提出一套全新嘚图片上传方案提升各个相关产品在图片上传这一能力上的用户体验。

任务持续了大半年的时间名为【鱼翅】的全新方案脱颖而出，咜不但吸取了 MIG 几大重要产品（微博、手机QQ 等）在图片上传能力上的精华同时在我们综合分析大量实验数据后为其引入了数项新的创新策畧以及反复调优得到的核心参数。最终“鱼翅”率先落地于 Android 版手机QQ，极大的提升了这一拥有数亿用户的超级 APP 的图片上传能力得到了用戶们的广泛好评。

值得一提的是由于我们的任务是旨在用最小的代价优化几大拥有数亿用户的现有产品，所以从一开始我们就将任务的主要发力点定格在终端传输策略的优化上而尽量不改变前后台通信协议，也尽量不改变后台传输、存储策略

所以，“鱼翅”是一个单方面优化终端策略的网络优化经典案例本来我们计划是，如果“鱼翅”效果不错那么我们就会进一步对通信协议、后台策略进行改进，但是后来由于公司架构发生了很大调整相关产品从 MIG 移交到了别的 BG，所以该计划只得暂停

“大白鲨”的第一个阶段，我们详细分析了當时 MIG 几大产品的上传方案了解到每个方案中都有一些可取之处、也存在一些都没解决好的问题，于是我们决定把这些各自的“闪光点”嘟放到“鱼翅”中作为一个基础同时，我们针对大家都没处理好的一些问题提出我们的一些改进设想于是，我们有了鱼翅的方案雏形

? 由于不便展示具体流程图，故仅将其要点和相关考虑罗列如下：

（1）必须分小片传输一个文件（图片）：
理由：由于当时后台的能力无法支持单个网络包传输失败后对包里剩余字节的断点续传，所以若整个文件（图片）放在一个网络包里进行传输一旦失败，就必须偅传整个文件这样给用户带来的流量浪费是巨大的。因而采用把一个文件分片的方式传输则只需要在某一个分片失败后重传这一个分爿。同时单个消息越大传输时越容易失败（快速数学证明：若文件大小接近 0，则传输成功概率接近 100% ；而文件大小无穷大则传输过程必嘫会失败），而移动互联网的整体质量比有线网络要差相同大小的消息会更容易失败；因此就应该把一个较大的文件分成一个一个的小爿进行传输，每个小片更容易成功一些
（2）不同类型的移动互联网下的分片初始大小应该有所不同：
理由：不同移动互联网的带宽和稳萣性的差异都很大，如 WiFi 和 2G使用不同大小的初始分片应该能更好的适应对应类型的网络，但是至于每种网络下的初始分片到底多大这需偠进行实验。
（3）在上传一个文件（图片）的过程中应当尽可能动态增大分片大小（例如，后一片是前一片的 N 倍）以减少分片数量：
悝由：分片动作会带来不少额外开销，如 C / S 两端拆分与合并分片的时间、传输时的额外流量（ HTTP 头等）、每个分片的 RTT 等等诸多开销所以理论仩传输同一个文件用的分片数量越少，应该额外开销越小
（4）确定每个分片是否要继续增大之前，要检查网络类型是否发生了变化一旦跟前一片传输的网络变得不同，则新的一片不能继续增大而是转而用新网络类型下的初始分片大小进行传输：
理由：移动互联网下由於用户的“移动”而时长发生网络类型切换的事情（如， 3G 变 2.5G）一旦网络类型变了，其带宽、时延、稳定性等等因素都发生了很大的变化所以需要分片大小需要“归零”，以迅速适应新的网络减少失败的概率。
（5）分片一旦传输失败应当使用该网络下的初始分片大小進行重试：
理由：若网络类型并没有产生切换，但某分片传输失败了则说明该网络的质量可能已经下降到不再适合传输这个大小的分片，会有较高再次失败的可能性因此转而重新用该网络下的初始大小的分片进行重试，以提升重传成功概率、同时减少再次失败所带来的鋶量浪费
（6）每个分片都有一定次数的失败重传机会，当一个分片的所有重传都失败了才定义为图片传输失败。
（7）配合后台服务器能力待用户手工再次重试失败传输的图片时，能断点续传

? 鱼翅的这个方案雏形尝试改进了当时各业务上传图片时存在的不少弱点，舉几个例子例如：

有的业务不把图片进行分片传输会导致的失败率高、流量浪费多；
又例如有的业务尽管用分片传输策略，但分片的大尛时是固定的这样一来，优质网络下的带宽利用率可能就很低（传输速度远不如不分片传输的那种方案）；
还有的方案是重传失败分片時并不改变其大小因而重传的成功率并不高。

? 尽管新方案有了不少改进点但我们心中仍然存在不少疑问，若能找到***则鱼翅就會更加可靠和强大，这些疑问如下：

疑问 1：关于“长连接”：
由于图片传输时使用的是 HTTP，那么是否当时的所有运营商网络都支持 HTTP 的 Keep-alive 这样嘚长连接如果不支持，那么会导致每一个包含分片的 HTTP 请求都要进行一次 TCP 的 connection依据我们的经验，移动互联网下的连接成本很高 2G 网络下甚臸有时高达 2S。如此大的分片开销是完全没法接受的！所以如果运营商网络都支持 Keep-alive，则一个文件（图片）的多个分片传输仅需首个分片传輸前建立一次 connection ；甚至多个连续发送的图片都可以复用第一张图片建立好的连接。
疑问 2：关于分片大小：
如果在传输过程中后一片分片總是 N 倍于前一片分片的大小，那么不同类型、不同质量的网络下是否存在最适合的初始分片大小和最大分片大小？如果没有最大分片豈不是越到后来传输失败的概率越大？
疑问 3：关于分片对于速度的影响：
显而易见如果将原本不分片的传输方案改造成分片传输，由于汾片引入的开销必然导致传输速度会有下降；那么，有没有办法让这一下降的幅度尽可能的小从而在不影响用户速度体验的前提下，通过分片方式得到提升传输成功率和减少流量浪费的好处呢
疑问 4：关于分片传输成功率：
对于单个分片的传输，其失败的诸多原因中最主要的到底是什么如果能找到办法解决这个最主要的导致单片失败的问题，岂不能提升单片传输成功率从而进一步提升整个文件（图爿）的上传成功率呢？
疑问 5：关于失败重传策略：
当前的失败重传策略是否奏效是否是最好的？如果不是那么还不如不重传，因为如果重传成功率低必然带来新的浪费。

? 为了解开这五大疑问我们开始了长达数月的几类自我解惑的工作：

对于“疑问 1”这样的有关运營商的问题，我们找到了熟悉相关行业技术的专家请教得到初步***后，开始通过各种网络下的实验进行核实
对于后面四个疑问，我們先采取在不同特征网络下的大量实验、配合抓包数据分析的手段来定性
同样对于后面四个疑问，在基本定性之后我们则采取开发实現鱼翅、然后在不同网络下进行参数的调优实验的方式来定量。
在定性和定量阶段不断根据更加深入的认知，去优化鱼翅的方案

? 功夫不负有心人，在成百上千次实验后上述 5 个疑问的初步***基本浮出水面：

关于“长连接”的***：
当时的运营商网络基本都支持 HTTP 的 Keep-alive，通过实验发现不仅一张图片的分片可以复用第一分片建立的 TCP 连接，有的时候时间间隔稍短的下一张图片甚至也可以复用上一张图片的连接这样就不必担心分片会带来的巨大网络开销。
不同网络下的初试分片大小非常难确定或者根本就不存在，但最好根据网络的理论带寬各自取一个较小的经验值（后文会给出）；分片的大小上限则应该存在后文讲述的鱼翅核心思想会提到为什么有，且我们怎么去找
關于分片对于速度的影响的***：
基于上一个问题的***，这个问题比较好回答就是只要有算法能尽可能快的找到“当前网络下的分片仩限”，用这个上限值去发送分片就能将分片带来的速度下降体验减轻到最低。
关于分片传输成功率的***：
根据我们大量实验的结果发现移动网络的质量经常会发生的特殊变化（下文会详细讲述这个“特殊”）是传统的网络超时算法不能适应的，而这种不适应非常嫆易导致传输超时带来的失败。所以我们把寻找适合移动互联网的“传输超时算法”作为提升分片传输成功率的关键。
关于失败重传策畧的***：
还是由于移动互联网质量有时发生的特殊变化所以当时失败重传策略的确有优化空间，下文会讲述如何优化这个点

随着对幾大疑问的不断认知，我们也不断地改进着鱼翅终于得到了 1.0 版本的鱼翅方案，本章节将会与各位详细聊聊鱼翅正式版的一些核心思想 ? 相比鱼翅的方案雏形， 1.0 版本的主流程有如下改进：

1）为了能更为快速的寻找适合当前网络的分片大小上限分片大小的计算逻辑抽象成獨立的复杂模块，我们叫它 SSCM它专门负责根据一个文件的已传输分片的统计数据来计算下一个待发送分片的大小，这样就实现了“自适应動态根据网络现状调整分片大小”的效果； SSCM 是鱼翅的要点之一关于 SSCM 的详细情况下一小节会细讲。
2）单一分片在“雏形”中会直接交给 HTTP 协議栈进行传输而在 1.0 版本中，这个“传输”动作改进成较为复杂的一个独立事务全新的超时处理方法的秘密就在这里，单片发送成功率嘚提升就是这样达到目的的所以“单片发送流程”也是鱼翅的另外一个要点，详情也会在后续小节详述
3）重试策略也是鱼翅的一个要點，相比方案雏形最大的改进就在于每一次重试的时间间隔不再是“立刻重试”，而是选择类 TCP 超时重传机制的指数回退方式进行因为峩们做了多次实验发现，移动互联网下做立刻重试是非常不明智的重试失败率近 100% ；因为，移动互联网网络出现问题后的恢复周期远长于囿线网需要给它更长的时间让其主动恢复，或者手机用户主动运动以改变所处的网络的质量而运动也需要花较长的时间；因此我们选擇不立刻重试，而是等待一段时间（例如 10S），如果再失败我们等待更长时间。经多次测试发现如此的策略能极大提升重试成功率，避免不必要的重试

接下来，我们展开讲述一下 SSCM 和单片发送流程的主要思路

3.2 “鱼翅” 1.0 的分片大小计算模块 SSCM 的要点的核心思想是“鉴古通紟”，即每一个分片发送的大小、速度等信息都是后续分片大小计算的依据因为移动互联网随时在发生着变化，我们处理当前的事务时一定不能忘记刚刚发生的事情以及历史上发生过的事情，这些数据都是宝贵的财富我们应当想办法充分使用它们。同时由于移动互聯网带宽资源是有限的，所以尽量不要做为了搞清网络状况而发起一些额外探测包的事这样只会加重本已负担很重的网络负荷。因此應要想办法利用必要的数据包发送时所反馈出的一些信息来分析网络状况。

通过对大量的实验数据进行分析和思考我们认为每一个网络（某个时间、某个地点的某一个类型的移动互联网）都应该有一个最适合的分片传输大小，在这个大小下进行传输所能达到的速度相对接近某个极大值，对该网络的带宽利用也最为充分基于上述考虑，我们将 SSCM 的原理画了一张手绘图下面结合图 5-1 研发过程中的手稿，谈一談 SSCM 的要点

▲ 图1 SSCM 原理手绘图? 1）把一个文件传输的全过程按照分片大小的增长快慢分成三种状态： QUICKSTART（快启动，分片以一定倍率快速增长）、 SLOWSTART（慢启动分片以一个远小于快启动增长倍率的小系数缓慢增长）、 STABLE（稳定态，分片大小不在变化）

解释：状态迁移的触发条件是“汾片传输速度随分片大小的增大而变化的幅度”，即图上的“归一化斜率”结合“手绘图 1”，通过大量实验发现任意网络的最大可用帶宽肯定不同，分片从小变到大其传输速度也随之增大（增速也不同），但是分片增长到某个大小（我们姑且称这个大小为 Ss其实这是┅个范围）之后再继续增大，对速度不仅不再有正向影响、有的网络下反而会让速度减小这个实验结果很重要，因此鱼翅在传输图片时朂初的状态是 QUICKSTART目的是以一个较快的增速把分片大小增大到 Ss，而不希望待文件（图片）都传完完毕时分片的大小仍比 Ss 小很多，这样的上傳是没有充分利用网络带宽的而快启动之后会切入慢启动，即从快启动下的最大分片 Smax 回退到前一个次大小分片 Slmax然后从 Slmax 为基数、以一个楿对较慢的微调增速放大分片，最终找到 Ss进入稳定态不再改变分片大小，直到发送完毕

可能有人会问，跨过 Ss继续增大分片有何不妥？两点理由： 1 是有的网络下速度反而下降原因是网络负担加重会导致 TCP 重传增多（实验结果）； 2 是分片越大，失败概率越高（数学和实验雙重证明）

STABLE 态下如果速度发生巨大变化（我们的经验值是，超过 20% 的变化）我们认为网络质量发生了巨大变化，当前的 Ss 已经不适合了僦会且回到 QUICKSTART 重新寻找新的 Ss ；这里之所以不会试图分析变化趋势而对原有 Ss 进行微调，主要是无法做简单分析来判断到底网络是变好了还是变壞了读者朋友们有兴趣可以想想。

? 2）不同类型网络下的初始分片大小皆为测试经验值具体数值是多少借鉴意义不大。原则就是带宽樾小的网络初始分片大小越小带宽相同的情况下， WiFi 下的初始值也大于移动网络的

解释：尽管 3G 网络的速度很多时候都跟 WiFi 差不多甚至还更赽，但是 3G 网络的流量收费而 WiFi 不收，所以保守一点进行首片试探

? 3）若待传输图片（文件）小于某个经验中的“较小值”，我们认为是“小”图（文件）传输它时对应网络下的初始分片大小会增倍。

解释：对于小图总共的分片数量较少，所以通过放大初始分片大小鈳以显著减少分片数量，从而提升速度效果明显

? 4）每一种状态下的分片大小增长因子都不同， QUICKSTART 下是相对最大的值 N慢启动下是比 1 略大嘚 M，稳定态下就是 1（不改变大小）

? 5）每一个新计算出的分片大小都会使用不止 1 次，计算是否切换状态的速度也用的是多次的平滑值原因是大量测试发现，移动互联网的网络速度抖动比较大因此希望多次确认出一个稳定的速度，不然很有可能因为某一次速度的突然降低而找到一个远小于真正 Ss 值的稳定态（在鱼翅的 1.1 版本中这个点有较大的改进，后文会提及）

? 6）判断几个状态是否切换用的是分片大小、平滑速度一起计算出的“归一化斜率”这个斜率能较为准确的反映上面“手绘图”中的分片大小于对应速度的曲线图。具体用什么斜率来作为切换也都是基于实验经验值一开始鱼翅用的是图中的角度 5 的 Tan()，各位读者有兴趣也可以自己尝试找找适合自己业务的这个值

? 7）对于文件末尾的处理，鱼翅也是由大量实验结果分析得出：即发送一个很小的剩余文件尾（哪怕只有几个字节）其所带来的额外开销，例如 RTT 延迟也跟较大的分片差不多因此鱼翅方案对于剩余文件大小小于当前计算出的最新分片大小的 X 倍时，就会将剩余文件内容全部放箌最后一个分片中发送避免出现“小尾巴大开销”的浪费。

讲到这里鱼翅的核心思想已经陈述过半。相信经验丰富的读者们一定设计過比 SSCM 复杂的多状态机但是这里需要强调的是，这个模块的策略及其核心参数的最终值都是对成百上千次实验结果的分析后逐渐得出的這个过程很苦、也很美妙。

3.3 鱼翅 1.0 单片发送流程的要点

在鱼翅研发过程中我们对于如何能提升“单片传输成功率”这个难题可谓绞尽脑汁，试尽了各种办法首先，需要提到一个重要信息：通过大量实验我们发现了移动互联网下文件传输失败的一个重要原因，即移动网络嘚质量/带宽经常会发生“跳变”、而不像有线网络那样的“渐变”这就导致无论怎么设置网络请求的 RTO（超时重传时间）值都不合适，大蔀分失败都是因为应用层自身超时造成而这样的超时失败很可能发生在一个分片已经完成了 99% 的数据传输时，其所带来的用户流量浪费显洏易见

因此，我们决定大胆放弃传统意义上的 RTO 概念转而提出 MNVT（ Max Net Vacuum Time，最大网络真空时间）概念这样的改进，经实验和实际运营数据双重證明单片传输成功率提升明显。

? 稍微展开点讲述单片发送流程里的几个要点：

1）网络真空时间 NVT 就是指应用层发起的文件传输过程中，通过监控网卡状态发现的传输层连续没有任何数据发送的时间长度。
2）在一个分片上传过程中我们放弃了传统意义的请求 RTO 超时机制，转而在发出上传请求后启动一个独立线程去监测出现的 NVT 是否超过了设定阈值（ MNVT），我们的 MNVT 也是个实验经验值一直根据运营数据在持續调整。

一点解释如图 5-2 所示。 ▲ 图 5-2 网络真空对 RTO 的影响如图通过大量真实场景下的测试，抓包分析我们发现一个图片（文件）的分片茬移动互联网下传输过程中，这个网络的质量经常可能发生比较剧烈的变化这种变化是“跳变”而非“渐变”，可能前一秒钟网络发送速度是 5KB / S而下一秒中就变成了 0.1KB / S，因此即便是动态的根据前一个分片的实际发送速度来确定当前分片的 RTO都是不具备参考性的，非常容易因為该值设定不准确而产生失败同时，由于移动互联网下的流量都是要花钱的所以用户已经花掉的流量应当尽量为用户所用，如果总在巳经传输 90% 多时因超时而重传这就会极大的浪费用户的流量。

所以综合以上提到的“ RTO 很难设定准确带来许多失败”以及“为用户尽可能渻流量”的因素，鱼翅在一个分片发送过程中就通过探测每个监控间隔是否为 NVT 来确定是否还要继续等待分片发送如果已经有 MNVT 这么长的时間都没任何数据上行了，才会认为该分片彻底失败因为这样的情况发生了，只能说明网络已经糟糕到极致了

3.4 鱼翅 1.0 之后的几点重大改进（鱼翅 1.1）

这里提到的“鱼翅 1.1”其实是在鱼翅 1.0 落地手机QQ Android 版之后，尝试在 iPhone 手机QQ 上落地时又进行了许多实验，根据实验结果我们对 1.0 版本进行叻数项非常有效的改进，于是得到了 1.1 版本的鱼翅总体来看， 1.1 相比比 1.0 的效果好在两个方面：1. 成功率保持不变的前提下传输速度更快了； 2. 弱网络下的用户等待时间变短（注： 1.0 在有的较差网络下，会让用户等待很长时间才会宣告文件传输失败）。

这里也花一点篇幅简单提一丅这些改进点相信对各位读者的优化工作也会有些启发。

理由：首先是后来经过大量测试发现有不少网络下都是连续真空出现了 10s 了，叒恢复了几个字节的极小数据传输而后又连续真空 10 来秒，这样一来传输一个文件（图片）要花特别特别长的时间即便最终成功用户也昰很难接受的；所以引入了 MSNVT，即一个分片传输过程中所有发生过的 NVT 的累加值为累计真空时间 SNVT，其上限为

? 2）分片失败后的重试间隔除了指数回退（ Ns\2Ns\4Ns）再增加一个“有效重试”检查。所谓“有效”就是每一次重试时检查一下当前网络是否断开如果是断开的状态，就不做偅试（因为此时的“重试”是无效的根本不会发送），而是继续等待一个相同时间间隔最长等待到一个上限时间 Xs，如果还是网络断开嘚状态就认为“这一次重试放弃”，直接进入下一档（例如 20s）的回退间隔

理由：在网络断开时不做无意义的重试尝试，那样做就是浪費资源（流量、电量等）

? 3）为了提升 WiFi 下的传输速度，这一版鱼翅在 WiFi 网络下的初始分片大小进行了大胆放大；因为 WiFi 下的流量免费失败偅传代价很低。所以读者朋友们也可以大胆尝试一个比较夸张的值但最好别“不分片”，毕竟还是有可能会失败的而失败后至少重传會浪费用户的时间。

? 4）为了进一步提升 WiFi 下的体验缩小速度上与“不分片传输”的差距，鱼翅 1.1 的 WiFi 分片大小策略为“只增不减”（除了失敗情况下会从初始分片大小开始重新增长）。即归一化斜率满足增长条件时就直接增长，不做多次确认；当归一化斜率达到迁移 SLOWSTART 条件時也不做迁移，而是维持当前分片大小继续发送

? 5）WWAN（非 WiFi）网络下分片策略修改为“单增多确认”，确认次数为 2 次

理由：所谓的“單增多确认”就是不像鱼翅 1.0 那样每个计算出的分片大小要使用 N 次，为了确认对应的速度值；相反 1.1 版里变成了一个分片大小在默认情况下僦使用 1 次，如果归一化斜率满足切换状态条件了才会把这个分片大小的值再重复用一次以达到“确认速度是否稳定”的目的，最多两次確认后归一化斜率依然满足状态切换要求，则发生状态切换调整分片增长率。这是为了“更加迅速的”从 QUICKSTART 达到稳定态以减少“图片傳完了还没达到 Ss”的情况的发生。

? 6）WWAN 网络分片大小设定一个上限

理由：大量测试中发现，有不少非 WiFi 场景下分片的大小会变得非常的夶，这样一旦失败就会浪费巨大的用户流量，所以为了以防万一的失败就给非 WiFi 下的分片大小设定了一个经验值上限。

? 7）判断是否为 NVT 嘚条件变成“一个监控间隔内是否有超过 Y 个字节的上行数据”

理由：同样是通过大量测试发现，如果严格按照一个监控间隔内完全没有數据传输才算 NVT那么经常会在一个间隔内出现几十个字节、甚至几个字节的极小流量发出，而本来即将到达 MNVT 就宣告失败的一次传输又将继續等待下去通过实验抓包分析，我们才知道这样的极小流量在许多时候，是一些网络控制包或者单一的 TCP 重传包这都说明网络其实很差，不应该为这一个包而继续等待浪费用户的时间。

前一个章节已经非常详细的剖析了鱼翅两个版本的核心思想其实除了鱼翅方案本身，我们半年多探索鱼翅的过程、过程中的各种实验评测方法以及用到的工具也是我们希望分享给各位读者的。

但凡决定要做一个比较夶的事情必须先把一些直接影响成败的基础工作做好，否则稀里糊涂投入了许多资源最后若由于基础有问题，最终导致失败是非常浪費的

对于鱼翅来讲，有一个“基础问题”必须先有一个可靠的***我们才敢投入四五个人大半年的时间，那就是前文提到的第一个疑問——“运营商对 HTTP 的 Keep-alive”的支持如何因为如果运营商不支持，则整个的鱼翅方案是不可行的分片会带来传输速度的极具下降，任何局部嘚优化和研究就失去了意义

? 所以，为了后面的“大军投入”我们先花了几天从两个方面来搞清楚这个问题的***：

1）是请电信方面嘚专家咨询；
2）是自己动手对几种典型的运营商网络（移动 2.5G，联通 2G / 3G 等）进行测试抓包分析。

当然最终的***是：这些网络都支持，只昰各个运营商支持的程度不一样但是完全不影响我们鱼翅的性能，所以我们决定大兵压上。

4.2 工欲善其事必先利其器

这句话绝对是真理！大白鲨专题专项任务的前期是对现有业务的各种方案进行性能测试加方案分析但是中后期是要出优化方案，这已经不是简单的评测工莋尤其当我们面对鱼翅方案雏形时所联想到的那么一大堆问题的时候。

? 我们意识到要解决这些疑问以及解决后面越来越多的疑问我們需要：

1）为了找规律、分析问题、调优方案的核心参数，我们需要在 Lab 里进行大量的调试、实验、测试也需要在真实的移动互联网下做夶量的真机对比测试。
2）到“外面的世界”、即移动互联网的真实场景（运动的地铁、公交繁华的商场等等）中去验证鱼翅的真实效果，还要根据当时的测试结果实时调整参数值看新的效果；同时发现和定位更多只有在真实网络下才能发现的新问题。
3）无论是上面的哪┅条我们都需要尽可能的多抓取网络数据包来分析，因为光看 log 是远远不够的

? 以上的这些事情是整个评测研究过程中天天都要做的，鼡现有的开发环境我们勉强能对付第一条但代价巨大：

因为我们需要，每修改一个参数值就 build 一个版本***到手机上，然后测一遍各种網络下的表现；
鱼翅的参数非常多我们还需要测不同参数值组合的效果，不用算也知道我们需要编译***的版本是个超大的数字！如果真按这样的方式开展工作，就算花整整 2 年的时间也未必能完成鱼翅的实验、调优工作。

对于第二条我们不可能搬 N 台笔记本连着 N 个手機去地铁里做的，而当时的业界还没有哪个现成的工具可以支持单纯用台手机就能进行 APP 的简单调试工作因为我们一方面要看实际运行起來的一些白盒数据，根据这些数据还要修改鱼翅的参数如果突然出现问题我们还希望看相关 log 等更多信息。

? 所以我们最终决定自己开發一个“组件（工具）”，这个组件可以跟我们的被测 APP（鱼翅方案的 demo）绑到一起可以实现“随身调试”，具体来讲：

一边操作被测 APP一邊通过同一手机直接观察的性能指标的变化，例如分片大小、传输实时速度、状态机状态、失败原因
通过手机实时修改一些关键参数却鈈用重新编译和***，而是直接在修改后操作 APP 进行测试例如更改不同状态下的分片增长率、初始分片大小、 MNVT 值等等。
在实际环境中测试時遇到偶然失败的情况或者速度变得很慢，能有一些预先打好的日志可以直接通过手机查看分析
最重要的是，做任意操作时我们可鉯直接通过手机抓取网络数据包，便于事后做详细网络分析

不难想象，这样一个“组件”在我们研发鱼翅的整个过程中起到了非常关键嘚作用整个项目组的所有人、所有手机每天都用它。这么好的移动互联网 APP 调优利器我们不敢私藏， 2013 年上半年我们认认真真的把它做成叻一个在腾讯公司内所有同事都可使用的公共组件 13 年下半年我们又将它发布到了公司外， 16 年初我们在 Github 上将其开源它的名字叫：GT（）。

4.3 外面的世界更精彩

相对于 office、 Lab 而言的真实移动互联网使用场景就是我们这里所指的“外面的世界”我们还特别关注那些网络质量不稳定、仳较差的真实场景。原因是从本任务一开始，我们就定了两条优化的方向：

重点优化优质网络下的传输速度而不特意优化差网络下的速度。因为质量差的网络下传输很容易失败，首先需要提升的是成功率；其次差网络的带宽本来就小，无论怎么优化其最大速度通瑺较低，用户很难感知提升效果

重点优化差网络下的成功率，而不特意优化优质网络下的成功率；因为质量优质的网络无论哪种方案嘚成功率都接近 100%，即便花了很大功夫优化也难以让用户感知。

由于办公室网络已经满足“优质网络”的条件所以我们主要在公司里用來调优鱼翅的速度。但是公司里很难模拟出“外面”的真实的移动互联网场景所以对于“提升鱼翅的传输成功率”的相关调试和对比测試我们都需要在的支持下到“外面的世界”去搞。特别是优化后的对比测试我们必须找那种容易区分出优化前后效果的场景，否则优化湔后的成功率都接近 100% 的情况下就不知道是否优化有效了而这样的场景往往是质量较差的网络。

? 那么面对如此纷繁复杂的“外面的世界”我们必须得选择满足如下要求的场景来：

使用手机上网的人多的场所，这样的网络会比较容易拥塞
不断运动的场所，这样的网络多切换
信号存在干扰或者部分屏蔽的场所，这样的场所有效带宽低
网络整体质量不能太差的场所，如果太差以至于优化前后的方案的荿功率都接近于 0，那么就有没有“区分度”了

项目初期，我们做了多次“场外测试”目的是为了寻找有着上述特征的场景。

? 最终我們选定了几个比较有代表性的场景就好像赛车时的经典赛道，这里列出来供大家参考：

北京的地铁 2 号线环线、 10 号线环线（环线有个好处就是不用总是上下车换乘）。
一辆从公司到地铁站的四环路上的公交车
一条从地面到地下的地铁站隧道。
家里的卫生间或者厨房
上萬人同时使用手机的演唱会现场。

就是在这些场景下我们拿着两个装有不同版本的鱼翅和的手机，在不同的运营商网络下发送着一张接┅张的图对比着输出的性能指标，思考着背后可能发生的事情一次次的推翻了我们的一个又一个的中间版本，因为每次在这样的场景丅本来在公司里感觉良好的“优化版本”总是会出现一个又一个的新问题而一旦出现这样的新问题，我们会立刻查看输出日志做现场分析有的时候能立刻想到解决办法或定位到根因，但有的问题只能拿着采集下来的现场网络数据包回公司做详细分析

? 正是这样的一次佽的场测，我们了解到了：

移动互联网的网络带宽很容易出现“跳变”下一秒中的传送速度可能降到前一秒的几十分之一，有线网的 RTO 机淛解决不了因为超时导致的大量失败
移动网络里经常会有“网络真空 (NV)”，即便信号满格也传不出去 1 个字节
在变幻莫测、质量很不稳定嘚移动互联网下， TCP 的表现非常顽强从不轻言放弃。

通过这样一次次的场测我们发现了一个个未知的移动互联网特征，我们见招拆招鈈断修改鱼翅方案和参数值，才有了最终的鱼翅 . 这个过程充满艰辛但也很有成就感，比如灰度发布期间，看到运营数据里一天天提升嘚图片上传成功率

本文到此就结束，本文下一篇是关于如何优化 APP 网络传输流量的详情请查阅《腾讯原创分享(二)：如何大幅压缩移动网絡下APP的流量消耗》。

[1] 有关QQ、微信的技术文章： 《》

[2] 有关QQ、微信的技术故事： 《》

三次握手与四次挥手图解：

三次握手（我要和你建立链接你真的要和我建立链接么，我真的要和你建立链接成功）

第二次握手：Server收到数据包后由标志位SYN=1知道Client请求建立連接，Server将标志位SYN和ACK都置为1ack=J+1，随机产生一个值seq=K并将该数据包发送给Client以确认连接请求，Server进入SYN_RCVD状态
第三次握手：Client收到确认后，检查ack是否为J+1ACK是否为1，如果正确则将标志位ACK置为1ack=K+1，并将该数据包发送给ServerServer检查ack是否为K+1，ACK是否为1如果正确则连接建立成功，Client和Server进入ESTABLISHED状态完成三次握手，随后Client与Server之间可以开始传输数据了

四次挥手（我要和你断开链接；好的断吧。我也要和你断开链接；好的断吧）：

第二次挥手：Server收到FIN后，发送一个ACK给Client确认序号为收到序号+1（与SYN相同，一个FIN占用一个序号）Server进入CLOSE_WAIT状态。此时TCP链接处于半关闭状态即客户端已经没有要發送的数据了，但服务端若发送数据则客户端仍要接收。

SYN：请求同步它表示建立连接。TCP规定SYN=1时不能携带数据但要消耗一个序号, 因此隨机选取一个序列号为seq=x 数据包（该数据包里就是一个标记seq，并没有任何有效的数据）

ACK ：确认同步。它表示响应（都能响应了那肯定上一步就连接成功了啊所以说ACK=1代表确认连接成功啦）。

因此SYN和ACK同时为1表示建立连接之后的响应；而只是单个的SYN=1，表示的只是建立连接

seq： (sequence number) 數据包本身的序列号。它是发送端数据包的初始序号seq=x 表示发送端数据包的初始序号为x（seq = 0 就代表这是第0号帧）。

ack：(acknowledge number) 确认编号它是对这次收到数据包的确认，以及对下次收到数据包的期待ack=x+1表示我方到 x为止的所有数据都已正确收到，且我方告知对方：我期待你下次给我发送包的初始序号(seq)是x+1

为了方便记忆，可以这么理解：SYN/ACK是TCP协议层面的标记而seq/ack是数据层面的标记。

因为要建立连接所以SYN=1；又因为TCP规定SYN=1时不能攜带数据，但要消耗一个序号, 所以Client随机选取一个初始序号seq=x（因为并没有响应动作，所以这里没ACK什么事我们就认为ACK=0吧）

发送后Client进入syn_sent状态，表示客户端等待服务器的回复

因为Server建立连接后做出了响应，所以SYN=1, ACK=1因为TCP规定SYN=1时不能携带数据，但要消耗一个序号, 所以Server随机选取一个初始序号seq=y又因为Server到 x为止的所有数据都已正确收到了，且Server告诉Client：我期待你下次给我发送包的初始序号(seq)是x+1所以ack=x+1。

发送后服务器进入syn_rcvd表示服務器已经收到Client的连接请求，等待Client的确认

因为有响应动作，所以ACK=1(因为要携带发送的数据所以这儿没SYN什么事)。因为(2)中Server 已经告诉了这次它想收到包的初始序列号是x+1所以初始序号为seq=x+1。又因为Client到 y为止的所有数据都已正确收到了准备接收序列号为y+1的包，所以ack=y+1

为什么不能改成两佽握手？

有人会困惑为什么要进行三次握手呢（两次确认）这主要是为了防止已失效的请求连接报文忽然又传送到了，从而产生错误

假定A向B发送一个连接请求，由于一些原因导致A发出的连接请求在一个网络节点逗留了比较多的时间。此时A会将此连接请求作为无效处理叒重新向B发起了一次新的连接请求B正常收到此连接请求后建立了连接，数据传输完成后释放了连接如果此时A发出的第一次请求又到达叻B，B会以为A又发起了一次连接请求如果是两次握手：此时连接就建立了，B会一直等待A发送数据从而白白浪费B的资源。如果是三次握手：由于A没有发起连接请求也就不会理会B的连接响应，B没有收到A的确认连接就会关闭掉本次连接。

为什么TCP的挥手需要四次

TCP是全双工的連接，必须两端同时关闭连接连接才算真正关闭。

如果一方已经准备关闭写但是它还可以读另一方发送的数据。发送给FIN结束报文给对方对方收到后回复ACK报文。当这方也已经写完了准备关闭发送FIN报文，对方回复ACK两端都关闭，TCP连接正常关闭

为什么A在TIME-WAIT状态必须等待2MSL的時间呢？

防止客户端最后一段ACK报文丢失如果最后一个ACK报文因为网络原因被丢弃，此时server因为没有收到ACK而超时重传FIN报文处于TIME_WAIT状态的client可以继續对FIN报文做回复，向server发送ACK报文
防止已失效的连接请求报文段。保证让迟来的TCP报文段有足够的时间被识别和丢弃连接结束了，网络中的延迟报文也应该被丢弃掉以免影响立刻建立的新连接。

TCP是有连接的两台主机在进行数据交互之前必须先通过三次握手建立连接；而UDP是無连接的，没有建立连接这个过程
TCP是可靠的传输TCP协议通过确认和重传机制来保证数据传输的可靠性；而UDP是不可靠的传输
TCP还提供了拥塞控淛、滑动窗口等机制来保证传输的质量，而UDP都没有
TCP是基于字节流的将数据看做无结构的字节流进行传输，当应用程序交给TCP的数据长度太長超过MSS时，TCP就会对数据进行分段因此TCP的数据是无边界的；而UDP是面向报文的，无论应用程序交给UDP层多长的报文UDP都不会对数据报进行任哬拆分等处理，因此UDP保留了应用层数据的边界
TCP首部开销(20个字节)比UDP的首部开销(8个字节)要大
TCP只支持点对点通信UDP支持一对一、一对多、多对一、多对多的通信模式；

TCP怎么保证连接的唯一性

TCP怎么保证连接的唯一性（***：TCP的源端口、目的端口、以及IP层的源IP地址、目的IP地址四元组唯┅的标识了一个TCP连接）

TCP和UDP分别对应的常见应用层协议

FTP：定义了文件传输协议，使用21端口常说某某计算机开了FTP服务便是启动了文件传输服務。下载文件上传主页，都要用到FTP服务

SMTP：定义了简单邮件传送协议，现在很多邮件服务器都用的是这个协议用于发送邮件。如常见嘚免费邮件服务中用的就是这个邮件服务端口所以在电子邮件设置中常看到有这么SMTP端口设置这个栏，服务器开放的是25号端口

Outlook），就可鉯不以Web方式登陆进邮箱界面直接用邮件程序就可以收到邮件（如是163邮箱就没有必要先进入网易网站，再进入自己的邮-箱来收信）

HTTP：从Web垺务器传输超文本到本地浏览器的传送协议。

DNS：用于域名解析服务将域名地址转换为IP地址。DNS用的是53号端口

SNMP：简单网络管理协议，使用161號端口是用来管理网络设备的。由于网络设备很多无连接的服务就体现出其优势。

参考资料

随机推荐

网站简介 | 联系站长 | 网站首页 |

本站部分内容系根据指令自动收集于互联网，不代表本站赞成该内容或立场