解决Redis 延迟故障

博主： cto.wang
发布时间：2014 年 08 月 15 日
450次浏览
暂无评论
6876字数
分类： LINUX

前一段时间redis客户端在使用php connect 连接redis 的经常报一个redis server went away 等信息。
首先想到的想到的是reids超时设置的问题，timeout、tcp-keepalive、以及php的default_socket_timeout时间
<pre>&nbsp;127.0.0.1:6381&gt;&nbsp;CONFIG&nbsp;GET&nbsp;*
&nbsp;&nbsp;17)&nbsp;&quot;timeout&quot;
&nbsp;&nbsp;18)&nbsp;&quot;0&quot;
&nbsp;&nbsp;19)&nbsp;&quot;tcp-keepalive&quot;
&nbsp;&nbsp;20)&nbsp;&quot;0&quot;

&nbsp;vim&nbsp;&nbsp;xxx/php_path/php.ini
&nbsp;default_socket_timeout&nbsp;=&nbsp;300</pre>
注意这个socket时间不能改成0 要是0的话你会悲剧的。
测试 不解决还是ent away
php改 pconnect不解决。好吧，这个诡异的问题已经越来越严重了。
<pre>&nbsp;#&nbsp;vmstat&nbsp;&nbsp;1&nbsp;3
&nbsp;procs&nbsp;-----------memory----------&nbsp;---swap--&nbsp;-----io----&nbsp;--system--&nbsp;-----cpu------
&nbsp;&nbsp;r&nbsp;&nbsp;b&nbsp;&nbsp;&nbsp;swpd&nbsp;&nbsp;&nbsp;free&nbsp;&nbsp;&nbsp;buff&nbsp;&nbsp;cache&nbsp;&nbsp;&nbsp;si&nbsp;&nbsp;&nbsp;so&nbsp;&nbsp;&nbsp;&nbsp;bi&nbsp;&nbsp;&nbsp;&nbsp;bo&nbsp;&nbsp;&nbsp;in&nbsp;&nbsp;&nbsp;cs&nbsp;us&nbsp;sy&nbsp;id&nbsp;wa&nbsp;st
&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;6022256&nbsp;383340&nbsp;10371320&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;25&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;100&nbsp;&nbsp;0&nbsp;&nbsp;0
&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;6022380&nbsp;383340&nbsp;10371368&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;116&nbsp;6401&nbsp;3463&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;100&nbsp;&nbsp;0&nbsp;&nbsp;0
&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;6022380&nbsp;383340&nbsp;10371368&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;16&nbsp;5880&nbsp;3022&nbsp;&nbsp;0&nbsp;&nbsp;0&nbsp;100&nbsp;&nbsp;0&nbsp;&nbsp;0

&nbsp;#&nbsp;iostat&nbsp;-x&nbsp;-k&nbsp;1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;Linux&nbsp;2.6.18-308.el5&nbsp;(yq-bbsrqueue1)&nbsp;&nbsp;&nbsp;&nbsp;12/24/2015

&nbsp;avg-cpu:&nbsp;&nbsp;%user&nbsp;&nbsp;&nbsp;%nice&nbsp;%system&nbsp;%iowait&nbsp;&nbsp;%steal&nbsp;&nbsp;&nbsp;%idle
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.07&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;0.05&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;99.87

&nbsp;Device:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;rrqm/s&nbsp;&nbsp;&nbsp;wrqm/s&nbsp;&nbsp;&nbsp;r/s&nbsp;&nbsp;&nbsp;w/s&nbsp;&nbsp;&nbsp;&nbsp;rkB/s&nbsp;&nbsp;&nbsp;&nbsp;wkB/s&nbsp;avgrq-sz&nbsp;avgqu-sz&nbsp;&nbsp;&nbsp;await&nbsp;&nbsp;svctm&nbsp;&nbsp;%util
&nbsp;cciss/c0d0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.52&nbsp;&nbsp;0.00&nbsp;&nbsp;0.51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.20&nbsp;&nbsp;&nbsp;&nbsp;12.12&nbsp;&nbsp;&nbsp;&nbsp;48.39&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;0.47&nbsp;&nbsp;&nbsp;0.25&nbsp;&nbsp;&nbsp;0.01
&nbsp;cciss/c0d0p1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.52&nbsp;&nbsp;0.00&nbsp;&nbsp;0.51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.20&nbsp;&nbsp;&nbsp;&nbsp;12.12&nbsp;&nbsp;&nbsp;&nbsp;48.39&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;0.47&nbsp;&nbsp;&nbsp;0.25&nbsp;&nbsp;&nbsp;0.01
&nbsp;cciss/c0d1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;91.90&nbsp;&nbsp;0.00&nbsp;&nbsp;3.32&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.44&nbsp;&nbsp;&nbsp;380.88&nbsp;&nbsp;&nbsp;229.15&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.03&nbsp;&nbsp;&nbsp;&nbsp;9.40&nbsp;&nbsp;&nbsp;0.19&nbsp;&nbsp;&nbsp;0.06
&nbsp;cciss/c0d1p1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00&nbsp;&nbsp;&nbsp;&nbsp;91.90&nbsp;&nbsp;0.00&nbsp;&nbsp;3.32&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.44&nbsp;&nbsp;&nbsp;380.88&nbsp;&nbsp;&nbsp;229.15&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.03&nbsp;&nbsp;&nbsp;&nbsp;9.40&nbsp;&nbsp;&nbsp;0.19&nbsp;&nbsp;&nbsp;0.06</pre>
好吧检查网络 没问题…
哪还有什么能造成延迟呢？ AOF 和硬盘I/O操作延迟、数据过期造成的延迟、redis看门狗的延迟
从iostat上来看aof基本不会造成这方面的延迟可以排除掉
key过期： 好吧我们看看文档
<pre>&nbsp;&nbsp;Latency&nbsp;generated&nbsp;by&nbsp;expires
&nbsp;Redis&nbsp;evict&nbsp;expired&nbsp;keys&nbsp;in&nbsp;two&nbsp;ways:
&nbsp;One&nbsp;lazy&nbsp;way&nbsp;expires&nbsp;a&nbsp;key&nbsp;when&nbsp;it&nbsp;is&nbsp;requested&nbsp;by&nbsp;a&nbsp;command,&nbsp;but&nbsp;it&nbsp;is&nbsp;found&nbsp;to&nbsp;be&nbsp;already&nbsp;expired.
&nbsp;One&nbsp;active&nbsp;way&nbsp;expires&nbsp;a&nbsp;few&nbsp;keys&nbsp;every&nbsp;100&nbsp;milliseconds.</pre>
就是说有两种方式： lazy 在key被请求的时候才检查是否过期 active 每0.1秒进行一次过期检查 好吧问问拍黄片的哥哥是否有大面积过期的key。咨询木有。
那找找看门狗吧
<pre>&nbsp;127.0.0.1:6381&gt;&nbsp;config&nbsp;get&nbsp;watchdog
&nbsp;(empty&nbsp;list&nbsp;or&nbsp;set)</pre>
木有….
难道就真的没有办法了嘛 （当时没有抓包）苦恼的只能看配置 看日志找问题了
那就在重新浏览配置吧
能出问题的配置项只有： timeout tcp-keepalive tcp-backlog maxclients
查看一下当前的连接数 ：
<pre>&nbsp;#&nbsp;redis-stat&nbsp;host&nbsp;10.xx.xxx.xxx&nbsp;port&nbsp;6381&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;-------&nbsp;data&nbsp;------&nbsp;---------------------&nbsp;load&nbsp;--------------------&nbsp;-&nbsp;child&nbsp;-
&nbsp;keys&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;mem&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;clients&nbsp;blocked&nbsp;requests&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;connections&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;4325509&nbsp;&nbsp;&nbsp;&nbsp;2.00G&nbsp;&nbsp;&nbsp;&nbsp;25&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;526898898&nbsp;(+526898898)&nbsp;100841471&nbsp;&nbsp;&nbsp;
&nbsp;4325510&nbsp;&nbsp;&nbsp;&nbsp;2.00G&nbsp;&nbsp;&nbsp;&nbsp;14&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;526899989&nbsp;(+1091)&nbsp;&nbsp;&nbsp;100841670&nbsp;&nbsp;&nbsp;
&nbsp;4325511&nbsp;&nbsp;&nbsp;&nbsp;2.00G&nbsp;&nbsp;&nbsp;&nbsp;20&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;526901583&nbsp;(+1594)&nbsp;&nbsp;&nbsp;100841933&nbsp;&nbsp;&nbsp;
&nbsp;4325509&nbsp;&nbsp;&nbsp;&nbsp;2.00G&nbsp;&nbsp;&nbsp;&nbsp;16&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;526903336&nbsp;(+1753)&nbsp;&nbsp;&nbsp;100842128&nbsp;&nbsp;&nbsp;
&nbsp;4325511&nbsp;&nbsp;&nbsp;&nbsp;2.00G&nbsp;&nbsp;&nbsp;&nbsp;9&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;526904748&nbsp;(+1412)&nbsp;&nbsp;&nbsp;100842328</pre>
出问题的timeout tcp-keepalive 。 哪还有什么地址配置的呢？ sysctl 那查看一下 tcp方面的配置 主要是时间和队列长度的 net.ipv4.tcp_fin_timeout = 30 net.ipv4.tcp_keepalive_time = 150 net.ipv4.tcp_max_tw_buckets = 20000
那只能改一下这俩个试试了
测试解决
最后改成 net.ipv4.tcp_fin_timeout = 60 最后这个问题应该是应用层和内核层 连接时间不匹配导致的。 内核层超时断开了，应用层以为还能用，请求就过不去，只能再重新走一遍，就会间接性延迟。
可惜当时没有抓包。
http://www.redis.io/topics/latency 官方文档

最后修改：2021 年 12 月 10 日 10 : 53 AM

如果觉得我的文章对你有用，请随意赞赏