<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Hello,<div class=""><br class=""></div><div class="">I manage a pair of servers in two separate datacenters that replicate a device (backing a MySQL database) between the two.</div><div class=""><br class=""></div><div class="">Knowing that there was a storage issue in one of the datacenters that meant that I/O was sometimes blocking for a few minutes, I set the replication protocol to A.</div><div class="">That way (or so I believed), when the storage felt like acting up in our secondary datacenter the worse that could happen was that replication would lag, or even fail for a few minutes and then reconnect and catch up.</div><div class=""><br class=""></div><div class="">Last Thursday we experienced a situation when the storage problem did crop up, drbd connection between the two DCs was broken and then replication restarted.</div><div class="">The problem I faced was that during that replication, I/O latency seems to have been downgraded on both primary and secondary servers, just like I would have expected (and had previously experienced) using protocol C.</div><div class="">Note that I/O was still slowed down in my secondary DC while the resync was taking place.</div><div class=""><br class=""></div><div class="">It’s as though, while replication is asynchronous, resynchronizations are actually synchronous.</div><div class="">Am I missing something?&nbsp;</div><div class="">How can I avoid resyncs dragging down my I/O latency on the primary if the secondary is dragging it’s feet?&nbsp;</div><div class=""><br class=""></div><div class="">Some details and logs follow.</div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">This is a pair of CentOS 6 servers, running drbd&nbsp;8.4.5 on a&nbsp;2.6.32-573.18.1 kernel.</div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">I am running with the following common configuration:&nbsp;</div><div class=""><font face="Courier" class=""><br class=""></font></div><div class=""><font face="Courier" class="">common {<br class="">&nbsp; &nbsp; protocol A;<br class=""><br class="">&nbsp; &nbsp; handlers {<br class=""><br class="">&nbsp; &nbsp; }<br class=""><br class="">&nbsp; &nbsp; startup {<br class="">&nbsp; &nbsp; &nbsp; &nbsp; degr-wfc-timeout 120;<br class="">&nbsp; &nbsp; }<br class=""><br class="">&nbsp; &nbsp; syncer {<br class="">&nbsp; &nbsp; &nbsp; &nbsp; rate 500M;<br class="">&nbsp; &nbsp; &nbsp; &nbsp; al-extents 257;<br class="">&nbsp; &nbsp; }<br class="">&nbsp; &nbsp; options {<br class="">&nbsp; &nbsp; }<br class=""><br class="">&nbsp; &nbsp; disk {<br class="">&nbsp; &nbsp; &nbsp; &nbsp; on-io-error &nbsp; &nbsp; detach;<br class="">&nbsp; &nbsp; }<br class=""><br class="">&nbsp; &nbsp; net {</font></div><div class=""><span class="Apple-tab-span" style="white-space:pre">                </span>verify-alg md5;</div><div class=""><font face="Courier" class="">&nbsp; &nbsp; }<br class="">}</font></div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">This is what I have in the logs for the primary server:&nbsp;</div><div class=""><br class=""></div><div class=""><font face="Courier" class="">Jun 23 15:53:18 pf-db1 kernel: block drbd0: Remote failed to finish a request within ko-count * timeout<br class="">Jun 23 15:53:18 pf-db1 kernel: block drbd0: peer( Secondary -&gt; Unknown ) conn( Connected -&gt; Timeout ) pdsk( UpToDate -&gt; DUnknown )<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: asender terminated<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: Terminating drbd_a_mysql<br class="">Jun 23 15:53:18 pf-db1 kernel: block drbd0: new current UUID C7BC9B26D8B411FB:5386F0E7BDD5DE27:A561B9F4409AEACD:A560B9F4409AEACD<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: Connection closed<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: conn( Timeout -&gt; Unconnected )<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: receiver terminated<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: Restarting receiver thread<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: receiver (re)started<br class="">Jun 23 15:53:18 pf-db1 kernel: drbd mysql: conn( Unconnected -&gt; WFConnection )<br class="">Jun 23 15:53:22 pf-db1 kernel: drbd mysql: Handshake successful: Agreed network protocol version 101<br class="">Jun 23 15:53:22 pf-db1 kernel: drbd mysql: Agreed to support TRIM on protocol level<br class="">Jun 23 15:53:22 pf-db1 kernel: drbd mysql: conn( WFConnection -&gt; WFReportParams )<br class="">Jun 23 15:53:22 pf-db1 kernel: drbd mysql: Starting asender thread (from drbd_r_mysql [20164])<br class="">Jun 23 15:53:22 pf-db1 kernel: block drbd0: drbd_sync_handshake:<br class="">Jun 23 15:53:22 pf-db1 kernel: block drbd0: self C7BC9B26D8B411FB:5386F0E7BDD5DE27:A561B9F4409AEACD:A560B9F4409AEACD bits:1151 flags:0<br class="">Jun 23 15:53:22 pf-db1 kernel: block drbd0: peer 5386F0E7BDD5DE26:0000000000000000:A561B9F4409AEACC:A560B9F4409AEACD bits:0 flags:0<br class="">Jun 23 15:53:22 pf-db1 kernel: block drbd0: uuid_compare()=1 by rule 70<br class="">Jun 23 15:53:22 pf-db1 kernel: block drbd0: peer( Unknown -&gt; Secondary ) conn( WFReportParams -&gt; WFBitMapS ) pdsk( DUnknown -&gt; Consistent )<br class="">Jun 23 15:53:22 pf-db1 kernel: block drbd0: send bitmap stats [Bytes(packets)]: plain 0(0), RLE 459(1), total 459; compression: 100.0%<br class="">Jun 23 15:53:25 pf-db1 kernel: block drbd0: receive bitmap stats [Bytes(packets)]: plain 0(0), RLE 459(1), total 459; compression: 100.0%<br class="">Jun 23 15:53:25 pf-db1 kernel: block drbd0: helper command: /sbin/drbdadm before-resync-source minor-0<br class="">Jun 23 15:53:26 pf-db1 kernel: block drbd0: helper command: /sbin/drbdadm before-resync-source minor-0 exit code 0 (0x0)<br class="">Jun 23 15:53:26 pf-db1 kernel: block drbd0: conn( WFBitMapS -&gt; SyncSource ) pdsk( Consistent -&gt; Inconsistent )<br class="">Jun 23 15:53:26 pf-db1 kernel: block drbd0: Began resync as SyncSource (will sync 6952 KB [1738 bits set]).<br class="">Jun 23 15:53:26 pf-db1 kernel: block drbd0: updated sync UUID C7BC9B26D8B411FB:5387F0E7BDD5DE27:5386F0E7BDD5DE27:A561B9F4409AEACD<br class="">Jun 23 15:53:38 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 6<br class="">Jun 23 15:54:27 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 6<br class="">Jun 23 15:54:33 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 5<br class="">Jun 23 15:54:47 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 4<br class="">Jun 23 15:55:03 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 6<br class="">Jun 23 15:55:09 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 5<br class="">Jun 23 15:55:15 pf-db1 kernel: drbd mysql: [drbd_w_mysql/7339] sock_sendmsg time expired, ko = 4<br class="">Jun 23 15:58:37 pf-db1 kernel: block drbd0: Resync done (total 310 sec; paused 0 sec; 20 K/sec)<br class="">Jun 23 15:58:37 pf-db1 kernel: block drbd0: updated UUIDs C7BC9B26D8B411FB:0000000000000000:5387F0E7BDD5DE27:5386F0E7BDD5DE27<br class="">Jun 23 15:58:37 pf-db1 kernel: block drbd0: conn( SyncSource -&gt; Connected ) pdsk( Inconsistent -&gt; UpToDate )<br class=""><br class=""><br class="">This is sar reporting on block devices while the problem was happening:&nbsp;</font></div><div class=""><font face="Courier" class=""><br class=""></font></div><div class=""><font face="Courier" class=""># sar -f /var/log/sa/sa23 -dp -s 15:43:00 -e 16:09:00 | awk '$3 ~ /DEV/ || $3 ~ /drbd0/'<br class="">03:43:01 PM &nbsp; &nbsp; &nbsp; DEV &nbsp; &nbsp; &nbsp; tps &nbsp;rd_sec/s &nbsp;wr_sec/s &nbsp;avgrq-sz &nbsp;avgqu-sz &nbsp; &nbsp; await &nbsp; &nbsp; svctm &nbsp; &nbsp; %util<br class="">03:44:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 51.60 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1601.61 &nbsp; &nbsp; 31.04 &nbsp; &nbsp; &nbsp;0.04 &nbsp; &nbsp; &nbsp;0.83 &nbsp; &nbsp; &nbsp;0.19 &nbsp; &nbsp; &nbsp;0.99<br class="">03:45:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 21.44 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;571.93 &nbsp; &nbsp; 26.68 &nbsp; &nbsp; &nbsp;1.14 &nbsp; &nbsp; 51.26 &nbsp; &nbsp; 40.69 &nbsp; &nbsp; 87.25<br class="">03:46:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 17.72 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;406.49 &nbsp; &nbsp; 22.94 &nbsp; &nbsp; &nbsp;1.20 &nbsp; &nbsp; 65.60 &nbsp; &nbsp; 53.99 &nbsp; &nbsp; 95.65<br class="">03:47:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 13.04 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;217.15 &nbsp; &nbsp; 16.66 &nbsp; &nbsp; &nbsp;1.43 &nbsp; &nbsp;113.87 &nbsp; &nbsp; 76.94 &nbsp; &nbsp;100.31<br class="">03:48:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;5.16 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp; 85.15 &nbsp; &nbsp; 16.49 &nbsp; &nbsp; &nbsp;1.30 &nbsp; &nbsp;244.81 &nbsp; &nbsp;191.23 &nbsp; &nbsp; 98.73<br class="">03:49:02 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;6.88 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp; 97.98 &nbsp; &nbsp; 14.23 &nbsp; &nbsp; &nbsp;1.30 &nbsp; &nbsp;193.08 &nbsp; &nbsp;145.69 &nbsp; &nbsp;100.29<br class="">03:50:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 10.53 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;180.82 &nbsp; &nbsp; 17.18 &nbsp; &nbsp; &nbsp;1.51 &nbsp; &nbsp;120.57 &nbsp; &nbsp; 95.35 &nbsp; &nbsp;100.38<br class="">03:51:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;6.20 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp; 96.33 &nbsp; &nbsp; 15.55 &nbsp; &nbsp; &nbsp;1.47 &nbsp; &nbsp;279.11 &nbsp; &nbsp;161.82 &nbsp; &nbsp;100.26<br class="">03:52:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;9.71 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;183.82 &nbsp; &nbsp; 18.92 &nbsp; &nbsp; &nbsp;1.36 &nbsp; &nbsp;118.30 &nbsp; &nbsp;103.47 &nbsp; &nbsp;100.51<br class="">03:53:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;2.43 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp; 37.73 &nbsp; &nbsp; 15.56 &nbsp; &nbsp; &nbsp;1.94 &nbsp; &nbsp;232.62 &nbsp; &nbsp;414.01 &nbsp; &nbsp;100.40<br class="">03:54:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 12.55 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;398.39 &nbsp; &nbsp; 31.75 &nbsp; &nbsp; &nbsp;8.01 &nbsp; &nbsp;736.01 &nbsp; &nbsp; 69.56 &nbsp; &nbsp; 87.28<br class="">03:55:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;3.06 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp; 29.31 &nbsp; &nbsp; &nbsp;9.57 &nbsp; &nbsp;128.10 &nbsp; &nbsp;675.81 &nbsp; &nbsp;328.01 &nbsp; &nbsp;100.43<br class="">03:56:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;1.34 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp; 39.36 &nbsp; &nbsp; 29.40 &nbsp; &nbsp; 43.34 126599.23 &nbsp; &nbsp;750.34 &nbsp; &nbsp;100.45<br class="">03:57:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; &nbsp;5.36 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;128.97 &nbsp; &nbsp; 24.05 &nbsp; &nbsp; &nbsp;1.60 &nbsp; &nbsp;258.42 &nbsp; &nbsp;186.98 &nbsp; &nbsp;100.27<br class="">03:58:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 14.02 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;287.79 &nbsp; &nbsp; 20.53 &nbsp; &nbsp; &nbsp;3.30 &nbsp; &nbsp;264.49 &nbsp; &nbsp; 71.71 &nbsp; &nbsp;100.52<br class="">03:59:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 23.30 &nbsp; &nbsp; &nbsp;0.00 &nbsp; &nbsp;654.19 &nbsp; &nbsp; 28.08 &nbsp; &nbsp; &nbsp;2.32 &nbsp; &nbsp;103.39 &nbsp; &nbsp; 42.16 &nbsp; &nbsp; 98.23<br class="">04:00:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 40.33 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1390.08 &nbsp; &nbsp; 34.47 &nbsp; &nbsp; &nbsp;3.56 &nbsp; &nbsp; 88.24 &nbsp; &nbsp; 19.73 &nbsp; &nbsp; 79.58<br class="">04:01:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 37.54 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1225.94 &nbsp; &nbsp; 32.66 &nbsp; &nbsp; &nbsp;3.62 &nbsp; &nbsp; 96.50 &nbsp; &nbsp; 22.01 &nbsp; &nbsp; 82.64<br class="">04:02:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 47.52 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1602.41 &nbsp; &nbsp; 33.72 &nbsp; &nbsp; &nbsp;2.41 &nbsp; &nbsp; 50.75 &nbsp; &nbsp; &nbsp;8.77 &nbsp; &nbsp; 41.68<br class="">04:03:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 60.49 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 2000.13 &nbsp; &nbsp; 33.07 &nbsp; &nbsp; &nbsp;1.72 &nbsp; &nbsp; 28.36 &nbsp; &nbsp; &nbsp;3.88 &nbsp; &nbsp; 23.45<br class="">04:04:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 67.02 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 2297.37 &nbsp; &nbsp; 34.28 &nbsp; &nbsp; &nbsp;1.01 &nbsp; &nbsp; 15.12 &nbsp; &nbsp; &nbsp;1.40 &nbsp; &nbsp; &nbsp;9.39<br class="">04:05:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 59.32 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1996.30 &nbsp; &nbsp; 33.65 &nbsp; &nbsp; &nbsp;0.89 &nbsp; &nbsp; 15.09 &nbsp; &nbsp; &nbsp;1.82 &nbsp; &nbsp; 10.77<br class="">04:06:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 58.68 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 2023.81 &nbsp; &nbsp; 34.49 &nbsp; &nbsp; &nbsp;1.55 &nbsp; &nbsp; 26.38 &nbsp; &nbsp; &nbsp;3.58 &nbsp; &nbsp; 20.99<br class="">04:07:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 57.96 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1989.85 &nbsp; &nbsp; 34.33 &nbsp; &nbsp; &nbsp;0.98 &nbsp; &nbsp; 16.98 &nbsp; &nbsp; &nbsp;1.71 &nbsp; &nbsp; &nbsp;9.92<br class="">04:08:01 PM &nbsp; &nbsp; drbd0 &nbsp; &nbsp; 55.01 &nbsp; &nbsp; &nbsp;0.00 &nbsp; 1872.40 &nbsp; &nbsp; 34.03 &nbsp; &nbsp; &nbsp;0.99 &nbsp; &nbsp; 17.99 &nbsp; &nbsp; &nbsp;2.14 &nbsp; &nbsp; 11.80<br class=""></font><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">Any help is greatly appreciated.</div><div class=""><br class=""></div><div class="">Best regards,<br class=""><div class="">
<div style="color: rgb(0, 0, 0); font-family: Helvetica;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; " class=""><div style="color: rgb(0, 0, 0); font-family: Helvetica;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; " class="">--</div><div style="color: rgb(0, 0, 0); font-family: Helvetica;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; " class="">Louis Munro<br class=""><a href="mailto:lmunro@inverse.ca" class="">lmunro@inverse.ca</a> &nbsp;::&nbsp;&nbsp;<a href="http://www.inverse.ca" class="">www.inverse.ca</a>&nbsp;<br class="">+1.514.447.4918 x125 &nbsp;:: +1 (866)&nbsp;353-6153 x125<br class="">Inverse inc. :: Leaders behind SOGo&nbsp;(<a href="http://www.sogo.nu" class="">www.sogo.nu</a>) and PacketFence&nbsp;(<a href="http://www.packetfence.org" class="">www.packetfence.org</a>)</div></div>
</div>
<br class=""></div></body></html>