<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'><div><br><blockquote cite="mid:SNT153-W2831C7DA3766F039CADC77D4780@phx.gbl"><div dir="ltr"><div>
          <pre class="ecxmoz-signature"></pre>
          <pre class="ecxmoz-signature"><b>DRBD Bug report - I/O hangs on primary node</b></pre>
          <pre class="ecxmoz-signature"></pre>
          <pre class="ecxmoz-signature"><br></pre><pre class="ecxmoz-signature">Hello everyone,</pre><pre class="ecxmoz-signature"><br></pre>
          <pre class="ecxmoz-signature"><span style="font-size:12pt;font-family:Calibri, sans-serif;">I use DRBD as a backup solution for many servers, one big storage server backs&nbsp;</span><span style="font-size:12pt;font-family:Calibri, sans-serif;">up several smaller servers.</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">
</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;"><b>SMALL SERVERS</b></span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">
</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">My Small servers are KVM Hypervisors. I work with drbd over local storage.</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">HW Configuration: Dual AMD Opteron 6272, 128 GB RAM, Dual 1 Gbps Intel 82576 NICs.</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">SW Configuration: Centos 7.0 Kernel </span><font face="Calibri, sans-serif">3.10.0-123.el7.x86_64, DRBD 8.4.7-2 GIT-hash: 15c1a783b673d9c1a2a9f9de38b3d7e98c275709</font></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">The DRBD volume on the small servers works over a 4TB  LSI Hardware RAID with DRBD external metadata over a SSD partition.</span></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">I use the DRBD block device as Physical Volume for LVM, where I create Logical Volumes to represent RAW Virtual Hard disks for KVM Virtual Machines.</font></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">
</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;"><b>THE BIG BACKUP SERVER</b></span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">
</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">The Big server is also </span><span style="font-family:Calibri, sans-serif;font-size:12pt;">Dual AMD Opteron 6272, 128 GB RAM, Dual 1 Gbps Intel 82576 NICs. </span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">SW Configuration: Centos 7.0 Kernel </span><font face="Calibri, sans-serif">3.10.0-123.el7.x86_64, DRBD 8.4.7-2 GIT-hash: 15c1a783b673d9c1a2a9f9de38b3d7e98c275709</font></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">I called it "BIG" because it has <b>60TB</b> of storage over an Adaptec Hardware RAID.</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">Its role is only to use DRBD to replicate the data from the small servers.</span></pre>
          <pre class="ecxmoz-signature"><span style="font-family:Calibri, sans-serif;font-size:12pt;">I created 15 GPT 4TB partitions over that harware RAID, each one presents the backup volume for one of the small servers.</span></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">I use also a SSD for external metadata, I have a LVM VG group called "metadata" where I created one Logical Volume for the metadata of each DRBD resource.</font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">
</font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif"><b>THE BACKUP PROCESS</b></font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif"><b>
</b></font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">All DRBD volumes works with protocol A, the small servers always hold the primary role and the corresponding drbd resource works disconnected most of the time.</font></pre>
          <pre class="ecxmoz-signature">In the backup server I continuously execute a backup script, It iterates over all small servers in order to backup their data, one server at a time, the backup script connects to each small server via SSH, and executes the following commands as root in each small server:</pre>
          <pre class="ecxmoz-signature"></pre>
          <pre class="ecxmoz-signature">drbdadm connect &lt;resource&gt;</pre>
          <pre class="ecxmoz-signature">drbdadm resume-sync &lt;resource&gt;</pre>
          <pre class="ecxmoz-signature">&lt;wait until the resource reaches the state UpToDate/UpToDate&gt;</pre>
          <pre class="ecxmoz-signature">drbdadm pause-sync &lt;resource&gt;</pre>
          <pre class="ecxmoz-signature">drbdadm disconnect &lt;resource&gt;</pre>
          <pre class="ecxmoz-signature"> </pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">Then it continues to the next small server. This process runs all the time without stops.</font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">
</font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif"><b>THE PROBLEM</b></font></pre>
          <pre class="ecxmoz-signature"></pre>
          <pre class="ecxmoz-signature">Everything works fine most of the time, but at least once a month i/o stops on at least one small server. (All small servers have experimented the problem).&nbsp;</pre>
          <pre class="ecxmoz-signature">The DRBD resource "hangs" on the primary node and it is not possible to write any data to it. Of course all Virtual Machines running on the Hypervisor stop working and the server's Load Average grows without limit. Operating system boot does not work because it hangs when trying to umount filesystems that were mounted from the DRBD resource. </pre>
          <pre class="ecxmoz-signature">A Hardware Boot is always required to recover control of the system.</pre>
          <pre class="ecxmoz-signature"></pre>
          <pre class="ecxmoz-signature">A normal backup session (DRBD resync) on the small servers generates the following set of messages in the syslog:</pre>
          <pre class="ecxmoz-signature">This is actually the last successful sync session before the failure:</pre>
          <pre class="ecxmoz-signature"><font size="1">May  1 10:48:39 node-80-13 kernel: drbd node-80-13: conn( StandAlone -&gt; Unconnected ) 
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: Starting receiver thread (from drbd_w_node-80- [3406])
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: receiver (re)started
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: conn( Unconnected -&gt; WFConnection ) 
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: Handshake successful: Agreed network protocol version 101
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: Feature flags enabled on protocol level: 0x7 TRIM THIN_RESYNC 
WRITE_SAME.
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: conn( WFConnection -&gt; WFReportParams ) 
May  1 10:48:39 node-80-13 kernel: drbd node-80-13: Starting ack_recv thread (from drbd_r_node-80- [2607])
May  1 10:48:39 node-80-13 kernel: block drbd13: drbd_sync_handshake:
May  1 10:48:39 node-80-13 kernel: block drbd13: self C38A5875B169C401:0690DCE7CD1B204B:F1B7EF7B79DF16F3:F1B6EF7B7
9DF16F3 bits:45856 flags:0
May  1 10:48:39 node-80-13 kernel: block drbd13: peer 0690DCE7CD1B204A:0000000000000000:F1B7EF7B79DF16F2:F1B5EF7B7
9DF16F3 bits:0 flags:0
May  1 10:48:39 node-80-13 kernel: block drbd13: uuid_compare()=1 by rule 70
May  1 10:48:39 node-80-13 kernel: block drbd13: peer( Unknown -&gt; Secondary ) conn( WFReportParams -&gt; WFBitMapS ) 
pdsk( DUnknown -&gt; Consistent ) 
May  1 10:48:39 node-80-13 kernel: block drbd13: send bitmap stats [Bytes(packets)]: plain 0(0), RLE 8123(2), tota
l 8123; compression: 100.0%
May  1 10:48:39 node-80-13 kernel: block drbd13: receive bitmap stats [Bytes(packets)]: plain 0(0), RLE 8123(2), t
otal 8123; compression: 100.0%
May  1 10:48:39 node-80-13 kernel: block drbd13: helper command: /sbin/drbdadm before-resync-source minor-13
May  1 10:48:39 node-80-13 kernel: block drbd13: helper command: /sbin/drbdadm before-resync-source minor-13 exit 
code 0 (0x0)
May  1 10:48:39 node-80-13 kernel: block drbd13: conn( WFBitMapS -&gt; PausedSyncS ) pdsk( Consistent -&gt; Inconsistent
 ) 
May  1 10:48:39 node-80-13 kernel: block drbd13: Began resync as PausedSyncS (will sync 183436 KB [45859 bits set]
).
May  1 10:48:39 node-80-13 kernel: block drbd13: updated sync UUID C38A5875B169C401:0691DCE7CD1B204B:0690DCE7CD1B2
04B:F1B7EF7B79DF16F3
May  1 10:48:42 node-80-13 kernel: block drbd13: conn( PausedSyncS -&gt; SyncSource ) user_isp( 1 -&gt; 0 ) 
May  1 10:48:42 node-80-13 kernel: block drbd13: Syncer continues.
May  1 10:48:47 node-80-13 kernel: block drbd13: Resync done (total 7 sec; paused 2 sec; 36684 K/sec)
May  1 10:48:47 node-80-13 kernel: block drbd13: updated UUIDs C38A5875B169C401:0000000000000000:0691DCE7CD1B204B:
0690DCE7CD1B204B
May  1 10:48:47 node-80-13 kernel: block drbd13: conn( SyncSource -&gt; Connected ) pdsk( Inconsistent -&gt; UpToDate ) 
May  1 10:48:52 node-80-13 kernel: block drbd13: user_isp( 0 -&gt; 1 ) 
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: peer( Secondary -&gt; Unknown ) conn( Connected -&gt; Disconnecting 
) pdsk( UpToDate -&gt; DUnknown ) 
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: ack_receiver terminated
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: Terminating drbd_a_node-80-
May  1 10:48:54 node-80-13 kernel: block drbd13: new current UUID 598C5E0CEB5F8A4D:C38A5875B169C401:0691DCE7CD1B20
4B:0690DCE7CD1B204B
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: Connection closed
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: conn( Disconnecting -&gt; StandAlone ) 
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: receiver terminated
May  1 10:48:54 node-80-13 kernel: drbd node-80-13: Terminating drbd_r_node-80-</font></pre>
          <pre class="ecxmoz-signature"><font face="Calibri, sans-serif">However the next backup session did not finish successfully:</font></pre>
          <pre class="ecxmoz-signature"><font size="1">May  1 10:52:32 node-80-13 kernel: drbd node-80-13: conn( StandAlone -&gt; Unconnected ) 
May  1 10:52:32 node-80-13 kernel: drbd node-80-13: Starting receiver thread (from drbd_w_node-80- [3406])
May  1 10:52:32 node-80-13 kernel: drbd node-80-13: receiver (re)started
May  1 10:52:32 node-80-13 kernel: drbd node-80-13: conn( Unconnected -&gt; WFConnection ) 
May  1 10:52:33 node-80-13 kernel: drbd node-80-13: Handshake successful: Agreed network protocol version 101
May  1 10:52:33 node-80-13 kernel: drbd node-80-13: Feature flags enabled on protocol level: 0x7 TRIM THIN_RESYNC 
WRITE_SAME.
May  1 10:52:33 node-80-13 kernel: drbd node-80-13: conn( WFConnection -&gt; WFReportParams ) 
May  1 10:52:33 node-80-13 kernel: drbd node-80-13: Starting ack_recv thread (from drbd_r_node-80- [5857])</font>
</pre>
        </div>
        <div>In this moment i/o hangs and the DRBD resource remains
          forever in the&nbsp;WFReportParams state.</div>
        <div><br>
        </div>
        <div>From the BIG Server's perspective this is a successful
          session:</div>
        <div><br>
        </div>
        <div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              drbd node-80-13: Handshake successful: Agreed network
              protocol version 101</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              drbd node-80-13: Feature flags enabled on protocol level:
              0x7 TRIM THIN_RES</font></div>
          <div><font size="1">YNC WRITE_SAME.</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              drbd node-80-13: conn( WFConnection -&gt; WFReportParams
              )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              drbd node-80-13: Starting ack_recv thread (from
              drbd_r_node-80- [9039])</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: drbd_sync_handshake:</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: self
              86CB6F103DB64E5A:0000000000000000:86A850CE30BAFCC2:46121</font></div>
          <div><font size="1">5DE40F8C736 bits:0 flags:0</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: peer
              BAA6F74140F9B5A1:86CB6F103DB64E5B:86A850CE30BAFCC2:46121</font></div>
          <div><font size="1">5DE40F8C737 bits:51667 flags:0</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: uuid_compare()=-1 by rule 50</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: peer( Unknown -&gt; Primary ) conn(
              WFReportParams -&gt; WFBitMapT&nbsp;</font></div>
          <div><font size="1">) disk( UpToDate -&gt; Outdated ) pdsk(
              DUnknown -&gt; UpToDate ) peer_isp( 0 -&gt; 1 )&nbsp;</font></div>
        </div>
        <div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: receive bitmap stats [Bytes(packets)]: plain
              0(0), RLE 8985(3</font></div>
          <div><font size="1">), total 8985; compression: 100.0%</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: send bitmap stats [Bytes(packets)]: plain
              0(0), RLE 8985(3),&nbsp;</font></div>
          <div><font size="1">total 8985; compression: 100.0%</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: conn( WFBitMapT -&gt; WFSyncUUID )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: updated sync uuid
              86CC6F103DB64E5A:0000000000000000:86A850CE3</font></div>
          <div><font size="1">0BAFCC2:461215DE40F8C736</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: helper command: /sbin/drbdadm
              before-resync-target minor-13</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: helper command: /sbin/drbdadm
              before-resync-target minor-13 e</font></div>
          <div><font size="1">xit code 0 (0x0)</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: conn( WFSyncUUID -&gt; PausedSyncT ) disk(
              Outdated -&gt; Inconsist</font></div>
          <div><font size="1">ent )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:02 storage-80-101 kernel:
              block drbd13: Began resync as PausedSyncT (will sync
              209244 KB [52311 bits&nbsp;</font></div>
          <div><font size="1">set]).</font></div>
          <div><font size="1">May &nbsp;1 10:00:04 storage-80-101 kernel:
              block drbd13: conn( PausedSyncT -&gt; SyncTarget )
              peer_isp( 1 -&gt; 0 )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:04 storage-80-101 kernel:
              block drbd13: Syncer continues.</font></div>
          <div><font size="1">May &nbsp;1 10:00:31 storage-80-101 kernel:
              block drbd13: Resync done (total 29 sec; paused 2 sec;
              7748 K/sec)</font></div>
          <div><font size="1">May &nbsp;1 10:00:31 storage-80-101 kernel:
              block drbd13: updated UUIDs
              BAA6F74140F9B5A0:0000000000000000:86CC6F103DB64E5A:86CB6F103DB64E5B</font></div>
          <div><font size="1">May &nbsp;1 10:00:31 storage-80-101 kernel:
              block drbd13: conn( SyncTarget -&gt; Connected ) disk(
              Inconsistent -&gt; UpToDate )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:31 storage-80-101 kernel:
              block drbd13: helper command: /sbin/drbdadm
              after-resync-target minor-13</font></div>
          <div><font size="1">May &nbsp;1 10:00:31 storage-80-101 kernel:
              block drbd13: helper command: /sbin/drbdadm
              after-resync-target minor-13 exit code 0 (0x0)</font></div>
          <div><font size="1">May &nbsp;1 10:00:34 storage-80-101 kernel:
              block drbd13: conn( Connected -&gt; Behind ) disk(
              UpToDate -&gt; Outdated )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:35 storage-80-101 kernel:
              block drbd13: peer_isp( 0 -&gt; 1 )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:35 storage-80-101 kernel:
              block drbd13: updated sync uuid
              85C59D47AB684CF0:0000000000000000:86CC6F103DB64E5A:86CB6F103DB64E5B</font></div>
          <div><font size="1">May &nbsp;1 10:00:35 storage-80-101 kernel:
              block drbd13: helper command: /sbin/drbdadm
              before-resync-target minor-13</font></div>
          <div><font size="1">May &nbsp;1 10:00:35 storage-80-101 kernel:
              block drbd13: helper command: /sbin/drbdadm
              before-resync-target minor-13 exit code 0 (0x0)</font></div>
          <div><font size="1">May &nbsp;1 10:00:35 storage-80-101 kernel:
              block drbd13: conn( Behind -&gt; PausedSyncT ) disk(
              Outdated -&gt; Inconsistent )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:35 storage-80-101 kernel:
              block drbd13: Began resync as PausedSyncT (will sync 7860
              KB [1965 bits set]).</font></div>
          <div><font size="1">May &nbsp;1 10:00:36 storage-80-101 kernel:
              block drbd13: conn( PausedSyncT -&gt; Behind )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              block drbd13: peer_isp( 1 -&gt; 0 )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: peer( Primary -&gt; Unknown ) conn(
              Behind -&gt; TearDown ) pdsk( UpToDate -&gt; DUnknown )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: ack_receiver terminated</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: Terminating drbd_a_node-80-</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: Connection closed</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: conn( TearDown -&gt; Unconnected )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: receiver terminated</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: Restarting receiver thread</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: receiver (re)started</font></div>
          <div><font size="1">May &nbsp;1 10:00:37 storage-80-101 kernel:
              drbd node-80-13: conn( Unconnected -&gt; WFConnection )&nbsp;</font></div>
        </div>
        <div><br>
        </div>
        <div>And this is the failure from the BIG server's perspective:</div>
        <div><br>
        </div>
        <div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              drbd node-80-13: Handshake successful: Agreed network
              protocol version 101</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              drbd node-80-13: Feature flags enabled on protocol level:
              0x7 TRIM THIN_RESYNC WRITE_SAME.</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              drbd node-80-13: conn( WFConnection -&gt; WFReportParams
              )&nbsp;</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              drbd node-80-13: Starting ack_recv thread (from
              drbd_r_node-80- [9039])</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              block drbd13: drbd_sync_handshake:</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              block drbd13: self
              C38A5875B169C400:0000000000000000:0691DCE7CD1B204A:0690DCE7CD1B204B
              bits:0 flags:0</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              block drbd13: peer
              598C5E0CEB5F8A4D:C38A5875B169C401:0691DCE7CD1B204B:0690DCE7CD1B204B
              bits:44218 flags:0</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              block drbd13: uuid_compare()=-1 by rule 50</font></div>
          <div><font size="1">May &nbsp;1 10:52:33 storage-80-101 kernel:
              block drbd13: peer( Unknown -&gt; Primary ) conn(
              WFReportParams -&gt; WFBitMapT ) disk( UpToDate -&gt;
              Outdated ) pdsk( DUnknown -&gt; UpToDate ) peer_isp( 0
              -&gt; 1 )&nbsp;</font></div>
        </div>
        <div><br>
        </div>
        <div><b>CONFIGURATION DETAILS</b></div>
        <div><b><br>
          </b></div>
        <div>global_common.conf (for both small and big servers)</div>
        <div><br>
        </div>
        <div>
          <div><font size="2">global</font></div>
          <div><font size="2">{</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; usage-count yes;</font></div>
          <div><font size="2">}</font></div>
          <div><font size="2">common {</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; disk</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; {</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; resync-rate 200M;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; no-disk-barrier;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; al-extents 3389;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; disk-barrier no;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; }</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; syncer</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; {</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; rate 200M;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; }</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; net</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; {</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; protocol A;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; sndbuf-size 4000k;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; max-buffers 8000;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; max-epoch-size 8000;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; on-congestion pull-ahead;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; congestion-fill 3600k;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; congestion-extents 3000;</font></div>
          <div><font size="2">&nbsp; &nbsp; &nbsp; &nbsp; }</font></div>
          <div><font size="2">}</font></div>
        </div>
        <div><br>
        </div>
        <div>An example resource file:</div>
        <div><br>
        </div>
        <div>
          <div><font size="2">resource node-80-13</font></div>
          <div><font size="2">{</font></div>
          <div><font size="2">on small_server</font></div>
          <div><font size="2">{</font></div>
          <div><font size="2">&nbsp;device /dev/drbd13;</font></div>
          <div><font size="2">&nbsp;disk /dev/sda1;</font></div>
          <div><font size="2">&nbsp;address 10.80.1.13:8013;</font></div>
          <div><font size="2">&nbsp;meta-disk /dev/sdb2;</font></div>
          <div><font size="2">}</font></div>
          <div><font size="2">on big_server</font></div>
          <div><font size="2">{</font></div>
          <div><font size="2">&nbsp;device /dev/drbd13;</font></div>
          <div><font size="2">&nbsp;disk /dev/sda13;</font></div>
          <div><font size="2">&nbsp;address 10.80.1.101:8013;</font></div>
          <div><font size="2">&nbsp;meta-disk /dev/meta/node-80-13;</font></div>
          <div><font size="2">}</font></div>
          <div><font size="2">}</font></div>
        </div>
        <div><br>
        </div>
        <div><b>LAST COMMENTS</b></div>
        <div><br>
        </div>
        <div>We have experimented this problem for about 3 years, we
          have installed all DRBD releases from the 8.4.X branch &nbsp;during
          that time, but the problem remains.</div>
        <div><br>
        </div>
        <div>We have reduced the frequency of the problem by only
          running the backup process when Load Average, CPU usage and
          i/o are in low levels in the small servers. So our backup
          script checks all those parameters via SNMP before executing
          the sync process.</div>
        <div><br>
        </div>
        <div>If you need any additional information, please let me know.</div>
        <div><br>
        </div>
        <div>Thanks a lot for your time and help.</div>
        <div><br>
        </div>
        <div>Best regards,</div>
        <div><br>
        </div>
        <div>Miguel Castellanos</div>
        <style><!--
.ExternalClass .ecxhmmessage P {
padding:0px;
}

.ExternalClass body.ecxhmmessage {
font-size:12pt;
font-family:Calibri;
}


--></style> </div>
    </blockquote>
    <br>
    <div class="ecxmoz-signature"><br>
    </div></div><style><!--
.ExternalClass .ecxhmmessage P {
padding:0px;
}

.ExternalClass body.ecxhmmessage {
font-size:12pt;
font-family:Calibri;
}

--></style>                                               </div></body>
</html>