Hi, <div><br></div><div>I&#39;m getting kind of ashamed here. I already mentioned its an old setup, but, yeah - the whole process is to get it updated to latest kernel + upgrade the hardware... I&#39;m just curious about the specific issue, to know if its a flaw in the design. </div>

<div><br></div><div>So, GNU/Linux distribution is Debian-4.0, running under kernel 2.6.18-6-686-bigmem. The &#39;fileserver&#39; doesn&#39;t have XEN installed, but I&#39;m pretty sure my exported raw device from AoE are equivalent to your disks as files on NFS from I/O point of view. My export are through a single ethernet 1gbps link with no bonding installed (yet). </div>

<div><br></div><div>P.</div><div><br><br><div class="gmail_quote">On Tue, Aug 30, 2011 at 6:30 AM, Martin Rusko <span dir="ltr">&lt;<a href="mailto:martin.rusko@gmail.com">martin.rusko@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Pascal,<br>
<br>
what is the kernel and distribution you&#39;re running there, please? I&#39;m<br>
just curious, as I see somewhat similar behavior with two nodes<br>
running drbd, ocfs2, corosync+pacemaker and xen to host couple of<br>
virtual guests. As a proof-of-concept, I have some guests having disks<br>
as files on NFS mounted directory from external NFS server. If there<br>
is heavy IO in these virtual machines, I can observe very short drbd<br>
disconnections and also corosync complains about being paused for two<br>
long (up to 16seconds!, normally it sends some traffic over the<br>
network 3 times per second). When corosync is paused for as long as<br>
those 16 seconds, that node gets &quot;stonithed&quot; by remaining cluster<br>
members.<br>
<br>
My setup is Debian/Squeeze with packages from official repositories,<br>
with kernel 2.6.32-5-xen-amd64. I&#39;m still running around like headless<br>
chicken, trying different things, right now to run kernel with<br>
CONFIG_PREEMPT=y or maybe a different kernel version. Having some<br>
experience with linux kernel tracing, maybe it would be possible what<br>
blocks execution of drbd or corosync processes making them to start<br>
failing.<br>
<br>
Best Regards,<br>
Martin<br>
<div><div></div><div class="h5"><br>
<br>
<br>
On Sun, Aug 28, 2011 at 3:59 PM, Pascal Charest<br>
&lt;<a href="mailto:pascal.charest@labsphoenix.com">pascal.charest@labsphoenix.com</a>&gt; wrote:<br>
&gt; Hi,<br>
&gt; It always `worked` - it doesn&#39;t crash. Only the communication seem to get<br>
&gt; interrupted for a few seconds while backup are being taken. Backup are valid<br>
&gt; and the setup can survive with a few seconds where redundancy is not<br>
&gt; available.<br>
&gt; I should have asked that question when I build the setup 4 years ago, but...<br>
&gt; yeah... and now I&#39;m trying to fix everything up for that client.<br>
&gt; The broken communication seems to happen only when I&#39;m mounting the backup<br>
&gt; snapshot and taking RAR from it. Might be a problem on the AoE side of<br>
&gt; things along with a LVM snapshot.<br>
&gt;<br>
&gt; P.<br>
&gt;<br>
&gt; On Sun, Aug 28, 2011 at 9:18 AM, Pascal BERTON &lt;<a href="mailto:pascal.berton3@free.fr">pascal.berton3@free.fr</a>&gt;<br>
&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; Pascal,<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; One thing is unclear : did it used to work in the past (and if yes what<br>
&gt;&gt; has changed lately that could explain this behavior) or is it a new feature<br>
&gt;&gt; you’ve just added to your customer’s config ?<br>
&gt;&gt;<br>
&gt;&gt; Furthermore, I suspect you have scripted all this process haven’t you ? If<br>
&gt;&gt; so, have you identified which step induces this communication disruption?<br>
&gt;&gt; Have you tried to execute manually this sequence and then at what step does<br>
&gt;&gt; it happen ?<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Best regards,<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Pascal.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; De : <a href="mailto:drbd-user-bounces@lists.linbit.com">drbd-user-bounces@lists.linbit.com</a><br>
&gt;&gt; [mailto:<a href="mailto:drbd-user-bounces@lists.linbit.com">drbd-user-bounces@lists.linbit.com</a>] De la part de Pascal Charest<br>
&gt;&gt; Envoyé : samedi 27 août 2011 22:52<br>
&gt;&gt; À : <a href="mailto:drbd-user@lists.linbit.com">drbd-user@lists.linbit.com</a><br>
&gt;&gt; Objet : [DRBD-user] Frequent disconnect when doing backup.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi,<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; I have a small issue with one of my DRBD setup. When my backup is running<br>
&gt;&gt; (-see lower for setup and backup details), i`m getting those errors:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:24:18 pig-two -- MARK --<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: peer( Secondary -&gt; Unknown ) conn(<br>
&gt;&gt; Connected -&gt; NetworkFailure ) pdsk( UpToDate -&gt; DUnknown )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: asender terminated<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: Terminating asender thread<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: sock was reset by peer<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: _drbd_send_page: size=4096 len=3064<br>
&gt;&gt; sent=-32<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: Creating new current UUID<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: tl_clear()<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: Connection closed<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: conn( NetworkFailure -&gt; Unconnected<br>
&gt;&gt; )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: receiver terminated<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: receiver (re)started<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:26 pig-two kernel: drbd0: conn( Unconnected -&gt; WFConnection )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Handshake successful: Agreed<br>
&gt;&gt; network protocol version 88<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Peer authenticated using 20 bytes<br>
&gt;&gt; of &#39;sha1&#39; HMAC<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: conn( WFConnection -&gt;<br>
&gt;&gt; WFReportParams )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Starting asender thread (from<br>
&gt;&gt; drbd0_receiver [3066])<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: data-integrity-alg: md5<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: peer( Unknown -&gt; Secondary ) conn(<br>
&gt;&gt; WFReportParams -&gt; WFBitMapS ) pdsk( DUnknown -&gt; UpToDate )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: conn( WFBitMapS -&gt; SyncSource )<br>
&gt;&gt; pdsk( UpToDate -&gt; Inconsistent )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Began resync as SyncSource (will<br>
&gt;&gt; sync 2160 KB [540 bits set]).<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Resync done (total 1 sec; paused 0<br>
&gt;&gt; sec; 2160 K/sec)<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: conn( SyncSource -&gt; Connected )<br>
&gt;&gt; pdsk( Inconsistent -&gt; UpToDate )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:27:27 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 10:44:19 pig-two -- MARK --<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; and<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:04:19 pig-two -- MARK --<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:36 pig-two kernel: drbd0: _drbd_send_page: size=4096 len=4096<br>
&gt;&gt; sent=-104<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: peer( Secondary -&gt; Unknown ) conn(<br>
&gt;&gt; Connected -&gt; NetworkFailure ) pdsk( UpToDate -&gt; DUnknown )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Creating new current UUID<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: asender terminated<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Terminating asender thread<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: sock was shut down by peer<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: tl_clear()<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Connection closed<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: conn( NetworkFailure -&gt; Unconnected<br>
&gt;&gt; )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: receiver terminated<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: receiver (re)started<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: conn( Unconnected -&gt; WFConnection )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Handshake successful: Agreed<br>
&gt;&gt; network protocol version 88<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Peer authenticated using 20 bytes<br>
&gt;&gt; of &#39;sha1&#39; HMAC<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: conn( WFConnection -&gt;<br>
&gt;&gt; WFReportParams )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Starting asender thread (from<br>
&gt;&gt; drbd0_receiver [3066])<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: data-integrity-alg: md5<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: peer( Unknown -&gt; Secondary ) conn(<br>
&gt;&gt; WFReportParams -&gt; WFBitMapS ) pdsk( DUnknown -&gt; UpToDate )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: conn( WFBitMapS -&gt; SyncSource )<br>
&gt;&gt; pdsk( UpToDate -&gt; Inconsistent )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Began resync as SyncSource (will<br>
&gt;&gt; sync 5788 KB [1447 bits set]).<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Resync done (total 1 sec; paused 0<br>
&gt;&gt; sec; 5788 K/sec)<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: conn( SyncSource -&gt; Connected )<br>
&gt;&gt; pdsk( Inconsistent -&gt; UpToDate )<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:20:37 pig-two kernel: drbd0: Writing meta data super block now.<br>
&gt;&gt;<br>
&gt;&gt; Aug 27 11:44:19 pig-two -- MARK --<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Analysis: it look like the network is failing, then everything - under a<br>
&gt;&gt; second - re-connect, resync and work again. There are no impact on the<br>
&gt;&gt; &#39;production&#39;. Anyone got some kind of idea, why ? Is it an error in my<br>
&gt;&gt; setup/design (see lower).<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Some background on the setup:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; It&#39;s an old version. Very old in fact - roadmap to upgrade has been<br>
&gt;&gt; drafted and submitted to client - I`m just wondering about the specific<br>
&gt;&gt; issue here... I want to be sure it&#39;s not an infrastructure design problem.<br>
&gt;&gt;<br>
&gt;&gt; pig-two:~# cat /proc/drbd<br>
&gt;&gt;<br>
&gt;&gt; version: 8.2.6 (api:88/proto:86-88)<br>
&gt;&gt;<br>
&gt;&gt; GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by root@pig-two,<br>
&gt;&gt; 2008-08-19 15:02:28<br>
&gt;&gt;<br>
&gt;&gt;  0: cs:Connected st:Primary/Secondary ds:UpToDate/UpToDate C r---<br>
&gt;&gt;<br>
&gt;&gt;     ns:650469968 nr:0 dw:648856776 dr:16725553 al:5463958 bm:22571 lo:0<br>
&gt;&gt; pe:0 ua:0 ap:0 oos:0<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; We are speaking, of:<br>
&gt;&gt;<br>
&gt;&gt;  -   4x SAS 15k drives in a hardware raid-5 array (DELL<br>
&gt;&gt; Perc5)... presented to the OS as /dev/sda.<br>
&gt;&gt;<br>
&gt;&gt;  -   /dev/sda is the back-end device for DRBD... presented to the OS as<br>
&gt;&gt; /dev/drbd0<br>
&gt;&gt;<br>
&gt;&gt;  -   /dev/drbd0 is a lone &quot;physical volume&quot; in a volume group (called SAN)<br>
&gt;&gt; from which Logical Volume are created. Those are NOT locally mounted.<br>
&gt;&gt;<br>
&gt;&gt;  -   those logical volumes are exported with vblade (AoE protocol, layer<br>
&gt;&gt; 2) to some other physical system (Xen dom0) where they are used as backend<br>
&gt;&gt; device (/dev/etherd/e0.1) for root volume of virtual system<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Everything work fine, but when I do backup, I follow this process:<br>
&gt;&gt;<br>
&gt;&gt;  -  mount a CIFS exported share over the network<br>
&gt;&gt;<br>
&gt;&gt;  -  take a LV snapshot, mount it, and copy everything to the CIFS share.<br>
&gt;&gt;<br>
&gt;&gt;  -  unmount snapshot, delete it... do for all LV.<br>
&gt;&gt;<br>
&gt;&gt;  -  unmount network share<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; The backup are consistent and valid (tested)...  What have I missed ?<br>
&gt;&gt; Should I move away from AoE to a Linux based iSCSI ?<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; P.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt;<br>
&gt;&gt; Pascal Charest - Cutting-edge technology consultant<br>
&gt;&gt; <a href="https://www.labsphoenix.com" target="_blank">https://www.labsphoenix.com</a><br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; --<br>
&gt; Pascal Charest - Cutting-edge technology consultant<br>
&gt; Les Laboratoires Phoenix<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; drbd-user mailing list<br>
<div class="im">&gt; <a href="mailto:drbd-user@lists.linbit.com">drbd-user@lists.linbit.com</a><br>
</div>&gt; <a href="http://lists.linbit.com/mailman/listinfo/drbd-user" target="_blank">http://lists.linbit.com/mailman/listinfo/drbd-user</a><br>
&gt;<br>
&gt;<br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>--<div>Pascal Charest -<i> Cutting-edge technology consultant</i></div><div><a href="https://labsphoenix.com" target="_blank">Les Laboratoires Phoenix</a> </div>

<br>
</div>