<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.26.3">
</HEAD>
<BODY>
Hello all again.<BR>
<BR>
In continuation to the bellow described issue, with integrity check enabled, I used to get a crash at least once per 24 hours.<BR>
<BR>
Now I have integrity check disabled and the cluster is running without crashes for the last 9 days.<BR>
<BR>
Could someone kindly provide some hints for the possible reasons&nbsp; of this observed behavior?<BR>
<BR>
Off-loading is disabled on both dedicated gigabit NICs.<BR>
<BR>
Also is integrity-check really needed (I have read the documentation :) ) if it keeps on breaking the cluster?<BR>
<BR>
Thank you All for your time.<BR>
<BR>
Theophanis Kontogiannis<BR>
<BR>
<BR>
On Tue, 2009-10-20 at 20:31 +0300, Theophanis Kontogiannis wrote:<BR>
<BLOCKQUOTE TYPE=CITE>
    Hello all,<BR>
    <BR>
    Eventually I managed to get a log during DRBD crash.<BR>
    <BR>
    I have a two nodes RHEL5.3 cluster with 2.6.18-164.el5xen and drbd-8.3.1-3&nbsp; self compiled.<BR>
    <BR>
    Both nodes have a dedicated 1G ethernet back to back connection over RTL8169sb/8110sb cards.<BR>
    <BR>
    When I run applications, that constantly read or write to the disks (active/active config), drbd kept on crashing.<BR>
    <BR>
    Now I have the logs for the reason of that:<BR>
    <BR>
    <BR>
    ______________________<BR>
    ON TWEETY1<BR>
    <BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Digest integrity check FAILED.<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Digest integrity check FAILED.<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: error receiving Data, l: 540!<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: error receiving Data, l: 540!<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: peer( Primary -&gt; Unknown ) conn( Connected -&gt; ProtocolError ) pdsk( UpToDate -&gt; DUnknown ) susp( 0 -&gt; 1 ) <BR>
    Oct 20 15:46:52 localhost kernel: drbd2: peer( Primary -&gt; Unknown ) conn( Connected -&gt; ProtocolError ) pdsk( UpToDate -&gt; DUnknown ) susp( 0 -&gt; 1 ) <BR>
    Oct 20 15:46:52 localhost kernel: drbd2: asender terminated<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: asender terminated<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Terminating asender thread<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Terminating asender thread<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Creating new current UUID<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Creating new current UUID<BR>
    Oct 20 15:46:52 localhost clurgmgrd: [4161]: &lt;info&gt; Executing /etc/init.d/drbd status <BR>
    Oct 20 15:46:52 localhost clurgmgrd: [4161]: &lt;info&gt; Executing /etc/init.d/drbd status <BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Connection closed<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Connection closed<BR>
    <BR>
    ___________________________<BR>
    <BR>
    ON TWEETY2<BR>
    <BR>
    <BR>
    Oct 20 15:46:52 localhost kernel: drbd2: sock was reset by peer<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: peer( Primary -&gt; Unknown ) conn( Connected -&gt; BrokenPipe ) pdsk( UpToDate -&gt; DUnknown ) susp( 0 -&gt; 1 ) <BR>
    Oct 20 15:46:52 localhost kernel: drbd2: short read expecting header on sock: r=-104<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: meta connection shut down by peer.<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: asender terminated<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Terminating asender thread<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Creating new current UUID<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: Connection closed<BR>
    Oct 20 15:46:52 localhost kernel: drbd2: helper command: /sbin/drbdadm fence-peer minor-2<BR>
    <BR>
    ____________________<BR>
    <BR>
    <BR>
    DRBD.CONF<BR>
    <BR>
    <BR>
    #<BR>
    # drbd.conf<BR>
    #<BR>
    <BR>
    <BR>
    global {<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; usage-count yes;<BR>
    }<BR>
    <BR>
    <BR>
    common {<BR>
    <BR>
    &nbsp; protocol C;<BR>
    <BR>
    &nbsp; syncer {<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; rate 100M;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; al-extents 257;<BR>
    &nbsp; }<BR>
    <BR>
    &nbsp; <BR>
    handlers {<BR>
    &nbsp;&nbsp;&nbsp; <BR>
    &nbsp;&nbsp;&nbsp; pri-on-incon-degr &quot;echo b &gt; /proc/sysrq-trigger ; reboot -f&quot;;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; pri-lost-after-sb &quot;echo b &gt; /proc/sysrq-trigger ; reboot -f&quot;;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; local-io-error &quot;echo o &gt; /proc/sysrq-trigger ; halt -f&quot;;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; outdate-peer &quot;/sbin/obliterate&quot;;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; pri-lost &quot;echo pri-lost. Have a look at the log files. | mail -s 'DRBD Alert' root; echo b &gt; /proc/sysrq-trigger ; reboot -f&quot;;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; split-brain &quot;echo split-brain. drbdadm -- --discard-my-data connect $DRBD_RESOURCE ? | mail -s 'DRBD Alert' root&quot;;<BR>
    <BR>
    &nbsp; }<BR>
    <BR>
    &nbsp; startup {<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp; wfc-timeout&nbsp; 60;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; degr-wfc-timeout 60;&nbsp;&nbsp;&nbsp; # 1 minutes.<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; become-primary-on both;<BR>
    <BR>
    &nbsp; }<BR>
    <BR>
    &nbsp; disk {<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; fencing resource-and-stonith;<BR>
    <BR>
    <BR>
    &nbsp; }<BR>
    <BR>
    &nbsp; net {<BR>
    &nbsp;&nbsp;&nbsp; <BR>
    &nbsp;&nbsp;&nbsp;&nbsp; sndbuf-size 512k;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp; timeout&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 60;&nbsp;&nbsp;&nbsp; #&nbsp; 6 seconds&nbsp; (unit = 0.1 seconds)<BR>
    &nbsp;&nbsp;&nbsp;&nbsp; connect-int&nbsp;&nbsp; 10;&nbsp;&nbsp;&nbsp; # 10 seconds&nbsp; (unit = 1 second)<BR>
    &nbsp;&nbsp;&nbsp;&nbsp; ping-int&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10;&nbsp;&nbsp;&nbsp; # 10 seconds&nbsp; (unit = 1 second)<BR>
    &nbsp;&nbsp;&nbsp;&nbsp; ping-timeout&nbsp; 50;&nbsp;&nbsp;&nbsp; # 500 ms (unit = 0.1 seconds)<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp; max-buffers&nbsp;&nbsp;&nbsp;&nbsp; 2048;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp; max-epoch-size&nbsp; 2048;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp; ko-count 10;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; allow-two-primaries;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cram-hmac-alg &quot;sha1&quot;;<BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; shared-secret &quot;*****&quot;;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; after-sb-0pri discard-least-changes;<BR>
    <BR>
    &nbsp;&nbsp;&nbsp; after-sb-1pri violently-as0p;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; after-sb-2pri violently-as0p;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; rr-conflict call-pri-lost;<BR>
    <BR>
    <BR>
    &nbsp;&nbsp;&nbsp; data-integrity-alg &quot;crc32c&quot;;<BR>
    <BR>
    &nbsp; }<BR>
    <BR>
    <BR>
    }<BR>
    <BR>
    <BR>
    resource r0 {<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; device&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /dev/drbd0;<BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; disk&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /dev/hda4;<BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; meta-disk&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; internal;<BR>
    <BR>
    on tweety-1 { address&nbsp;&nbsp; 10.254.254.253:7788; }<BR>
    <BR>
    on tweety-2 { address&nbsp;&nbsp; 10.254.254.254:7788; }<BR>
    <BR>
    }<BR>
    <BR>
    resource r1 {<BR>
    <BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; device&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /dev/drbd1;<BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; disk&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /dev/hdb4;<BR>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; meta-disk&nbsp;&nbsp;&nbsp;&nbsp; internal;<BR>
    <BR>
    &nbsp; on tweety-1 { address&nbsp; 10.254.254.253:7789; }<BR>
    <BR>
    &nbsp; on tweety-2 { address&nbsp; 10.254.254.254:7789; }<BR>
    }<BR>
    <BR>
    resource r2 {<BR>
    <BR>
    device /dev/drbd2;<BR>
    disk /dev/sda1;<BR>
    meta-disk internal;<BR>
    <BR>
    &nbsp; on tweety-1 { address&nbsp; 10.254.254.253:7790; }<BR>
    <BR>
    &nbsp; on tweety-2 { address&nbsp; 10.254.254.254:7790; }<BR>
    }<BR>
    <BR>
    _________<BR>
    <BR>
    Also available in <A HREF="http://pastebin.ca/1633173">http://pastebin.ca/1633173</A><BR>
    <BR>
    <BR>
    How can I solve this?<BR>
    <BR>
    Thank you All for your time.<BR>
    <BR>
    <BR>
</BLOCKQUOTE>
</BODY>
</HTML>