<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
<pre wrap="">
&gt;Serial console?
&gt;Netconsole?
&gt;Logs?

Which logs are you interested about, it is the first time I'm seriously troubleshooting DRBD problem.
The /var/log/messages. just stops having messages on the time of the freeze (see snippet below). is there some debug level I can increase for DRBD?


&gt;Network stress tests not using DRBD?
&gt;General stress tests?
&gt;Memtest?

The problem happens on the "production lan" as well on a 4 port "1Gig staging switch". iperf shows in all cases normal values.
The problems happens on Fujitsu Siemens server RX200/RX300. The total of Fujistu Siemens Servers having this problem is 6 in total. Other servers I have installed do not have this problem. The Fujistu Siemens server have onboard Broadcom interfaces "NIC: NetXtreme II BCM5708 Gigabit Ethernet".
</pre>
<br>
---------- /var/log/messages on the target machine --------------<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: PingAck did not
arrive in time.<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: peer( Secondary
-&gt; Unknown ) conn( Connected -&gt; NetworkFailure ) pdsk( UpToDate
-&gt; DUnknown )<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: asender terminated<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: Terminating asender
thread<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: short read expecting
header on sock: r=-512<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: Connection closed<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: conn( NetworkFailure
-&gt; Unconnected )<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: receiver terminated<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: Restarting receiver
thread<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: receiver (re)started<br>
Sep 25 11:33:13 Cluster3Node1 kernel: block drbd2: conn( Unconnected
-&gt; WFConnection )<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: PingAck did not
arrive in time.<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: peer( Primary -&gt;
Unknown ) conn( Connected -&gt; NetworkFailure ) pdsk( UpToDate -&gt;
DUnknown )<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: asender terminated<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: Terminating asender
thread<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: short read expecting
header on sock: r=-512<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: Connection closed<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: conn( NetworkFailure
-&gt; Unconnected )<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: receiver terminated<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: Restarting receiver
thread<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: receiver (re)started<br>
Sep 25 11:33:19 Cluster3Node1 kernel: block drbd0: conn( Unconnected
-&gt; WFConnection )<br>
---------- here it is frozen -------------------------------<br>
---------- /var/log/messages on the target machine --------------<br>
Here it stop until the booting messages of the reboot show up.<br>
<br>
mfg,<br>
<br>
jeroen.<br>
<br>
Lars Ellenberg wrote:
<blockquote cite="mid:20090925114852.GC8032@barkeeper1-xen.linbit"
 type="cite">
  <pre wrap="">On Fri, Sep 25, 2009 at 01:10:24PM +0200, Jeroen Groenewegen van der Weyden wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">Anybody?

The same seems to happen with 8.3.3RC2. although the error is either to  
freeze the system or the system disconnects all network interfaces. 
Anybody?

mfg,

jeroen

Jeroen Groenewegen van der Weyden wrote:
    </pre>
    <blockquote type="cite">
      <pre wrap="">Hello,

I have a problem when full syncing with drbd the target machine  
freezes. scenario is simple whenever a full sync is made manual or  
automaticly the syncing is stalled after some time. after the syncing  
reaches the stalled states a view moments later the target machine  
freeze entirely.

OpenSuse 11.1
kernel 2.6.27.21-0.1-xen #
drbd 8.3.1

NIC: NetXtreme II BCM5708 Gigabit Ethernet

On the Source Machine:
cat /proc/drbd
version: 8.3.1 (api:88/proto:86-89)
GIT-hash: fd40f4a8f9104941537d1afc8521e584a6d3003c build by  
root@DefaultNode, 2009-04-27 11:34:17
0: cs:SyncSource ro:Primary/Secondary ds:UpToDate/Inconsistent C r----
   ns:324524 nr:0 dw:110988 dr:689400 al:263 bm:242 lo:0 pe:2131  
ua:978 ap:36 ep:1 wo:b oos:1635880
       [==&gt;.................] sync'ed: 16.4% (1635880/1951768)K
       stalled

How to find out what is happening here?
      </pre>
    </blockquote>
  </blockquote>
  <pre wrap=""><!---->
Serial console?
Netconsole?
Logs?

Network stress tests not using DRBD?
General stress tests?
Memtest?

  </pre>
  <blockquote type="cite">
    <blockquote type="cite">
      <pre wrap="">(and prevent it in the future.)
      </pre>
    </blockquote>
  </blockquote>
  <pre wrap=""><!---->
  </pre>
  <pre wrap="">
<hr size="4" width="90%">

No virus found in this incoming message.
Checked by AVG - <a class="moz-txt-link-abbreviated" href="http://www.avg.com">www.avg.com</a> 
Version: 8.5.409 / Virus Database: 270.13.112/2393 - Release Date: 09/24/09 18:00:00

  </pre>
</blockquote>
<br>
</body>
</html>