<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.12.0">
</HEAD>
<BODY>
I'm not sure where to start on this one. I've been working with drbd and heartbeat, trying to track down an issue where one of the two nodes doesn't fail over resources correctly when heartbeat is shutdown. I uncovered that at some point drbd stopped talking across my dedicated network link, and even manually I cannot get the two nodes to see each other through drbd. Pings across the network link work fine in both directions. I have completely unloaded and reloaded the drbd modules from the kernel, which had corrected this issue the last time I saw it, but it didn't correct it this time. I've rebooted one of the nodes, but I'm not in a position where I can reboot the other yet (other activity on the other node requires scheduling the reboot). Can someone point me down a troubleshooting road to determine why drbd doesn't reconnect? Here's how the /proc/drbd files look after I've done the usual (modprobe drbd; service drbd start;) set of commands:<BR>
<BR>
Node1<BR>
<TT>[root@arc-dknightlx ~]# modprobe drbd</TT><BR>
<TT>[root@arc-dknightlx ~]# service drbd start</TT><BR>
<TT>Starting DRBD resources:&nbsp;&nbsp;&nbsp; [ d0 s0 n0 ].</TT><BR>
<TT>..........</TT><BR>
<TT>***************************************************************</TT><BR>
<TT> DRBD's startup script waits for the peer node(s) to appear.</TT><BR>
<TT> - In case this node was already a degraded cluster before the</TT><BR>
<TT>&nbsp;&nbsp; reboot the timeout is 60 seconds. [degr-wfc-timeout]</TT><BR>
<TT> - If the peer was available before the reboot the timeout will</TT><BR>
<TT>&nbsp;&nbsp; expire after 0 seconds. [wfc-timeout]</TT><BR>
<TT>&nbsp;&nbsp; (These values are for resource 'pgsql'; 0 sec -&gt; wait forever)</TT><BR>
<TT> To abort waiting enter 'yes' [&nbsp; 12]:yes</TT><BR>
<BR>
<TT>[root@arc-dknightlx ~]# cat /proc/drbd</TT><BR>
<TT>version: 8.0.1 (api:86/proto:86)</TT><BR>
<TT>SVN Revision: 2784 build by root@arc-dknightlx, 2007-04-23 13:19:33</TT><BR>
<TT> 0: cs:WFConnection st:Secondary/Unknown ds:UpToDate/DUnknown C r---</TT><BR>
<TT>&nbsp;&nbsp;&nbsp; ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0</TT><BR>
<TT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resync: used:0/31 hits:0 misses:0 starving:0 dirty:0 changed:0</TT><BR>
<TT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; act_log: used:0/257 hits:0 misses:0 starving:0 dirty:0 changed:0</TT><BR>
<BR>
<BR>
Node2<BR>
<TT>[root@arc-tkincaidlx log]# modprobe drbd</TT><BR>
<TT>[root@arc-tkincaidlx log]# service drbd start</TT><BR>
<TT>Starting DRBD resources:&nbsp;&nbsp;&nbsp; [ d0 s0 n0 ].</TT><BR>
<TT>..........</TT><BR>
<TT>***************************************************************</TT><BR>
<TT> DRBD's startup script waits for the peer node(s) to appear.</TT><BR>
<TT> - In case this node was already a degraded cluster before the</TT><BR>
<TT>&nbsp;&nbsp; reboot the timeout is 60 seconds. [degr-wfc-timeout]</TT><BR>
<TT> - If the peer was available before the reboot the timeout will</TT><BR>
<TT>&nbsp;&nbsp; expire after 0 seconds. [wfc-timeout]</TT><BR>
<TT>&nbsp;&nbsp; (These values are for resource 'pgsql'; 0 sec -&gt; wait forever)</TT><BR>
<TT> To abort waiting enter 'yes' [&nbsp; 12]:yes</TT><BR>
<BR>
<TT>[root@arc-tkincaidlx log]# cat /proc/drbd</TT><BR>
<TT>version: 8.0.1 (api:86/proto:86)</TT><BR>
<TT>SVN Revision: 2784 build by root@arc-tkincaidlx.wsicorp.com, 2007-04-23 13:20:47</TT><BR>
<TT> 0: cs:StandAlone st:Secondary/Unknown ds:UpToDate/DUnknown&nbsp;&nbsp; r---</TT><BR>
<TT>&nbsp;&nbsp;&nbsp; ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0</TT><BR>
<TT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resync: used:0/31 hits:0 misses:0 starving:0 dirty:0 changed:0</TT><BR>
<TT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; act_log: used:0/257 hits:0 misses:0 starving:0 dirty:0 changed:0</TT><BR>
<BR>
Any help would be greatly appreciated.
</BODY>
</HTML>