<div dir="ltr"><div>Hi,</div><div><br></div><div>In a Pacemaker 2 node cluster with dual-Primary DRBD(drbd84) with GFS2/DLM/CLVM setup following issue happens:</div><div><br></div><div>Steps:</div><div>---------</div><div>1) Successfully created Pacemaker 2 node cluster with DRBD master/slave resources integrated. </div><div>2) Cluster nodes: server4 and server7</div><div>3) The server4 node is rebooted.</div><div>4) When server4 comes Up the server7 is stonith&#39;d and is lost! The node server4 survives.</div><div><br></div><div>Problem:</div><div>-----------</div><div>Problem is #4 above, when server4 comes up why server7 is stonith&#39;d?</div><div><br></div><div>From surviving node server4 the DRBD logs seems to be OK: DRBD has moved to Connected/UpToDate state. Suddenly server7 is rebooted (stonithd/fenced) between time  00:47:35 &lt;--&gt; 00:47:42 in below logs.</div><div><br></div><div>/var/log/messages@server4</div><div>------------------------------------------------</div><div>May 10 00:47:35 server4 kernel: block drbd0: updated sync uuid 0594324E7C28AFF8:0000000000000000:D5926E3E7F02ED2F:0000000000000004</div><div>May 10 00:47:35 server4 kernel: block drbd0: helper command: /sbin/drbdadm before-resync-target minor-0</div><div>May 10 00:47:35 server4 kernel: block drbd0: helper command: /sbin/drbdadm before-resync-target minor-0 exit code 0 (0x0)</div><div>May 10 00:47:35 server4 kernel: block drbd0: conn( WFSyncUUID -&gt; SyncTarget ) disk( Outdated -&gt; Inconsistent )</div><div>May 10 00:47:35 server4 kernel: block drbd0: Began resync as SyncTarget (will sync 0 KB [0 bits set]).</div><div>May 10 00:47:35 server4 kernel: block drbd0: Resync done (total 1 sec; paused 0 sec; 0 K/sec)</div><div>May 10 00:47:35 server4 kernel: block drbd0: updated UUIDs DB4640C6B3831C4E:0000000000000000:0594324E7C28AFF8:0593324E7C28AFF9</div><div>May 10 00:47:35 server4 kernel: block drbd0: conn( SyncTarget -&gt; Connected ) disk( Inconsistent -&gt; UpToDate )</div><div>May 10 00:47:35 server4 kernel: block drbd0: helper command: /sbin/drbdadm after-resync-target minor-0</div><div>May 10 00:47:35 server4 crm-unfence-peer.sh[12985]: invoked for vDrbd</div><div>May 10 00:47:35 server4 crm-unfence-peer.sh[12985]: No constraint in place, nothing to do.</div><div>May 10 00:47:35 server4 kernel: block drbd0: helper command: /sbin/drbdadm after-resync-target minor-0 exit code 0 (0x0)</div><div>May 10 00:47:35 server4 crmd[12597]:  notice: Result of start operation for dlm on server4ha: 0 (ok)</div><div>May 10 00:47:35 server4 stonith-ng[12593]:  notice: vCluster-Stonith-server7ha can fence (reboot) server7ha: static-list</div><div>May 10 00:47:35 server4 stonith-ng[12593]:  notice: vCluster-Stonith-server7ha can fence (reboot) server7ha: static-list</div><div>May 10 00:47:35 server4 crmd[12597]:  notice: Result of notify operation for drbd_data on server4ha: 0 (ok)</div><div>May 10 00:47:41 server4 kernel: tg3 0000:02:00.1 em4: Link is down</div><div>May 10 00:47:42 server4 kernel: tg3 0000:02:00.0 em3: Link is down</div><div>May 10 00:47:42 server4 corosync[12570]: [TOTEM ] A processor failed, forming new configuration.</div><div>May 10 00:47:43 server4 stonith-ng[12593]:  notice: Operation &#39;reboot&#39; [13018] (call 2 from crmd.13562) for host &#39;server7ha&#39; with device &#39;vCluster-Stonith-server7ha&#39; returned: 0 (OK)</div><div>May 10 00:47:43 server4 corosync[12570]: [TOTEM ] A new membership (<a href="http://192.168.11.100:68">192.168.11.100:68</a>) was formed. Members left: 2</div><div>May 10 00:47:43 server4 corosync[12570]: [TOTEM ] Failed to receive the leave message. failed: 2</div><div>May 10 00:47:43 server4 attrd[12595]:  notice: Node server7ha state is now lost</div><div>May 10 00:47:43 server4 attrd[12595]:  notice: Removing all server7ha attributes for peer loss</div><div><br></div><div><br></div><div>CorosyncLogs@server4:</div><div>------------------------------------------</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_process_request:      Completed cib_modify operation for section status: OK (rc=0, origin=server4ha/crmd/23, version=0.34.68)</div><div>May 10 00:47:35 [12597] server4       crmd:     info: crmd_notify_complete:     Alert 8 (/usr/lib64/vPacemaker/alert_snmp.sh) complete</div><div>May 10 00:47:35 [12597] server4       crmd:     info: do_lrm_rsc_op:    Performing key=15:2:0:377224d5-7e3c-4e55-91ef-3bd5e00ab71e op=dlm_monitor_60000</div><div>May 10 00:47:35 [12597] server4       crmd:     info: do_lrm_rsc_op:    Performing key=69:2:0:377224d5-7e3c-4e55-91ef-3bd5e00ab71e op=drbd_data_notify_0</div><div>May 10 00:47:35 [12593] server4 stonith-ng:   notice: can_fence_host_with_device:       vCluster-Stonith-server7ha can fence (reboot) server7ha: static-list</div><div>May 10 00:47:35 [12594] server4       lrmd:     info: log_execute:      executing - rsc:drbd_data action:notify call_id:36</div><div>May 10 00:47:35 [12593] server4 stonith-ng:   notice: can_fence_host_with_device:       vCluster-Stonith-server7ha can fence (reboot) server7ha: static-list</div><div>May 10 00:47:35 [12593] server4 stonith-ng:     info: stonith_fence_get_devices_cb:     Found 1 matching devices for &#39;server7ha&#39;</div><div>May 10 00:47:35 [12597] server4       crmd:     info: process_lrm_event:        Result of monitor operation for dlm on server4ha: 0 (ok) | call=35 key=dlm_monitor_60000 confirmed=false cib-update=24</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_process_request:      Forwarding cib_modify operation for section status to all (origin=local/crmd/24)</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_perform_op:   Diff: --- 0.34.68 2</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_perform_op:   Diff: +++ 0.34.69 (null)</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_perform_op:   +  /cib:  @num_updates=69</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_perform_op:   ++ /cib/status/node_state[@id=&#39;1&#39;]/lrm[@id=&#39;1&#39;]/lrm_resources/lrm_resource[@id=&#39;dlm&#39;]:  &lt;lrm_rsc_op id=&quot;dlm_monitor_60000&quot; operation_key=&quot;dlm_monitor_60000&quot; operation=&quot;monitor&quot; crm-debug-origin=&quot;do_update_resource&quot; crm_feature_set=&quot;3.0.10&quot; transition-key=&quot;15:2:0:377224d5-7e3c-4e55-91ef-3bd5e00ab71e&quot; transition-magic=&quot;0:0;15:2:0:377224d5-7e3c-4e55-91ef-3bd5e00ab71e&quot; on_node=&quot;server4ha&quot; call-id=&quot;35&quot; rc-code=&quot;0&quot; op-status=&quot;0&quot; interval=&quot;6000</div><div>May 10 00:47:35 [12592] server4        cib:     info: cib_process_request:      Completed cib_modify operation for section status: OK (rc=0, origin=server4ha/crmd/24, version=0.34.69)</div><div>May 10 00:47:35 [12597] server4       crmd:     info: crmd_notify_complete:     Alert 9 (/usr/lib64/vPacemaker/alert_snmp.sh) complete</div><div>May 10 00:47:35 [12594] server4       lrmd:     info: log_finished:     finished - rsc:drbd_data action:notify call_id:36 pid:13017 exit-code:0 exec-time:39ms queue-time:0ms</div><div>May 10 00:47:35 [12597] server4       crmd:   notice: process_lrm_event:        Result of notify operation for drbd_data on server4ha: 0 (ok) | call=36 key=drbd_data_notify_0 confirmed=true cib-update=0</div><div>May 10 00:47:35 [12597] server4       crmd:     info: crmd_notify_complete:     Alert 10 (/usr/lib64/vPacemaker/alert_snmp.sh) complete</div><div>May 10 00:47:36 [12597] server4       crmd:     info: crm_update_peer_expected: handle_request: Node server7ha[2] - expected state is now down (was member)</div><div><br></div><div><br></div><div>Pacemaker Status before reboot:</div><div>-------------------------------------------------------</div><div><div>[root@server4 ~]# pcs status </div><div>Cluster name: vCluster</div><div>Stack: corosync</div><div>Current DC: server4ha (version 1.1.15-11.el7_3.4-e174ec8) - partition with quorum</div><div>Last updated: Tue May  9 23:40:36 2017          Last change: Tue May  9 18:28:32 2017 by root via cibadmin on server4ha</div><div><br></div><div>2 nodes and 9 resources configured</div><div><br></div><div>Online: [ server4ha server7ha ]</div><div><br></div><div>Full list of resources:</div><div><br></div><div> vCluster-VirtualIP-10.168.10.199       (ocf::heartbeat:IPaddr2):       Started server4ha</div><div> vCluster-Stonith-server4ha     (stonith:fence_ipmilan):        Started server7ha</div><div> vCluster-Stonith-server7ha     (stonith:fence_ipmilan):        Started server4ha</div><div> Clone Set: dlm-clone [dlm]</div><div>     Started: [ server4ha server7ha ]</div><div> Clone Set: clvmd-clone [clvmd]</div><div>     Started: [ server4ha server7ha ]</div><div> Master/Slave Set: drbd_data_clone [drbd_data]</div><div>     Masters: [ server4ha server7ha ]</div><div><br></div><div>Daemon Status:</div><div>  corosync: active/disabled</div><div>  pacemaker: active/disabled</div><div>  pcsd: active/enabled</div></div><div><br></div><div><br></div><div>Env:</div><div>---------</div><div>CentOS 7.3</div><div><div>kmod-drbd84-8.4.9-1.el7.elrepo.x86_64</div><div>drbd84-utils-8.9.8-1.el7.elrepo.x86_64</div></div><div>pacemaker-cluster-libs-1.1.15-11.el7_3.4.x86_64<br></div><div>pacemaker-1.1.15-11.el7_3.4.x86_64</div><div><div>corosync-2.4.0-4.el7.x86_64</div></div><div>pcs-0.9.152-10.el7.centos.3.x86_64<br></div><div><div>gfs2-utils-3.1.9-3.el7.x86_64</div><div>lvm2-cluster-2.02.166-1.el7_3.4.x86_64</div></div><div><br></div><div><br></div><div>Attaching resource files.</div><div><br></div><div><br></div><div>Thanks,</div><div>Raman</div></div>