<div dir="ltr"><div><div>Hi,</div><div><br></div><div>Problem: <br></div></div><div>-----------------</div><div>In Pacemaker GFS2 DRBD dual-Primary setup, before the initial syncing between the 2 nodes was complete one node accidentally got shutdown (server4) i.e. while initial DRBD syncing from server4 --&gt; server7 was going on the server4 crashed. The server7 was left in Inconsistent state.</div><div><br></div><div>On surviving node (server7) I could see errors in /var/log/messages: </div><div><br></div><div>Apr  2 00:41:04 server7 kernel: block drbd0: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:04 server7 kernel: block drbd0:   state = { cs:SyncTarget ro:Primary/Secondary ds:Inconsistent/UpToDate r----- }</div><div>Apr  2 00:41:04 server7 kernel: block drbd0:  wanted = { cs:TearDown ro:Primary/Unknown ds:Inconsistent/Outdated r----- }</div><div>Apr  2 00:41:04 server7 kernel: drbd vDrbd: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:04 server7 kernel: drbd vDrbd:  mask = 0x1e1f0 val = 0xa070</div><div>Apr  2 00:41:04 server7 kernel: drbd vDrbd:  old_conn:WFReportParams wanted_conn:TearDown</div><div>Apr  2 00:41:05 server7 kernel: block drbd0: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:05 server7 kernel: block drbd0:   state = { cs:SyncTarget ro:Primary/Secondary ds:Inconsistent/UpToDate r----- }</div><div>Apr  2 00:41:05 server7 kernel: block drbd0:  wanted = { cs:TearDown ro:Primary/Unknown ds:Inconsistent/DUnknown s---F- }</div><div>Apr  2 00:41:05 server7 kernel: drbd vDrbd: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:05 server7 kernel: drbd vDrbd:  mask = 0x1f0 val = 0x70</div><div>Apr  2 00:41:05 server7 kernel: drbd vDrbd:  old_conn:WFReportParams wanted_conn:TearDown</div><div>Apr  2 00:41:05 server7 kernel: block drbd0: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:05 server7 kernel: block drbd0:   state = { cs:SyncTarget ro:Primary/Secondary ds:Inconsistent/UpToDate r----- }</div><div>Apr  2 00:41:05 server7 kernel: block drbd0:  wanted = { cs:TearDown ro:Primary/Unknown ds:Inconsistent/Outdated r----- }</div><div>Apr  2 00:41:05 server7 kernel: drbd vDrbd: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:05 server7 kernel: drbd vDrbd:  mask = 0x1e1f0 val = 0xa070</div><div>Apr  2 00:41:05 server7 kernel: drbd vDrbd:  old_conn:WFReportParams wanted_conn:TearDown</div><div>Apr  2 00:41:06 server7 kernel: block drbd0: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:06 server7 kernel: block drbd0:   state = { cs:SyncTarget ro:Primary/Secondary ds:Inconsistent/UpToDate r----- }</div><div>Apr  2 00:41:06 server7 kernel: block drbd0:  wanted = { cs:TearDown ro:Primary/Unknown ds:Inconsistent/DUnknown s---F- }</div><div>Apr  2 00:41:06 server7 kernel: drbd vDrbd: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:06 server7 kernel: drbd vDrbd:  mask = 0x1f0 val = 0x70</div><div>Apr  2 00:41:06 server7 kernel: drbd vDrbd:  old_conn:WFReportParams wanted_conn:TearDown</div><div>Apr  2 00:41:06 server7 kernel: block drbd0: State change failed: Need access to UpToDate data</div><div>Apr  2 00:41:06 server7 kernel: block drbd0:   state = { cs:SyncTarget ro:Primary/Secondary ds:Inconsistent/UpToDate r----- }</div><div>Apr  2 00:41:06 server7 kernel: block drbd0:  wanted = { cs:TearDown ro:Primary/Unknown ds:Inconsistent/Outdated r----- }</div><div>Apr  2 00:41:06 server7 kernel: drbd vDrbd: State change failed: Need access to UpToDate data</div><div><br></div><div><br></div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: PingAck did not arrive in time.</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: peer( Secondary -&gt; Unknown ) conn( SyncTarget -&gt; NetworkFailure ) pdsk( UpToDate -&gt; DUnknown ) susp( 0 -&gt; 1 )</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: helper command: /sbin/drbdadm pri-on-incon-degr minor-0</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: helper command: /sbin/drbdadm pri-on-incon-degr minor-0 exit code 0 (0x0)</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: ack_receiver terminated</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: Terminating drbd_a_vDrbd</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: Connection closed</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: conn( NetworkFailure -&gt; Unconnected )</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: receiver terminated</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: Restarting receiver thread</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: receiver (re)started</div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: conn( Unconnected -&gt; WFConnection )</div><div><b>Apr  2 00:41:22 server7 kernel: drbd vDrbd: Not fencing peer, I&#39;m not even Consistent myself.</b></div><div>Apr  2 00:41:22 server7 kernel: drbd vDrbd: susp( 1 -&gt; 0 )</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: IO ERROR: neither local nor remote data, sector 0+0</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: IO ERROR: neither local nor remote data, sector 344936+8</div><div>Apr  2 00:41:22 server7 kernel: GFS2: fsid=vCluster:vGFS2.1: Error -5 writing to log</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: IO ERROR: neither local nor remote data, sector 344944+24</div><div>Apr  2 00:41:22 server7 kernel: GFS2: fsid=vCluster:vGFS2.1: Error -5 writing to log</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: IO ERROR: neither local nor remote data, sector 0+0</div><div>Apr  2 00:41:22 server7 kernel: block drbd0: IO ERROR: neither local nor remote data, sector 344968+8</div><div>Apr  2 00:41:22 server7 kernel: GFS2: fsid=vCluster:vGFS2.1: Error -5 writing to log</div><div>Apr  2 00:41:22 server7 kernel: Buffer I/O error on dev dm-0, logical block 66218, lost async page write</div><div>Apr  2 00:41:22 server7 kernel: GFS2: fsid=vCluster:vGFS2.1: Error -5 writing to log</div><div>Apr  2 00:41:22 server7 kernel: GFS2: fsid=vCluster:vGFS2.1: Error -5 writing to log</div><div><br></div><div><br></div><div>DRBD state on surviving node server7</div><div>------------------------------<wbr>------------------------------<wbr>---</div><div><div>version: 8.4.9-1 (api:1/proto:86-101)</div><div>GIT-hash: 9976da086367a2476503ef7f6b13d4<wbr>567327a280 build by akemi@Build64R7, 2016-12-04 01:08:48</div><div> 0: cs:WFConnection ro:Primary/Unknown ds:Inconsistent/DUnknown C r-----</div><div>    ns:3414 nr:1438774 dw:1441849 dr:72701144 al:25 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:29623116</div><div><br></div></div><div><br></div><div>Question:</div><div>------------------</div><div>Are these serious in nature? </div><div>When crashed node comes UP again and joins cluster will it cause any problem? </div><div>How this can be avoided if a node crashes before sync completes?</div><div><br></div><div><div><br></div><div>Env:</div><div>---------</div><div>CentOS 7.3</div><div>DRBD 8.4 </div><div>gfs2-utils-3.1.9-3.el7.x86_64<br></div><div>Pacemaker 1.1.15-11.el7_3.4<br></div><div><br></div></div><div><br></div><div>Pacemaker:</div><div>---------------------</div><div><div>[root@server7 ~]# pcs status</div><div>Cluster name: vCluster</div><div>Stack: corosync</div><div>Current DC: server7ha (version 1.1.15-11.el7_3.4-e174ec8) - partition with quorum</div><div>Last updated: Sun Apr  2 01:01:43 2017          Last change: Sun Apr  2 00:28:39 2017 by root via cibadmin on server4ha</div><div><br></div><div>2 nodes and 9 resources configured</div><div><br></div><div>Online: [ server7ha ]</div><div>OFFLINE: [ server4ha ]</div><div><br></div><div>Full list of resources:</div><div><br></div><div> vCluster-VirtualIP-10.168.10.<wbr>199       (ocf::heartbeat:IPaddr2):       Started server7ha</div><div> vCluster-Stonith-server7ha     (stonith:fence_ipmilan):        Stopped</div><div> vCluster-Stonith-server4ha     (stonith:fence_ipmilan):        Started server7ha</div><div> Clone Set: dlm-clone [dlm]</div><div>     Started: [ server7ha ]</div><div>     Stopped: [ server4ha ]</div><div> Clone Set: clvmd-clone [clvmd]</div><div>     Started: [ server7ha ]</div><div>     Stopped: [ server4ha ]</div><div> Master/Slave Set: drbd_data_clone [drbd_data]</div><div>     Masters: [ server7ha ]</div><div>     Stopped: [ server4ha ]</div><div><br></div><div>Daemon Status:</div><div>  corosync: active/disabled</div><div>  pacemaker: active/disabled</div><div>  pcsd: active/enabled</div><div>[root@server7 ~]# </div></div><div><br></div><div><br></div><div>Attaching DRBD config files.</div><div><br></div><div><br></div><div>--Raman</div></div>