[DRBD-user] secondary : disconnected/standalone/diskeless after hard or soft failover

Sun Nov 13 16:57:08 CET 2011

Just solved it myself ;-). 
Was caused by some spaghetti loops on collocation and orders between all the
HA services i had defined and the drbd master slave resource.
Cleaned it up and only left it connected (collocation/order) for my
filesystem and all and voila.
Some final test i i will take it live. 
One more happy user ;-)

glennv wrote:
> 
> Strange issue , where failovers work fine (eg target node gets drbd
> resource and becomes primary) , but always on the demoted node  (in case
> of soft failover, or after reboot with hard failover) the state goes to
> standalone/diskless en the connection to disconnected.
> 
> I f i attach the status is up to date and if i recoonect all is fine. But
> this should happen by itself i would guess.
> 
> Her the logs of both node when i switched the primary (tc-clust-node2)
> into standby to force a soft failover (at time of failover all working /
> in sync and connected).
> 
> Node 1:
> 
> Nov 13 11:14:32 tc-clust-node1 kernel: [39253.500845] block drbd0: 0 KB (0
> bits) marked out-of-sync by on disk bit-map.
> Nov 13 11:44:44 tc-clust-node1 kernel: [41060.826926] block drbd0: peer(
> Primary -> Secondary ) 
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.221535] block drbd0: peer(
> Secondary -> Unknown ) conn( Connected -> TearDown ) pdsk( UpToDate ->
> DUnknown ) 
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.222924] block drbd0: meta
> connection shut down by peer.
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.223102] block drbd0: asender
> terminated
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.223104] block drbd0:
> Terminating drbd0_asender
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.229057] block drbd0:
> Connection closed
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.229061] block drbd0: conn(
> TearDown -> Unconnected ) 
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.229074] block drbd0:
> receiver terminated
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.229076] block drbd0:
> Restarting drbd0_receiver
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.229078] block drbd0:
> receiver (re)started
> Nov 13 11:44:44 tc-clust-node1 kernel: [41061.229085] block drbd0: conn(
> Unconnected -> WFConnection ) 
> Nov 13 11:44:52 tc-clust-node1 kernel: [41069.209354] block drbd0: role(
> Secondary -> Primary ) 
> Nov 13 11:44:52 tc-clust-node1 kernel: [41069.210184] block drbd0: new
> current UUID
> B3D74927D90C7E51:79320606C1B287AA:A957752722C2BDC8:A956752722C2BDC8
> Nov 13 11:44:54 tc-clust-node1 kernel: [41071.279517] EXT4-fs (drbd0):
> mounted filesystem with ordered data mode. Opts: (null)
> 
> Node 2:
> 
> Nov 13 11:14:29 tc-clust-node2 kernel: [39332.699456] block drbd0: 0 KB (0
> bits) marked out-of-sync by on disk bit-map.
> Nov 13 11:44:40 tc-clust-node2 kernel: [41143.308506] block drbd0: role(
> Primary -> Secondary ) 
> Nov 13 11:44:40 tc-clust-node2 kernel: [41143.308573] block drbd0: bitmap
> WRITE of 0 pages took 0 jiffies
> Nov 13 11:44:40 tc-clust-node2 kernel: [41143.308581] block drbd0: 0 KB (0
> bits) marked out-of-sync by on disk bit-map.
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.711739] block drbd0: peer(
> Secondary -> Unknown ) conn( Connected -> Disconnecting ) pdsk( UpToDate
> -> DUnknown ) 
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712118] block drbd0: asender
> terminated
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712121] block drbd0:
> Terminating drbd0_asender
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712428] block drbd0:
> Connection closed
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712439] block drbd0: conn(
> Disconnecting -> StandAlone ) 
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712601] block drbd0:
> receiver terminated
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712603] block drbd0:
> Terminating drbd0_receiver
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712651] block drbd0: disk(
> UpToDate -> Failed ) 
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712671] block drbd0: Sending
> state for detaching disk failed
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712757] block drbd0: disk(
> Failed -> Diskless ) 
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712793] block drbd0:
> drbd_bm_resize called with capacity == 0
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712818] block drbd0: worker
> terminated
> Nov 13 11:44:41 tc-clust-node2 kernel: [41143.712819] block drbd0:
> Terminating drbd0_worker
> 
> 
> Versions : 
> drbd : 8.3.11 (api:88/proto 86-96)
> Kernel : 20-Ubuntu SMP Fri Oct 7, 3.0.0-12-generic-pae
> Pacemaker 1.1.5
> Heartbeat 3.0.5 
> 
> Config :
> global {
> 		usage-count	yes;
> }
> 
> common {
> 	startup {
> 		degr-wfc-timeout	0;
> 	}
> 
> 	net {
> 		cram-hmac-alg	sha1;
> 		shared-secret	qOuS3AD1vI72FCmaCqaUcXFArBRpPFVV;
> 	}
> 
> 	disk {
> 		on-io-error	 detach;
> 	}
> 
> }
> 
> resource r0 {
> 	protocol	C;
> 
> 	disk {
> 		on-io-error 	pass_on;
> 	}
> 
> 	syncer {
> 		rate	40M;
> 	}
> 
> 	on tc-clust-node1 {
> 		device		/dev/drbd0;
> 		disk		        /dev/vg00/lvmaildata;
> 		flexible-meta-disk	/dev/sdc;
> 		address		10.10.10.20:7788;
> 	}
> 	on tc-clust-node2 {
> 		device		/dev/drbd0;
> 		disk		        /dev/vg00/lvmaildata;
> 		flexible-meta-disk	/dev/sdc;
> 		address		10.10.10.21:7788;
> 	}
> }
> 
> 

-- 
View this message in context: http://old.nabble.com/secondary-%3A-disconnected-standalone-diskeless-after-hard-or-soft-failover-tp32834559p32835444.html
Sent from the DRBD - User mailing list archive at Nabble.com.