<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Tahoma
}
--></style>
</head>
<body class='hmmessage'>
<BR>Reply inline<BR>
Thanks and Regards<BR>Lak<BR><BR>&nbsp;<BR>
&gt; Date: Tue, 7 Sep 2010 15:15:07 +0200<BR>&gt; From: lars.ellenberg@linbit.com<BR>&gt; To: drbd-user@lists.linbit.com<BR>&gt; Subject: Re: [DRBD-user] File corruption in drbd partition<BR>&gt; <BR>&gt; On Tue, Sep 07, 2010 at 12:12:08PM +0000, putcha narayana wrote:<BR>&gt; &gt; <BR>&gt; &gt; Thanks for responding,<BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; FYI: I have ran stat command to get details of the files whose data is<BR>&gt; &gt; seen criss-crossing. I mean content of one file is seen in another.<BR>&gt; &gt; Snapshot enclosed at the end, when corruption occured.<BR>&gt; &gt; <BR>&gt; &gt; Files which have an issue belong to same block, IO Block: 4096 <BR>&gt; <BR>&gt; No, that is the file size in occupied blocks.<BR>&gt; <BR>&gt; &gt; Every corruption seen, content of /repl/firewall/sysconfig/iptables content is seen in /repl/snmpagent/data/snmpd.conf<BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; How much is "few"?<BR>&gt; &gt; <BR>&gt; &gt; Today After 12 failovers. Last run after 80 failovers similar corruption is seen.<BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; What is the IO load?<BR>&gt; &gt; <BR>&gt; &gt; Note exactly sure, When sigterm is received there are 2 processes which write config data to DRBD partition.<BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; How do you trigger the failover?<BR>&gt; &gt; <BR>&gt; &gt; using reboot command<BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; DRBD version, kernel version, file system type?<BR>&gt; &gt; <BR>&gt; &gt; DRBD-8.0.16, 2.6.14.7, EXT3-FS<BR>&gt; &gt; <BR>&gt; &gt; <BR>&gt; &gt; Volatile caches involved?<BR>&gt; &gt; <BR>&gt; &gt; NO<BR>&gt; &gt; How often/when do you fsck?<BR>&gt; &gt; <BR>&gt; &gt; Every time DRBD-GO-Primary script is called. Before mounting DRBD partition we invoke fsck -fy<BR>&gt; <BR>&gt; That is you do<BR>&gt; primary; fsck /dev/drbd0; mount;<BR>&gt; in that order?<BR>
[[LAK]]: Yes <BR>&gt; <BR>&gt; The observerd corruption may be caused by a lot of things.<BR>&gt; DRBD (in that version) may have an issue.<BR>&gt; ext3 (in your kernel version) may have an issue.<BR>&gt; the generic write-out path (in your kernel version) may have an issue.<BR>&gt; fsck (resp. your version of fsck) may have an issue.<BR>&gt; probably many other things I cannot think of right now ;-)<BR>&gt; <BR>&gt; I suggest to repeat your tests with<BR>&gt; * no drbd involved, simply reboot a single box the same way you do now,<BR>&gt; force fsck before the mount.<BR>
[[LAK]]: We have same&nbsp;setup, single board no drbd. Only diff is newer kernel.&nbsp;No corruption seen in that.<BR>
<BR>&gt; * more recent kernel (and distribution?)<BR>&gt; * more recent DRBD version (8.3.8.1) in your current setup<BR>
[[LAK]]: Unfortunately we cannot do this immediately. <BR>
<BR>&gt; * more recent DRBD version with newer kernel (and distribution)<BR>[[LAK]]: I have seen in the mailing list people reported, on DRBD-8.3.x&nbsp;"<B><FONT color=#0000ff size=2><FONT color=#0000ff size=2>I shall become SyncTarget, but I am primary" <BR>
</B></FONT></FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;To this some on replied that DRBD network is being shutdown too fast.<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; may be similar thing is happening in our case which eventually resulted in corruption (may be!). <BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Does DRBD provide any options to protect against such corruption, say partial writes,.... lock the disk for writes????<BR>
&nbsp;<BR>
&nbsp;<BR>
<BR>&gt; To get additional data points.<BR>&gt; <BR>&gt; &gt; &gt; Date: Tue, 7 Sep 2010 12:16:59 +0200<BR>&gt; &gt; &gt; From: lars.ellenberg@linbit.com<BR>&gt; &gt; &gt; To: drbd-user@lists.linbit.com<BR>&gt; &gt; &gt; Subject: Re: [DRBD-user] File corruption in drbd partition<BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; On Tue, Sep 07, 2010 at 09:35:48AM +0000, putcha narayana wrote:<BR>&gt; &gt; &gt; &gt; <BR>&gt; &gt; &gt; &gt; Hi,<BR>&gt; &gt; &gt; &gt; <BR>&gt; &gt; &gt; &gt; We are running continuous failovers on a redundant setup (Active / Standby).<BR>&gt; &gt; &gt; &gt; After few failovers we observe content of file x appears inside file y.<BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; How much is "few"?<BR>&gt; &gt; &gt; What is the IO load?<BR>&gt; &gt; &gt; How do you trigger the failover?<BR>&gt; &gt; &gt; DRBD version, kernel version, file system type?<BR>&gt; &gt; &gt; Volatile caches involved?<BR>&gt; &gt; &gt; How often/when do you fsck?<BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; &gt; In one particular case we observed inode corruption, when fsck command is run on /repl partition.<BR>&gt; &gt; &gt; &gt; Multiply-claimed block(s) in inode 28: 1233 1249 1251 1252<BR>&gt; &gt; &gt; &gt; Multiply-claimed block(s) in inode 1183: 1251 1252<BR>&gt; &gt; &gt; &gt; Multiply-claimed block(s) in inode 1184: 1233<BR>&gt; &gt; &gt; &gt; Multiply-claimed block(s) in inode 1185: 1249<BR>&gt; &gt; &gt; &gt; <BR>&gt; &gt; &gt; &gt; When fsck -fy is run on /repl partition then the end result is content of file x is seen in file y.<BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; -- <BR>&gt; &gt; &gt; : Lars Ellenberg<BR>&gt; &gt; &gt; : LINBIT | Your Way to High Availability<BR>&gt; &gt; &gt; : DRBD/HA support and consulting http://www.linbit.com<BR>&gt; &gt; &gt; <BR>&gt; &gt; &gt; DRBD® and LINBIT® are registered trademarks of LINBIT, Austria.<BR>&gt; &gt; &gt; __<BR>&gt; &gt; &gt; please don't Cc me, but send to list -- I'm subscribed<BR>&gt; &gt; &gt; _______________________________________________<BR>&gt; &gt; &gt; drbd-user mailing list<BR>&gt; &gt; &gt; drbd-user@lists.linbit.com<BR>&gt; &gt; &gt; http://lists.linbit.com/mailman/listinfo/drbd-user<BR>&gt; &gt; <BR>&gt; <BR>&gt; &gt; _______________________________________________<BR>&gt; &gt; drbd-user mailing list<BR>&gt; &gt; drbd-user@lists.linbit.com<BR>&gt; &gt; http://lists.linbit.com/mailman/listinfo/drbd-user<BR>&gt; <BR>&gt; <BR>&gt; -- <BR>&gt; : Lars Ellenberg<BR>&gt; : LINBIT | Your Way to High Availability<BR>&gt; : DRBD/HA support and consulting http://www.linbit.com<BR>&gt; <BR>&gt; DRBD® and LINBIT® are registered trademarks of LINBIT, Austria.<BR>&gt; __<BR>&gt; please don't Cc me, but send to list -- I'm subscribed<BR>&gt; _______________________________________________<BR>&gt; drbd-user mailing list<BR>&gt; drbd-user@lists.linbit.com<BR>&gt; http://lists.linbit.com/mailman/listinfo/drbd-user<BR><BR>                                               </body>
</html>