Hello,<br><br>I do futher investigation.<br><br>1. All of hardware firmwares are up to date so far but nothing has changed. All of tcp offload features are disabled for all of 4 ethernet controllers.<br>2. I have created a small script for comparing out-of-sync blocks:<br>
------------------------------------------------------------------------<br>#!/bin/bash<br><br>#echo &#39;Mar 31 10:24:04 virt1 kernel: block drbd0: Out of sync: start=1036171232, size=8 (sectors)&#39; <br>while read line; do<br>
        if [[ $line =~ Out\ of\ sync:\ start=([0-9]+),\ size=([0-9]+) ]]; then<br>                start=${BASH_REMATCH[1]}<br>                size=${BASH_REMATCH[2]}<br>                echo $start - $size<br>                sum1=$(ssh 10.1.2.1 dd iflag=direct if=/dev/drbd0 bs=512 skip=$start count=$size 2&gt;/dev/null &lt; /dev/null | md5sum | awk &#39;{print $1}&#39;)<br>
                sum2=$(ssh 10.1.2.2 dd iflag=direct if=/dev/drbd0 bs=512 skip=$start count=$size 2&gt;/dev/null &lt; /dev/null | md5sum | awk &#39;{print $1}&#39;)<br>                if [[ $sum1 = $sum2 ]]; then<br>                        echo OK: $sum1 - $sum2<br>
                else<br>                        echo ERR: $sum1 - $sum2<br>                        ssh 10.1.2.1 dd iflag=direct if=/dev/drbd0 bs=512 skip=$start count=$size 2&gt;/dev/null &lt; /dev/null &gt; /tmp/${start}_${size}_1<br>
                        ssh 10.1.2.2 dd iflag=direct if=/dev/drbd0 bs=512 skip=$start count=$size 2&gt;/dev/null &lt; /dev/null &gt; /tmp/${start}_${size}_2<br>                fi<br>        fi<br>done<br>------------------------------------------------------------------------<br>
Comaring found only couple of matches and a lot of differs<br>3. Todays out-of-sync blocks are related to VM number 109. I did the following:<br>- turned off this VM<br>- copy logical volume to file:<br>dd if=/dev/drbd-lvm-0/vm-109-disk-1 of=/tmp/vm-109-disk-1 bs=1M<br>
- copy logical volume back from file:<br>dd if=/tmp/vm-109-disk-1 of=/dev/drbd-lvm-0/vm-109-disk-1 bs=1M<br>4. Run comparing script again and the script shows that all blocks are matched<br>(that is very good because I don&#39;t need to stop any of dual-master nodes and don&#39;t need to have a risk to make a wrong way sync, in the worst case (if both of nodes have VMs with out-of-sync blocks) I can&#39;t even do that without loosing data)<br>
<br>Next step -&gt; I&#39;ll try to remove  (physically) one connection from my RR bondning and leave only one of them. And then will wait for new verifying results.<br><br>Any ideas so far?<br><br>Regards,<br>Stanislav<br>