<div dir="ltr"><div><div><div>I had a strange problem yesterday. The I/O on the primary node blocked after the secondary node had a storage problem and became diskless. There was no storage problem on the primary node (at least from what I can see from /var/log/messages). The processes writing to the disk became stuck at 100% iowait and a reboot several hours later would hang as the DRBD device was held open by the stuck processes.<br>Has anyone seen this behaviour before? Any idea what can be done to avoid such problems?<br></div><br>OS: RHEL 6. kernel 2.6.32-431.23.3.el6.x86_64<br></div><div>DRBD version 8.4.5<br></div><div>/var/log/messages on primary node:<br></div><div><br>Aug  6 09:35:34 NODE01 kernel: block drbd0: Remote failed to finish a request within ko-count * timeout<br>Aug  6 09:35:34 NODE01 kernel: block drbd0: peer( Secondary -&gt; Unknown ) conn( Connected -&gt; Timeout ) pdsk( UpToDate -&gt; DUnknown ) <br>Aug  6 09:35:34 NODE01 kernel: block drbd0: new current UUID 9523C48040E0780D:1A58D0763AAC64A9:86E5804984394CE1:86E4804984394CE1<br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: asender terminated<br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: Terminating drbd_a_repdata<br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: Connection closed<br>Aug  6 09:35:34 NODE01 kernel: block drbd0: conn( Timeout -&gt; Unconnected ) <br>Aug  6 09:35:34 NODE01 kernel: block drbd1: peer( Secondary -&gt; Unknown ) conn( Connected -&gt; Unconnected ) pdsk( UpToDate -&gt; DUnknown ) <br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: receiver terminated<br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: Restarting receiver thread<br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: receiver (re)started<br>Aug  6 09:35:34 NODE01 kernel: drbd repdata: conn( Unconnected -&gt; WFConnection ) <br>Aug  6 09:35:34 NODE01 kernel: block drbd1: new current UUID 51EBC6BE2F2729CD:9591EC68BC51A519:E4656A33D9A47115:E4646A33D9A47115<br>Aug  6 09:37:41 NODE01 kernel: drbd repdata: Handshake successful: Agreed network protocol version 101<br>Aug  6 09:37:41 NODE01 kernel: drbd repdata: Agreed to support TRIM on protocol level<br>Aug  6 09:37:41 NODE01 kernel: drbd repdata: Peer authenticated using 20 bytes HMAC<br>Aug  6 09:37:41 NODE01 kernel: drbd repdata: conn( WFConnection -&gt; WFReportParams ) <br>Aug  6 09:37:41 NODE01 kernel: drbd repdata: Starting asender thread (from drbd_r_repdata [2707])<br>Aug  6 09:37:41 NODE01 kernel: block drbd0: peer( Unknown -&gt; Secondary ) conn( WFReportParams -&gt; Connected ) pdsk( DUnknown -&gt; Diskless ) <br>Aug  6 09:39:23 NODE01 kernel: INFO: task jbd2/drbd1-8:9509 blocked for more than 120 seconds.<br>Aug  6 09:39:23 NODE01 kernel:      Not tainted 2.6.32-431.23.3.el6.x86_64 #1<br>Aug  6 09:39:23 NODE01 kernel: &quot;echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs&quot; disables this message.<br>Aug  6 09:39:23 NODE01 kernel: jbd2/drbd1-8  D 0000000000000001     0  9509      2 0x00000080<br>Aug  6 09:39:23 NODE01 kernel: ffff88086e7e5c20 0000000000000046 0000000000000000 ffff88086e7e5be4<br>Aug  6 09:39:23 NODE01 kernel: 0000000000000000 ffff88087fc24400 ffff880028256840 0000000000000400<br>Aug  6 09:39:23 NODE01 kernel: ffff88086d1f85f8 ffff88086e7e5fd8 000000000000fbc8 ffff88086d1f85f8<br>Aug  6 09:39:23 NODE01 kernel: Call Trace:<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff811bfae0&gt;] ? sync_buffer+0x0/0x50<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff81529393&gt;] io_schedule+0x73/0xc0<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff811bfb20&gt;] sync_buffer+0x40/0x50<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff81529e5f&gt;] __wait_on_bit+0x5f/0x90<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff811bfae0&gt;] ? sync_buffer+0x0/0x50<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff81529f08&gt;] out_of_line_wait_on_bit+0x78/0x90<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff8109b020&gt;] ? wake_bit_function+0x0/0x50<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff811bfad6&gt;] __wait_on_buffer+0x26/0x30<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffffa014e7f1&gt;] jbd2_journal_commit_transaction+0x1181/0x1500 [jbd2]<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff810096f0&gt;] ? __switch_to+0xd0/0x320<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff81084a1b&gt;] ? try_to_del_timer_sync+0x7b/0xe0<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffffa0153a48&gt;] kjournald2+0xb8/0x220 [jbd2]<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff8109afa0&gt;] ? autoremove_wake_function+0x0/0x40<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffffa0153990&gt;] ? kjournald2+0x0/0x220 [jbd2]<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff8109abf6&gt;] kthread+0x96/0xa0<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff8100c20a&gt;] child_rip+0xa/0x20<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff8109ab60&gt;] ? kthread+0x0/0xa0<br>Aug  6 09:39:23 NODE01 kernel: [&lt;ffffffff8100c200&gt;] ? child_rip+0x0/0x20<br>Aug  6 09:39:23 NODE01 kernel: INFO: task oracle:9573 blocked for more than 120 seconds.<br>Aug  6 09:39:23 NODE01 kernel:      Not tainted 2.6.32-431.23.3.el6.x86_64 #1<br><br></div><br></div>Radu<br></div>