<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Nov 16, 2017 at 6:23 AM, Paul <span dir="ltr">&lt;<a href="mailto:flypen@gmail.com" target="_blank">flypen@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Hi,</div><div><br></div><div>I have a 5-nodes GlusterFS cluster with Distributed-Replicate. There are 180 bricks in total. The OS is CentOS6.5, and GlusterFS is 3.11.0. I find many bricks are offline when we generate some empty files and rename them. I see xfs call trace in every node. </div><div><br></div><div>For example,</div><div>Nov 16 11:15:12 node10 kernel: XFS (rdc00d28p2): Internal error xfs_trans_cancel at line 1948 of file fs/xfs/xfs_trans.c.  Caller 0xffffffffa04e33f9</div><div>Nov 16 11:15:12 node10 kernel:</div><div>Nov 16 11:15:12 node10 kernel: Pid: 9939, comm: glusterfsd Tainted: G           --------------- H  2.6.32-prsys.1.1.0.13.x86_64 #1</div><div>Nov 16 11:15:12 node10 kernel: Call Trace:</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffffa04c803f&gt;] ? xfs_error_report+0x3f/0x50 [xfs]</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffffa04e33f9&gt;] ? xfs_rename+0x2c9/0x6c0 [xfs]</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffffa04e5e39&gt;] ? xfs_trans_cancel+0xd9/0x100 [xfs]</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffffa04e33f9&gt;] ? xfs_rename+0x2c9/0x6c0 [xfs]</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff811962c5&gt;] ? mntput_no_expire+0x25/0xb0</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffffa04f5a06&gt;] ? xfs_vn_rename+0x66/0x70 [xfs]</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff81184580&gt;] ? vfs_rename+0x2a0/0x500</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff81182cd6&gt;] ? generic_permission+0x16/0xa0</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff811882d9&gt;] ? sys_renameat+0x369/0x420</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff81185f06&gt;] ? final_putname+0x26/0x50</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff81186189&gt;] ? putname+0x29/0x40</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff811861f9&gt;] ? user_path_at+0x59/0xa0</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff8151dc79&gt;] ? unroll_tree_refs+0x16/0xbc</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff810d1698&gt;] ? audit_syscall_entry+0x2d8/<wbr>0x300</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff811883ab&gt;] ? sys_rename+0x1b/0x20</div><div>Nov 16 11:15:12 node10 kernel: [&lt;ffffffff8100b032&gt;] ? system_call_fastpath+0x16/0x1b</div><div>Nov 16 11:15:12 node10 kernel: XFS (rdc00d28p2): xfs_do_force_shutdown(0x8) called from line 1949 of file fs/xfs/xfs_trans.c.  Return address = 0xffffffffa04e5e52</div><div>Nov 16 11:15:12 node10 kernel: XFS (rdc00d28p2): Corruption of in-memory data detected.  Shutting down filesystem</div><div>Nov 16 11:15:12 node10 kernel: XFS (rdc00d28p2): Please umount the filesystem and rectify the problem(s)</div><div>Nov 16 11:15:30 node10 disks-FAvUzxiL-brick[29742]: [2017-11-16 11:15:30.206208] M [MSGID: 113075] [posix-helpers.c:1891:posix_<wbr>health_check_thread_proc] 0-data-posix: health-check failed, going down</div><div>Nov 16 11:15:30 node10 disks-FAvUzxiL-brick[29742]: [2017-11-16 11:15:30.206538] M [MSGID: 113075] [posix-helpers.c:1908:posix_<wbr>health_check_thread_proc] 0-data-posix: still alive! -&gt; SIGTERM</div><div>Nov 16 11:15:37 node10 kernel: XFS (sdm): xfs_log_force: error 5 returned.</div><div>Nov 16 11:16:07 node10 kernel: XFS (sdm): xfs_log_force: error 5 returned.</div><div><br></div><div><br></div></div></blockquote><div><br></div><div><br></div><div>As the logs indicate, xfs shut down and the posix health check feature in Gluster rendered the brick offline. You would be better off checking with the xfs community about this problem.</div><div><br></div><div>Regards,</div><div>Vijay </div></div></div></div>