<div dir="ltr">Hi all,<div><br></div><div>We have been observing a critical issue that started in the last several months and has 

already

randomly affected our servers 3 times.</div><div><br></div><div><br></div><div><b>The symptoms:</b></div><div><ul><li>df stops responding and hangs</li><li>sometimes apache and nginx stop responding and all requests hang, sometimes they continue working, though nginx returns incomplete results</li></ul><div>Upon investigating the issue when it happened again today, I narrowed it down to glusterfs and specifically one of the fuse mount processes.</div><div><br></div><div>df freezes like this:<br>stat(&quot;/run/user/0&quot;, {stmode=SIFDIR|0700, stsize=100, …}) = 0<br>stat(&quot;/var/run/user/0&quot;, {stmode=SIFDIR|0700, stsize=100, …}) = 0<br>stat(&quot;/run/user/1000&quot;, {stmode=SIFDIR|0700, stsize=80, …}) = 0<br>stat(&quot;/var/run/user/1000&quot;, {stmode=SIFDIR|0700, stsize=80, …}) = 0<br>stat(&quot;/sys/kernel/debug/tracing&quot;, 0x7ffc32784ef0) = -1 EACCES (Permission denied)<br>stat(&quot;/mnt/androidpolicedata3&quot;, {stmode=SIFDIR|0755, stsize=4096, …}) = 0<br>stat(&quot;/mnt/apkmirror_data1&quot;, ^C^C^C^C^C<br><br>/mnt/apkmirrordata1 is a fuse mount by glusterfs corresponding to this attached block device:<br>/dev/disk/by-id/scsi-0LinodeVolumehiveblock1 /mnt/hive_block1 xfs defaults 0 2<br><br>It&#39;s pretty crazy that any access to this /mnt/apkmirror_data1 location freezes any program issuing the stat call indefinitely.<br><br>During this time, the block device itself was reachable and I could list files, so I have to assume the issue lies somewhere in glusterfs, fuse, or the kernel.<br><br>After killing this process<br>root 9485 1 6 Apr30 ? 18:36:26 /usr/sbin/glusterfs --process-name fuse --volfile-server=localhost --volfile-id=/apkmirrordata1 /mnt/apkmirrordata1<br>and remounting the fuse mount, everything returned back to normal.<br><br></div><div>One of my suspicions is the issue started when we upgraded our OpenSUSE 15.1 machines from 5.1.17 kernel to 5.4.10. Machines with 5.1.17 haven&#39;t experienced it, while only machines running 5.4.10 did. It took 15 days after the last reboot to hit the issue today, so it&#39;s very sporadic, but also very critical when it does hit.<br></div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><br></div><div dir="ltr"><br></div><div><b>Questions:</b></div><div><ol><li>How can we tell what specific fuse version is being used by gluster?</li><li>Are there any gluster or fuse parameters that control the fuse timeout, so that perhaps it internally tries to remount if fuse hangs?<br>Currently, it&#39;s mounted like this:<br>localhost:/apkmirror_data1 /mnt/apkmirror_data1 glusterfs defaults,_netdev 0 0<br></li><li>Does the team have any further thoughts or perhaps someone knows how to fix the issue or has seen a kernel or fuse/gluster advisory?</li></ol></div><div dir="ltr"><div></div></div><div dir="ltr">Thank you.<br></div><div><br></div><div dir="ltr">Sincerely,<br>Artem<br><br>--<br>Founder, <a href="http://www.androidpolice.com" target="_blank">Android Police</a>, <a href="http://www.apkmirror.com/" style="font-size:12.8px" target="_blank">APK Mirror</a><span style="font-size:12.8px">, Illogical Robot LLC</span></div><div dir="ltr"><a href="http://beerpla.net/" target="_blank">beerpla.net</a> | <a href="http://twitter.com/ArtemR" target="_blank">@ArtemR<br></a><br></div></div></div></div></div></div></div></div></div></div>