<div dir="ltr">Hi all,<div><br></div><div>Wondered if there are others in the community using GlusterFS on Google Compute Engine and Kubernetes via Google Container Engine together.</div><div><br></div><div>We&#39;re running glusterfs 3.7.6 on Ubuntu Xenial across 3 GCE nodes. We have a single replicated volume of ~800GB that our pods running in Kubernetes are mounting.</div><div><br></div><div>We&#39;ve observed a pattern of soft lockups on our Kubernetes nodes that mount our Gluster volume. These nodes seem to be those that have the highest rate of reads/writes to the Gluster volume.</div><div><br></div><div>An example looks like:</div><div><br></div><div><div><font face="monospace">[495498.074071] Kernel panic - not syncing: softlockup: hung tasks</font></div><div><font face="monospace">[495498.080108] CPU: 0 PID: 10166 Comm: nginx Tainted: G             L  4.4.64+ #1</font></div><div><font face="monospace">[495498.087524] Hardware name: Google Google Compute Engine/Google Compute Engine, BIOS Google 01/01/2011</font></div><div><font face="monospace">[495498.096947]  0000000000000000 ffff8803ffc03e20 ffffffffa1317394 ffffffffa1713537</font></div><div><font face="monospace">[495498.105113]  ffff8803ffc03eb0 ffff8803ffc03ea0 ffffffffa1139bbc 0000000000000008</font></div><div><font face="monospace">[495498.113187]  ffff8803ffc03eb0 ffff8803ffc03e48 000000000000009c 0000000000000000</font></div><div><font face="monospace">[495498.121488] Call Trace:</font></div><div><font face="monospace">[495498.124131]  &lt;IRQ&gt;  [&lt;ffffffffa1317394&gt;] dump_stack+0x63/0x8f</font></div><div><font face="monospace">[495498.130207]  [&lt;ffffffffa1139bbc&gt;] panic+0xc6/0x1ec</font></div><div><font face="monospace">[495498.135208]  [&lt;ffffffffa10f65a7&gt;] watchdog_timer_fn+0x1e7/0x1f0</font></div><div><font face="monospace">[495498.141327]  [&lt;ffffffffa10f63c0&gt;] ? watchdog+0xa0/0xa0</font></div><div><font face="monospace">[495498.146668]  [&lt;ffffffffa10b8f1f&gt;] __hrtimer_run_queues+0xff/0x260</font></div><div><font face="monospace">[495498.152959]  [&lt;ffffffffa10b93ec&gt;] hrtimer_interrupt+0xac/0x1b0</font></div><div><font face="monospace">[495498.158993]  [&lt;ffffffffa15b2918&gt;] smp_apic_timer_interrupt+0x68/0xa0</font></div><div><font face="monospace">[495498.167232]  [&lt;ffffffffa15b1222&gt;] apic_timer_interrupt+0x82/0x90</font></div><div><font face="monospace">[495498.173432]  &lt;EOI&gt;  [&lt;ffffffffa109a6d0&gt;] ? prepare_to_wait_exclusive+0x80/0x80</font></div><div><font face="monospace">[495498.182557]  [&lt;ffffffffc02e331f&gt;] ? 0xffffffffc02e331f</font></div><div><font face="monospace">[495498.187893]  [&lt;ffffffffa109a9e0&gt;] ? prepare_to_wait_event+0xf0/0xf0</font></div><div><font face="monospace">[495498.194357]  [&lt;ffffffffc02e3679&gt;] 0xffffffffc02e3679</font></div><div><font face="monospace">[495498.199519]  [&lt;ffffffffc02e723a&gt;] fuse_simple_request+0x11a/0x1e0 [fuse]</font></div><div><font face="monospace">[495498.206415]  [&lt;ffffffffc02e7f71&gt;] fuse_dev_cleanup+0xa81/0x1ef0 [fuse]</font></div><div><font face="monospace">[495498.213151]  [&lt;ffffffffa11b91a9&gt;] lookup_fast+0x249/0x330</font></div><div><font face="monospace">[495498.218748]  [&lt;ffffffffa11b95bd&gt;] walk_component+0x3d/0x500</font></div></div><div><font face="monospace"><br></font></div><div>While the particular issue seems more related to the Fuse client talking to Gluster, we&#39;re wondering if others have seen this type of behavior, if there are particular troubleshooting/tuning steps we might be advised to the take on the Gluster side of the problem, and if the community has any general tips around using Gluster and Kubernetes together.</div><div><br></div><div>Thanks in advance,<br>Travis Truman</div></div>