<div dir="ltr"><div dir="ltr"><div class="gmail_default" style="font-size:small"><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, May 17, 2021 at 4:22 PM Marco Fais <<a href="mailto:evilmf@gmail.com">evilmf@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi,<div><br></div><div>I am having significant issues with glustershd with releases 8.4 and 9.1.</div><div><br></div><div>My oVirt clusters are using gluster storage backends, and were running fine with Gluster 7.x (shipped with earlier versions of oVirt Node 4.4.x). Recently the oVirt project moved to Gluster 8.4 for the nodes, and hence I have moved to this release when upgrading my clusters.</div><div><br></div><div>Since then I am having issues whenever one of the nodes is brought down; when the nodes come back up online the bricks are typically back up and working, but some (random) glustershd processes in the various nodes seem to have issues connecting to some of them.</div><div><br></div></div></blockquote><div><span class="gmail_default" style="font-size:small"><br></span></div><div><span class="gmail_default" style="font-size:small">When the issue happens, can you check if the TCP port number of the brick (glusterfsd) processes displayed in `gluster volume status` matches with that of the actual port numbers observed (i.e. the --brick-port argument) when you run `ps aux | grep glusterfsd` ? If they don't match, then glusterd has incorrect brick port information in its memory and serving it to glustershd. Restarting glusterd instead of (killing the bricks + `volume start force`) should fix it, although we need to find why glusterd serves incorrect port numbers. </span></div><div><br></div><div>If they do match, then <span class="gmail_default" style="font-size:small">can you </span>take a statedump of glustershd to check that it is indeed disconnected from the bricks<span class="gmail_default" style="font-size:small">? You will need to verify that 'connected=1' in the statedump. See "Self-heal is stuck/ not getting completed." section in <a href="https://docs.gluster.org/en/latest/Troubleshooting/troubleshooting-afr/">https://docs.gluster.org/en/latest/Troubleshooting/troubleshooting-afr/</a>. Statedump can be taken by `kill -SIGUSR1 $pid-of-glustershd`. It will be generated in the /var/run/gluster/ directory.</span></div><div><br></div><div>Regards,<br></div><div><span class="gmail_default" style="font-size:small">Ravi </span></div><div><span class="gmail_default" style="font-size:small"><br></span></div><div><span class="gmail_default" style="font-size:small"><br></span></div><div><span class="gmail_default" style="font-size:small"></span></div></div></div>