<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
I had tried increasing the log level, but didn't find anything of note.</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
However, after trying a number of different things over the weekend, it turned out that simply starting and stopping the volume seemed to have fixed this.</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
It does then seem like a bug perhaps, or some confused state, given that it doesn't seem to be any issue with communication between nodes.&nbsp; I'm not really sure how to report it though, given that I don't have steps to reproduce, or much insight into what the
 cause might be from logging.<br>
</div>
<div id="appendonsend"></div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> Strahil &lt;hunter86_bg@yahoo.com&gt;<br>
<b>Sent:</b> Sunday, October 27, 2019 10:19 AM<br>
<b>To:</b> Timothy Orme &lt;torme@ancestry.com&gt;; gluster-users &lt;gluster-users@gluster.org&gt;<br>
<b>Subject:</b> [EXTERNAL] Re: Re: [Gluster-users] Remove Brick Rebalance Hangs With No Activity</font>
<div>&nbsp;</div>
</div>
<div>
<p dir="ltr">I guess you can increase loglevel ( check&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__access.redhat.com_documentation_en-2Dus_red-5Fhat-5Fgluster-5Fstorage_3_html_administration-5Fguide_configuring-5Fthe-5Flog-5Flevel&amp;d=DwMGaQ&amp;c=kKqjBR9KKWaWpMhASkPbOg&amp;r=d0SJB4ihnau-Oyws6GEzcipkV9DfxCuMbgdSRgXeuxM&amp;m=9egPta2lJ02rLk5KJSl3qn2mEUT8wQMfwioLnHY6a-s&amp;s=802zgGPyfRaCfnIIq-B8NSfcr7V2ie-0S4YLU2yPEpI&amp;e=">
https://access.redhat.com/documentation/en-us/red_hat_gluster_storage/3/html/administration_guide/configuring_the_log_level</a> )</p>
<p dir="ltr">Also, have you checked if new and old servers can communicate properly ?</p>
<p dir="ltr">Also consider a tcpdump (for a short time) on the problematic node&nbsp; can prove if communication is OK.</p>
<p dir="ltr">I would go with the logs first.</p>
<p dir="ltr">Best Regards,<br>
Strahil Nikolov</p>
<div class="x_quote">On Oct 26, 2019 20:25, Timothy Orme &lt;torme@ancestry.com&gt; wrote:<br type="attribution">
<blockquote class="x_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div dir="ltr">
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
Thats what I thought as well.&nbsp; All instances seem to be responding and alive according to the volume status.&nbsp; I also was able to run a `rebalance fix-layout` without any issues, so it seems that communication between the nodes is OK.&nbsp; I also tried replacing
 the <a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__10.158.10.1&amp;d=DwMGaQ&amp;c=kKqjBR9KKWaWpMhASkPbOg&amp;r=d0SJB4ihnau-Oyws6GEzcipkV9DfxCuMbgdSRgXeuxM&amp;m=9egPta2lJ02rLk5KJSl3qn2mEUT8wQMfwioLnHY6a-s&amp;s=A36clfcJL6IF2zIxCifcYh8D3F6cklL-hykkfB74Xos&amp;e=">
10.158.10.1</a> brick with an entirely new server since that seemed to be the common one between in the logs.&nbsp; Self heal ran just fine in that replica set.&nbsp; However, it still is just hanging on the removal when I try and then remove those bricks.</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
I might try and full rebalance as well, just to verify that it works.</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
Only other thing I can think to note is that I'm using SSL for both client and server, and maybe thats obfuscating some more important error message, but it would still seem odd given that other communication between the nodes is just fine.</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
Any other suggestions for things to try, or other log locations to check on?</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
Thanks,</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
Tim<br>
</div>
<div></div>
<hr style="display:inline-block; width:98%">
<div dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> Strahil &lt;hunter86_bg@yahoo.com&gt;<br>
<b>Sent:</b> Saturday, October 26, 2019 2:21 AM<br>
<b>To:</b> Timothy Orme &lt;torme@ancestry.com&gt;; gluster-users &lt;gluster-users@gluster.org&gt;<br>
<b>Subject:</b> [EXTERNAL] Re: [Gluster-users] Remove Brick Rebalance Hangs With No Activity</font>
<div>&nbsp;</div>
</div>
<div>
<p dir="ltr">According to logs there is some communucation problem.</p>
<p dir="ltr">Check that glusterd is running everywhere and every brick process has a pid &amp; port (gluster volume status should point any issues ).</p>
<p dir="ltr">Best Regards,<br>
Strahil Nikolov</p>
<div>On Oct 26, 2019 06:25, Timothy Orme &lt;torme@ancestry.com&gt; wrote:<br>
<blockquote style="margin:0 0 0 0.8ex; border-left:1px #ccc solid; padding-left:1ex">
<div dir="ltr">
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
It looks like this does eventually fail.&nbsp; At a bit of a loss at what to do here... At this point unable to remove any nodes from the cluster.&nbsp; Any help is greatly appreciated!<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
Here's the log from one of the nodes <br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
<br>
</div>
<div style="font-family:'calibri' ,'arial' ,'helvetica' ,sans-serif; font-size:12pt; color:rgb(0 ,0 ,0)">
</div>
[2019-10-26 01:54:35.912284] E [rpc-clnt.c:183:call_bail] 0-scratch-client-4: bailing out frame type(GlusterFS 4.x v1), op(INODELK(29)), xid = 0x38, unique = 0, sent = 2019-10-26 01:24:35.787361, timeout = 1800 for
<a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__10.158.10.2-3A49152&amp;d=DwMGaQ&amp;c=kKqjBR9KKWaWpMhASkPbOg&amp;r=d0SJB4ihnau-Oyws6GEzcipkV9DfxCuMbgdSRgXeuxM&amp;m=_vOnhjdfuMWECsVUDEHzP4-e90z9Xyvel2CXsbtzeWY&amp;s=ZfU7EXb4XCj6XngfxkJ2nNvAtgGeZt7M3NTn4rHpjcs&amp;e=">
</a><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__10.158.10.2-3A49152&amp;d=DwMGaQ&amp;c=kKqjBR9KKWaWpMhASkPbOg&amp;r=d0SJB4ihnau-Oyws6GEzcipkV9DfxCuMbgdSRgXeuxM&amp;m=9egPta2lJ02rLk5KJSl3qn2mEUT8wQMfwioLnHY6a-s&amp;s=49Ix65w5yipJpbcsCiWfUeN8dI7WBMiP25sET_iSeLo&amp;e=">10.158.10.2:49152</a><br>
<div>[2019-10-26 01:54:35.912304] E [MSGID: 114031] [client-rpc-fops_v2.c:1345:client4_0_inodelk_cbk] 0-scratch-client-4: remote operation failed [Transport endpoint is not connected]<br>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</body>
</html>