<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>It looks like this does eventually fail.&nbsp; At a bit of a loss at what to do here... At this point unable to remove any nodes from the cluster.&nbsp; Any help is greatly appreciated!<br>
</span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><br>
</span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>Here's the log from one of the nodes <br>
</span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><br>
</span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span></span></div>
<span>[2019-10-26 01:54:35.912284] E [rpc-clnt.c:183:call_bail] 0-scratch-client-4: bailing out frame type(GlusterFS 4.x v1), op(INODELK(29)), xid = 0x38, unique = 0, sent = 2019-10-26 01:24:35.787361, timeout = 1800 for 10.158.10.2:49152<br>
</span>
<div>[2019-10-26 01:54:35.912304] E [MSGID: 114031] [client-rpc-fops_v2.c:1345:client4_0_inodelk_cbk] 0-scratch-client-4: remote operation failed [Transport endpoint is not connected]<br>
</div>
<div>[2019-10-26 02:04:35.000560] I [MSGID: 0] [dht-rebalance.c:4309:gf_defrag_total_file_size] 0-scratch-dht: local subvol: scratch-replicate-0,cnt = 1076350152704<br>
</div>
<div>[2019-10-26 02:04:35.000589] I [MSGID: 0] [dht-rebalance.c:4313:gf_defrag_total_file_size] 0-scratch-dht: Total size files = 1076350152704<br>
</div>
<div>[2019-10-26 02:04:35.000595] I [dht-rebalance.c:4355:dht_file_counter_thread] 0-dht: tmp data size =1076350152704<br>
</div>
<div>[2019-10-26 02:14:35.000669] I [MSGID: 0] [dht-rebalance.c:4309:gf_defrag_total_file_size] 0-scratch-dht: local subvol: scratch-replicate-0,cnt = 1076350152704<br>
</div>
<div>[2019-10-26 02:14:35.000697] I [MSGID: 0] [dht-rebalance.c:4313:gf_defrag_total_file_size] 0-scratch-dht: Total size files = 1076350152704<br>
</div>
<div>[2019-10-26 02:14:35.000703] I [dht-rebalance.c:4355:dht_file_counter_thread] 0-dht: tmp data size =1076350152704<br>
</div>
<div>[2019-10-26 02:24:35.000682] I [MSGID: 0] [dht-rebalance.c:4309:gf_defrag_total_file_size] 0-scratch-dht: local subvol: scratch-replicate-0,cnt = 1076350152704<br>
</div>
<div>[2019-10-26 02:24:35.000712] I [MSGID: 0] [dht-rebalance.c:4313:gf_defrag_total_file_size] 0-scratch-dht: Total size files = 1076350152704<br>
</div>
<div>[2019-10-26 02:24:35.000718] I [dht-rebalance.c:4355:dht_file_counter_thread] 0-dht: tmp data size =1076350152704<br>
</div>
<div>[2019-10-26 02:24:35.867168] C [rpc-clnt.c:437:rpc_clnt_fill_request_info] 0-scratch-client-3: cannot lookup the saved frame corresponding to xid (55)<br>
</div>
<div>[2019-10-26 02:24:35.867505] W [socket.c:2183:__socket_read_reply] 0-scratch-client-3: notify for event MAP_XID failed for 10.158.10.1:49152<br>
</div>
<div>[2019-10-26 02:24:35.867530] I [MSGID: 114018] [client.c:2323:client_rpc_notify] 0-scratch-client-3: disconnected from scratch-client-3. Client process will keep trying to connect to glusterd until brick's port is available<br>
</div>
<div>[2019-10-26 02:24:35.867641] C [rpc-clnt.c:437:rpc_clnt_fill_request_info] 0-scratch-client-4: cannot lookup the saved frame corresponding to xid (56)<br>
</div>
<div>[2019-10-26 02:24:35.867657] W [socket.c:2183:__socket_read_reply] 0-scratch-client-4: notify for event MAP_XID failed for 10.158.10.2:49152<br>
</div>
<div>[2019-10-26 02:24:35.867670] I [MSGID: 114018] [client.c:2323:client_rpc_notify] 0-scratch-client-4: disconnected from scratch-client-4. Client process will keep trying to connect to glusterd until brick's port is available<br>
</div>
<div>[2019-10-26 02:24:35.867679] W [MSGID: 108001] [afr-common.c:5608:afr_notify] 0-scratch-replicate-0: Client-quorum is not met<br>
</div>
<div>[2019-10-26 02:24:35.868083] E [MSGID: 109119] [dht-lock.c:1084:dht_blocking_inodelk_cbk] 0-scratch-dht: inodelk failed on subvol scratch-replicate-0, gfid:be318638-e8a0-4c6d-977d-7a937aa84806 [Transport endpoint is not connected]<br>
</div>
<div>[2019-10-26 02:24:35.868151] E [MSGID: 109016] [dht-rebalance.c:3932:gf_defrag_fix_layout] 0-scratch-dht: Setxattr failed for /.shard [Transport endpoint is not connected]<br>
</div>
<div>[2019-10-26 02:24:35.868904] E [MSGID: 109016] [dht-rebalance.c:3898:gf_defrag_fix_layout] 0-scratch-dht: Fix layout failed for /.shard<br>
</div>
<div>[2019-10-26 02:24:35.870516] I [MSGID: 109028] [dht-rebalance.c:5047:gf_defrag_status_get] 0-scratch-dht: Rebalance is failed. Time taken is 5401.00 secs<br>
</div>
<div>[2019-10-26 02:24:35.870531] I [MSGID: 109028] [dht-rebalance.c:5053:gf_defrag_status_get] 0-scratch-dht: Files migrated: 0, size: 0, lookups: 0, failures: 3, skipped: 0<br>
</div>
<div>[2019-10-26 02:24:35.871330] W [glusterfsd.c:1570:cleanup_and_exit] (--&gt;/lib64/libpthread.so.0(&#43;0x754b) [0x7febd4c9154b] --&gt;/usr/sbin/glusterfs(glusterfs_sigwaiter&#43;0xfd) [0x55ec1a066b9d] --&gt;/usr/sbin/glusterfs(cleanup_and_exit&#43;0x54) [0x55ec1a0669e4] )
 0-: received signum (15), shutting down</div>
<div><br>
</div>
<div>Thanks!<br>
Tim<br>
</div>
<span></span>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<div><br>
</div>
<span></span><br>
</div>
<div id="appendonsend"></div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> Timothy Orme<br>
<b>Sent:</b> Friday, October 25, 2019 11:51 AM<br>
<b>To:</b> gluster-users &lt;gluster-users@gluster.org&gt;<br>
<b>Subject:</b> Remove Brick Rebalance Hangs With No Activity</font>
<div>&nbsp;</div>
</div>
<div dir="ltr">
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Hello All,</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
I'm trying to remove a set of bricks from our cluster.&nbsp; I've done this operation a few times now with success, but on one set of bricks, the operation starts and seems to never progress.&nbsp; It just sits here:</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Node Rebalanced-files &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;size &nbsp; &nbsp; &nbsp; scanned &nbsp; &nbsp; &nbsp;failures &nbsp; &nbsp; &nbsp; skipped &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; status &nbsp;run time in h:m:s<br>
</span>
<div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;--------- &nbsp; &nbsp; &nbsp;----------- &nbsp; ----------- &nbsp; ----------- &nbsp; ----------- &nbsp; ----------- &nbsp; &nbsp; &nbsp; &nbsp; ------------ &nbsp; &nbsp; --------------<br>
</div>
<div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;ip-10-158-10-1.ec2.internal &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp;0Bytes &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp;0:22:35<br>
</div>
<div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; ip-10-158-10-2.ec2.internal &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp;0Bytes &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp;0:22:35<br>
</div>
<div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;ip-10-158-10-3.ec2.internal &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp;0Bytes &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp;0:22:35<br>
</div>
<div>Rebalance estimated time unavailable. Please try again later.<br>
</div>
<span></span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
The rebalance logs on the server don't seem to indicate any issues.&nbsp; I see no error statements or anything.&nbsp; The servers themselves also seem very idle.&nbsp; CPU and Network Activity are stuck at near 0, where as during other removals they would spike almost immediately.</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
There's almost no activity in the log either.&nbsp; The only thing that I've seen is a message like:</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>[2019-10-25 18:42:21.000753] I [MSGID: 0] [dht-rebalance.c:4309:gf_defrag_total_file_size] 0-scratch-dht: local subvol: scratch-replicate-2,cnt = 596361801728<br>
</span>
<div>[2019-10-25 18:42:21.000799] I [MSGID: 0] [dht-rebalance.c:4313:gf_defrag_total_file_size] 0-scratch-dht: Total size files = 596361801728<br>
</div>
<div>[2019-10-25 18:42:21.000808] I [dht-rebalance.c:4355:dht_file_counter_thread] 0-dht: tmp data size =596361801728<br>
</div>
<span></span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Any idea what might be happening?</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Thanks,</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Tim<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
</div>
</body>
</html>