<div dir="ltr">The number of heal pending on citadel, the one that was upgraded to 7.5, has now gone to 10s of thousands and continues to go up.<div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><br>Sincerely,<br>Artem<br><br>--<br>Founder, <a href="http://www.androidpolice.com" target="_blank">Android Police</a>, <a href="http://www.apkmirror.com/" style="font-size:12.8px" target="_blank">APK Mirror</a><span style="font-size:12.8px">, Illogical Robot LLC</span></div><div dir="ltr"><a href="http://beerpla.net/" target="_blank">beerpla.net</a> | <a href="http://twitter.com/ArtemR" target="_blank">@ArtemR</a><br></div></div></div></div></div></div></div></div></div></div></div></div></div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Apr 30, 2020 at 2:57 PM Artem Russakovskii &lt;<a href="mailto:archon810@gmail.com">archon810@gmail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi all,<div><br></div><div>Today, I decided to upgrade one of the four servers (citadel) we have to 7.5 from 5.13. There are 2 volumes, 1x4 replicate, and fuse mounts (I sent the full details earlier in another message). If everything looked OK, I would have proceeded the rolling upgrade for all of them, following the full heal.</div><div><br></div><div>However, as soon as I upgraded and restarted, the logs filled with messages like these:</div><div><br></div><div>[2020-04-30 21:39:21.316149] E [rpcsvc.c:567:rpcsvc_check_and_reply_error] 0-rpcsvc: rpc actor (1298437:400:17) failed to complete successfully<br>[2020-04-30 21:39:21.382891] E [rpcsvc.c:567:rpcsvc_check_and_reply_error] 0-rpcsvc: rpc actor (1298437:400:17) failed to complete successfully<br>[2020-04-30 21:39:21.442440] E [rpcsvc.c:567:rpcsvc_check_and_reply_error] 0-rpcsvc: rpc actor (1298437:400:17) failed to complete successfully<br>[2020-04-30 21:39:21.445587] E [rpcsvc.c:567:rpcsvc_check_and_reply_error] 0-rpcsvc: rpc actor (1298437:400:17) failed to complete successfully<br>[2020-04-30 21:39:21.571398] E [rpcsvc.c:567:rpcsvc_check_and_reply_error] 0-rpcsvc: rpc actor (1298437:400:17) failed to complete successfully<br>[2020-04-30 21:39:21.668192] E [rpcsvc.c:567:rpcsvc_check_and_reply_error] 0-rpcsvc: rpc actor (1298437:400:17) failed to complete successfully<br><div><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr">The message &quot;I [MSGID: 108031] [afr-common.c:2581:afr_local_discovery_cbk] 0-androidpolice_data3-replicate-0: selecting local read_child androidpolice_data3-client-3&quot; repeated 10 times between [2020-04-30 21:46:41.854675] and [2020-04-30 21:48:20.206323]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:850:client4_0_setxattr_cbk] 0-androidpolice_data3-client-1: remote operation failed [Transport endpoint is not connected]&quot; repeated 264 times between [2020-04-30 21:46:32.129567] and [2020-04-30 21:48:29.905008]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:850:client4_0_setxattr_cbk] 0-androidpolice_data3-client-0: remote operation failed [Transport endpoint is not connected]&quot; repeated 264 times between [2020-04-30 21:46:32.129602] and [2020-04-30 21:48:29.905040]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:850:client4_0_setxattr_cbk] 0-androidpolice_data3-client-2: remote operation failed [Transport endpoint is not connected]&quot; repeated 264 times between [2020-04-30 21:46:32.129512] and [2020-04-30 21:48:29.905047]<br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div>Once in a while, I&#39;m seeing this:</div><div><font face="monospace">==&gt; bricks/mnt-hive_block4-androidpolice_data3.log &lt;==<br>[2020-04-30 21:45:54.251637] I [MSGID: 115072] [server-rpc-fops_v2.c:1681:server4_setattr_cbk] 0-androidpolice_data3-server: 5725811: SETATTR /<a href="http://androidpolice.com/public/wp-content/uploads/2019/03/cielo-breez-plus-hero.png" target="_blank">androidpolice.com/public/wp-content/uploads/2019/03/cielo-breez-plus-hero.png</a> (d4556eb4-f15b-412c-a42a-32b4438af557), client: CTX_ID:32e2d636-038a-472d-8199-007555d1805f-GRAPH_ID:0-PID:14265-HOST:nexus2-PC_NAME:androidpolice_data3-client-2-RECON_NO:-1, error-xlator: androidpolice_data3-access-control [Operation not permitted]</font><br></div><div><font face="monospace">[2020-04-30 21:49:10.439701] I [MSGID: 115072] [server-rpc-fops_v2.c:1680:server4_setattr_cbk] 0-androidpolice_data3-server: 201833: SETATTR /<a href="http://androidpolice.com/public/wp-content/uploads" target="_blank">androidpolice.com/public/wp-content/uploads</a> (2692eeba-1ebe-49b6-927f-1dfbcd227591), client: CTX_ID:af341e80-70ff-4d23-99ef-3d846a546fc9-GRAPH_ID:0-PID:2358-HOST:forge-PC_NAME:androidpolice_data3-client-3-RECON_NO:-2, error-xlator: androidpolice_data3-access-control [Operation not permitted]<br>[2020-04-30 21:49:10.453724] I [MSGID: 115072] [server-rpc-fops_v2.c:1680:server4_setattr_cbk] 0-androidpolice_data3-server: 201842: SETATTR /<a href="http://androidpolice.com/public/wp-content/uploads" target="_blank">androidpolice.com/public/wp-content/uploads</a> (2692eeba-1ebe-49b6-927f-1dfbcd227591), client: CTX_ID:af341e80-70ff-4d23-99ef-3d846a546fc9-GRAPH_ID:0-PID:2358-HOST:forge-PC_NAME:androidpolice_data3-client-3-RECON_NO:-2, error-xlator: androidpolice_data3-access-control [Operation not permitted]<br>[2020-04-30 21:49:16.224662] I [MSGID: 115072] [server-rpc-fops_v2.c:1680:server4_setattr_cbk] 0-androidpolice_data3-server: 202865: SETATTR /<a href="http://androidpolice.com/public/wp-content/uploads" target="_blank">androidpolice.com/public/wp-content/uploads</a> (2692eeba-1ebe-49b6-927f-1dfbcd227591), client: CTX_ID:32e2d636-038a-472d-8199-007555d1805f-GRAPH_ID:0-PID:14265-HOST:nexus2-PC_NAME:androidpolice_data3-client-3-RECON_NO:-2, error-xlator: androidpolice_data3-access-control [Operation not permitted]<br></font></div><div><br></div><div>There&#39;s also lots of self-healing happening that I didn&#39;t expect at all, since the upgrade only took ~10-15s.</div><div><font face="monospace">[2020-04-30 21:47:38.714448] I [MSGID: 108026] [afr-self-heal-metadata.c:52:__afr_selfheal_metadata_do] 0-apkmirror_data1-replicate-0: performing metadata selfheal on 4a6ba2d7-7ad8-4113-862b-02e4934a3461<br>[2020-04-30 21:47:38.765033] I [MSGID: 108026] [afr-self-heal-common.c:1723:afr_log_selfheal] 0-apkmirror_data1-replicate-0: Completed metadata selfheal on 4a6ba2d7-7ad8-4113-862b-02e4934a3461. sources=[3]  sinks=0 1 2 <br>[2020-04-30 21:47:38.765289] I [MSGID: 108026] [afr-self-heal-metadata.c:52:__afr_selfheal_metadata_do] 0-apkmirror_data1-replicate-0: performing metadata selfheal on f3c62a41-1864-4e75-9883-4357a7091296<br>[2020-04-30 21:47:38.800987] I [MSGID: 108026] [afr-self-heal-common.c:1723:afr_log_selfheal] 0-apkmirror_data1-replicate-0: Completed metadata selfheal on f3c62a41-1864-4e75-9883-4357a7091296. sources=[3]  sinks=0 1 2 </font><br></div><div><br></div><div><br></div><div>I&#39;m also seeing &quot;remote operation failed&quot; and &quot;writing to fuse device failed: No such file or directory&quot; messages</div><div><font face="monospace">[2020-04-30 21:46:34.891957] I [MSGID: 108026] [afr-self-heal-common.c:1723:afr_log_selfheal] 0-androidpolice_data3-replicate-0: Completed metadata selfheal on 2692eeba-1ebe-49b6-927f-1dfbcd227591. sources=0 1 [2]  sinks=3<br>[2020-04-30 21:45:36.127412] W [MSGID: 114031] [client-rpc-fops_v2.c:1985:client4_0_setattr_cbk] 0-androidpolice_data3-client-0: remote operation failed [Operation not permitted]<br>[2020-04-30 21:45:36.345924] W [MSGID: 114031] [client-rpc-fops_v2.c:1985:client4_0_setattr_cbk] 0-androidpolice_data3-client-1: remote operation failed [Operation not permitted]<br>[2020-04-30 21:46:35.291853] I [MSGID: 108031] [afr-common.c:2543:afr_local_discovery_cbk] 0-androidpolice_data3-replicate-0: selecting local read_child androidpolice_data3-client-2<br>[2020-04-30 21:46:35.977342] I [MSGID: 108026] [afr-self-heal-metadata.c:52:__afr_selfheal_metadata_do] 0-androidpolice_data3-replicate-0: performing metadata selfheal on 2692eeba-1ebe-49b6-927f-1dfbcd227591<br>[2020-04-30 21:46:36.006607] I [MSGID: 108026] [afr-self-heal-common.c:1723:afr_log_selfheal] 0-androidpolice_data3-replicate-0: Completed metadata selfheal on 2692eeba-1ebe-49b6-927f-1dfbcd227591. sources=0 1 [2]  sinks=3<br>[2020-04-30 21:46:37.245599] E [fuse-bridge.c:219:check_and_dump_fuse_W] (--&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x17d)[0x7fd13d50624d] (--&gt; /usr/lib64/glusterfs/5.13/xlator/mount/fuse.so(+0x849a)[0x7fd1398e949a] (--&gt; /usr/lib64/glusterfs/5.13/xlator/mount/fuse.so(+0x87bb)[0x7fd1398e97bb] (--&gt; /lib64/libpthread.so.0(+0x84f9)[0x7fd13ca564f9] (--&gt; /lib64/libc.so.6(clone+0x3f)[0x7fd13c78ef2f] ))))) 0-glusterfs-fuse: writing to fuse device failed: No such file or directory<br>[2020-04-30 21:46:50.864797] E [fuse-bridge.c:219:check_and_dump_fuse_W] (--&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x17d)[0x7fd13d50624d] (--&gt; /usr/lib64/glusterfs/5.13/xlator/mount/fuse.so(+0x849a)[0x7fd1398e949a] (--&gt; /usr/lib64/glusterfs/5.13/xlator/mount/fuse.so(+0x87bb)[0x7fd1398e97bb] (--&gt; /lib64/libpthread.so.0(+0x84f9)[0x7fd13ca564f9] (--&gt; /lib64/libc.so.6(clone+0x3f)[0x7fd13c78ef2f] ))))) 0-glusterfs-fuse: writing to fuse device failed: No such file or directory</font><br></div><div><br></div><div>The number of items being healed is going up and down wildly, from 0 to 8000+ and sometimes taking a really long time to return a value. I&#39;m really worried as this is a production system, and I didn&#39;t observe this in our test system.</div><div><br></div><div><br></div><div><br></div><div><font face="monospace">gluster v heal apkmirror_data1 info summary<br>Brick nexus2:/mnt/nexus2_block1/apkmirror_data1<br>Status: Connected<br>Total Number of entries: 27<br>Number of entries in heal pending: 27<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br><br>Brick forge:/mnt/forge_block1/apkmirror_data1<br>Status: Connected<br>Total Number of entries: 27<br>Number of entries in heal pending: 27<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br><br>Brick hive:/mnt/hive_block1/apkmirror_data1<br>Status: Connected<br>Total Number of entries: 27<br>Number of entries in heal pending: 27<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br><br>Brick citadel:/mnt/citadel_block1/apkmirror_data1<br>Status: Connected<br>Total Number of entries: 8540<br>Number of entries in heal pending: 8540<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br></font></div><div><font face="monospace"><br></font></div><div><font face="monospace"><br></font></div><div><font face="monospace"><br></font></div><div><font face="monospace">gluster v heal androidpolice_data3 info summary<br>Brick nexus2:/mnt/nexus2_block4/androidpolice_data3<br>Status: Connected<br>Total Number of entries: 1<br>Number of entries in heal pending: 1<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br><br>Brick forge:/mnt/forge_block4/androidpolice_data3<br>Status: Connected<br>Total Number of entries: 1<br>Number of entries in heal pending: 1<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br><br>Brick hive:/mnt/hive_block4/androidpolice_data3<br>Status: Connected<br>Total Number of entries: 1<br>Number of entries in heal pending: 1<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0<br><br>Brick citadel:/mnt/citadel_block4/androidpolice_data3<br>Status: Connected<br>Total Number of entries: 1149<br>Number of entries in heal pending: 1149<br>Number of entries in split-brain: 0<br>Number of entries possibly healing: 0</font><br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div>What should I do at this point? The files I tested seem to be replicating correctly, but I don&#39;t know if it&#39;s the case for all of them, and the heals going up and down, and all these log messages are making me very nervous.</div><div dir="ltr"><br></div><div>Thank you.</div><div dir="ltr"><br></div><div dir="ltr">Sincerely,<br>Artem<br><br>--<br>Founder, <a href="http://www.androidpolice.com" target="_blank">Android Police</a>, <a href="http://www.apkmirror.com/" style="font-size:12.8px" target="_blank">APK Mirror</a><span style="font-size:12.8px">, Illogical Robot LLC</span></div><div dir="ltr"><a href="http://beerpla.net/" target="_blank">beerpla.net</a> | <a href="http://twitter.com/ArtemR" target="_blank">@ArtemR</a><br></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
</blockquote></div>