Hi,<div><br></div><div>have you checked the stayus of the gfids ?</div><div>I usually use method 2 from <a id="linkextractor__1659637741587" data-yahoo-extracted-link="true" href="https://docs.gluster.org/en/main/Troubleshooting/gfid-to-path/">https://docs.gluster.org/en/main/Troubleshooting/gfid-to-path/</a> to identify the file on the brick.</div><div>Then you can use getfattr to identify the status of the files on the bricks.</div><div><br></div><div>As you have 3 hosts, you can always implement an arbiter for each brick and mitigate the risk for split brains.</div><div><br></div><div>Best Regards,</div><div>Strahil Nikolov </div><div><br> <blockquote style="margin: 0 0 20px 0;"> <div style="font-family:Roboto, sans-serif; color:#6D00F6;"> <div>On Wed, Aug 3, 2022 at 16:33, Eli V</div><div><eliventer@gmail.com> wrote:</div> </div> <div style="padding: 10px 0 0 20px; margin: 10px 0 0 0; border-left: 1px solid #6D00F6;"> <div dir="ltr">Sequence of events which ended up with 2 bricks down and a heal<br></div><div dir="ltr">failure. What should I do about the heal failure, and before or after<br></div><div dir="ltr">replacing the bad disk? First, gluster 10.2 info<br></div><div dir="ltr"><br></div><div dir="ltr">Volume Name: glust-distr-rep<br></div><div dir="ltr">Type: Distributed-Replicate<br></div><div dir="ltr">Volume ID: fe0ea6f6-2d1b-4b5c-8af5-0c11ea546270<br></div><div dir="ltr">Status: Started<br></div><div dir="ltr">Snapshot Count: 0<br></div><div dir="ltr">Number of Bricks: 9 x 2 = 18<br></div><div dir="ltr">Transport-type: tcp<br></div><div dir="ltr">Bricks:<br></div><div dir="ltr">Brick1: md1cfsd01:/bricks/b0/br<br></div><div dir="ltr">Brick2: md1cfsd02:/bricks/b0/br<br></div><div dir="ltr">Brick3: md1cfsd03:/bricks/b0/br<br></div><div dir="ltr">Brick4: md1cfsd01:/bricks/b3/br<br></div><div dir="ltr">Brick5: md1cfsd02:/bricks/b3/br<br></div><div dir="ltr">Brick6: md1cfsd03:/bricks/b3/br<br></div><div dir="ltr">Brick7: md1cfsd01:/bricks/b1/br<br></div><div dir="ltr">Brick8: md1cfsd02:/bricks/b1/br<br></div><div dir="ltr">Brick9: md1cfsd03:/bricks/b1/br<br></div><div dir="ltr">Brick10: md1cfsd01:/bricks/b4/br<br></div><div dir="ltr">Brick11: md1cfsd02:/bricks/b4/br<br></div><div dir="ltr">Brick12: md1cfsd03:/bricks/b4/br<br></div><div dir="ltr">Brick13: md1cfsd01:/bricks/b2/br<br></div><div dir="ltr">Brick14: md1cfsd02:/bricks/b2/br<br></div><div dir="ltr">Brick15: md1cfsd03:/bricks/b2/br<br></div><div dir="ltr">Brick16: md1cfsd01:/bricks/b5/br<br></div><div dir="ltr">Brick17: md1cfsd02:/bricks/b5/br<br></div><div dir="ltr">Brick18: md1cfsd03:/bricks/b5/br<br></div><div dir="ltr">Options Reconfigured:<br></div><div dir="ltr">performance.md-cache-statfs: on<br></div><div dir="ltr">cluster.server-quorum-type: server<br></div><div dir="ltr">cluster.min-free-disk: 15<br></div><div dir="ltr">storage.batch-fsync-delay-usec: 0<br></div><div dir="ltr">user.smb: enable<br></div><div dir="ltr">features.cache-invalidation: on<br></div><div dir="ltr">nfs.disable: on<br></div><div dir="ltr">performance.readdir-ahead: on<br></div><div dir="ltr">transport.address-family: inet<br></div><div dir="ltr"><br></div><div dir="ltr">Fun started with a brick(d02:b5) crashing:<br></div><div dir="ltr"><br></div><div dir="ltr">[2022-08-02 18:59:29.417147 +0000] W<br></div><div dir="ltr">[rpcsvc.c:1323:rpcsvc_callback_submit] 0-rpcsvc: transmission of<br></div><div dir="ltr">rpc-request failed<br></div><div dir="ltr">pending frames:<br></div><div dir="ltr">frame : type(1) op(WRITE)<br></div><div dir="ltr">frame : type(1) op(WRITE)<br></div><div dir="ltr">frame : type(1) op(WRITE)<br></div><div dir="ltr">patchset: git://git.gluster.org/glusterfs.git<br></div><div dir="ltr">signal received: 7<br></div><div dir="ltr">time of crash:<br></div><div dir="ltr">2022-08-02 18:59:29 +0000<br></div><div dir="ltr">configuration details:<br></div><div dir="ltr">argp 1<br></div><div dir="ltr">backtrace 1<br></div><div dir="ltr">dlfcn 1<br></div><div dir="ltr">libpthread 1<br></div><div dir="ltr">llistxattr 1<br></div><div dir="ltr">setfsid 1<br></div><div dir="ltr">epoll.h 1<br></div><div dir="ltr">xattr.h 1<br></div><div dir="ltr">st_atim.tv_nsec 1<br></div><div dir="ltr">package-string: glusterfs 10.2<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/libglusterfs.so.0(+0x28a54)[0x7fefb20f7a54]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/libglusterfs.so.0(gf_print_trace+0x700)[0x7fefb20fffc0]<br></div><div dir="ltr">/lib/x86_64-linux-gnu/libc.so.6(+0x3bd60)[0x7fefb1ecdd60]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/libglusterfs.so.0(__gf_free+0x5a)[0x7fefb211c7aa]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/libgfrpc.so.0(rpc_transport_unref+0x9a)[0x7fefb209e4fa]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/glusterfs/10.2/xlator/protocol/server.so(+0xaf4b)[0x7fefac1fff4b]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/glusterfs/10.2/xlator/protocol/server.so(+0xb964)[0x7fefac200964]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/libglusterfs.so.0(xlator_notify+0x34)[0x7fefb20eb244]<br></div><div dir="ltr">/usr/lib/x86_64-linux-gnu/libglusterfs.so.0(default_notify+0x1ab)[0x7fefb217cf2b]<br></div><div dir="ltr">...<br></div><div dir="ltr"><br></div><div dir="ltr">Then a few hours later a read error on a different brick(b2) on the same host:<br></div><div dir="ltr"><br></div><div dir="ltr">[2022-08-02 22:04:17.808970 +0000] E [MSGID: 113040]<br></div><div dir="ltr">[posix-inode-fd-ops.c:1758:posix_readv] 0-glust-distr-rep-posix: read<br></div><div dir="ltr">failed on gfid=16b51498-966e-4546-b561-24b0062f4324,<br></div><div dir="ltr">fd=0x7ff9f00d6b08, offset=663314432 size=16384, buf=0x7ff9fc0f7000<br></div><div dir="ltr">[Input/output error]<br></div><div dir="ltr">[2022-08-02 22:04:17.809057 +0000] E [MSGID: 115068]<br></div><div dir="ltr">[server-rpc-fops_v2.c:1369:server4_readv_cbk]<br></div><div dir="ltr">0-glust-distr-rep-server: READ info [{frame=1334746}, {READV_fd_no=4},<br></div><div dir="ltr">{uuid_utoa=16b51498-966e-4546-b561-24b0062f4324},<br></div><div dir="ltr">{client=CTX_ID:6d7535af-769c-4223-aad0-79acffa836ed-GRAPH_ID:0-PID:1414-HOST:r4-16-PC_NAME:glust-distr-rep-client-13-RECON_NO:-1},<br></div><div dir="ltr">{error-xlator=glust-distr-rep-posix}, {errno=5}, {error=Input/output<br></div><div dir="ltr">error}]<br></div><div dir="ltr"><br></div><div dir="ltr">This looks like a real hardware error:<br></div><div dir="ltr">[Tue Aug  2 18:03:48 2022] megaraid_sas 0000:03:00.0: 6293<br></div><div dir="ltr">(712778647s/0x0002/FATAL) - Unrecoverable medium error during recovery<br></div><div dir="ltr">on PD 04(e0x20/s4) at 1d267163<br></div><div dir="ltr">[Tue Aug  2 18:03:49 2022] sd 0:2:3:0: [sdd] tag#435 FAILED Result:<br></div><div dir="ltr">hostbyte=DID_ERROR driverbyte=DRIVER_OK cmd_age=3s<br></div><div dir="ltr">[Tue Aug  2 18:03:49 2022] sd 0:2:3:0: [sdd] tag#435 CDB: Read(10) 28<br></div><div dir="ltr">00 1d 26 70 78 00 01 00 00<br></div><div dir="ltr">[Tue Aug  2 18:03:49 2022] blk_update_request: I/O error, dev sdd,<br></div><div dir="ltr">sector 489058424 op 0x0:(READ) flags 0x80700 phys_seg 9 prio class 0<br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr">This morning noticing both b2 & b5 were offline, systemctl stopped and<br></div><div dir="ltr">started glusterd to restart the bricks.<br></div><div dir="ltr">All bricks are now up:<br></div><div dir="ltr">Status of volume: glust-distr-rep<br></div><div dir="ltr">Gluster process                             TCP Port  RDMA Port  Online  Pid<br></div><div dir="ltr">------------------------------------------------------------------------------<br></div><div dir="ltr">Brick md1cfsd01:/bricks/b0/br               55386     0          Y       2047<br></div><div dir="ltr">Brick md1cfsd02:/bricks/b0/br               59983     0          Y       3036416<br></div><div dir="ltr">Brick md1cfsd03:/bricks/b0/br               58028     0          Y       2014<br></div><div dir="ltr">Brick md1cfsd01:/bricks/b3/br               59454     0          Y       2041<br></div><div dir="ltr">Brick md1cfsd02:/bricks/b3/br               52352     0          Y       3036421<br></div><div dir="ltr">Brick md1cfsd03:/bricks/b3/br               56786     0          Y       2017<br></div><div dir="ltr">Brick md1cfsd01:/bricks/b1/br               59885     0          Y       2040<br></div><div dir="ltr">Brick md1cfsd02:/bricks/b1/br               55148     0          Y       3036434<br></div><div dir="ltr">Brick md1cfsd03:/bricks/b1/br               52422     0          Y       2068<br></div><div dir="ltr">Brick md1cfsd01:/bricks/b4/br               56378     0          Y       2099<br></div><div dir="ltr">Brick md1cfsd02:/bricks/b4/br               60152     0          Y       3036470<br></div><div dir="ltr">Brick md1cfsd03:/bricks/b4/br               50448     0          Y       2490448<br></div><div dir="ltr">Brick md1cfsd01:/bricks/b2/br               49455     0          Y       2097<br></div><div dir="ltr">Brick md1cfsd02:/bricks/b2/br               53717     0          Y       3036498<br></div><div dir="ltr">Brick md1cfsd03:/bricks/b2/br               51838     0          Y       2124<br></div><div dir="ltr">Brick md1cfsd01:/bricks/b5/br               51002     0          Y       2104<br></div><div dir="ltr">Brick md1cfsd02:/bricks/b5/br               57204     0          Y       3036523<br></div><div dir="ltr">Brick md1cfsd03:/bricks/b5/br               56817     0          Y       2123<br></div><div dir="ltr">Self-heal Daemon on localhost               N/A       N/A        Y       3036660<br></div><div dir="ltr">Self-heal Daemon on md1cfsd03               N/A       N/A        Y       2627<br></div><div dir="ltr">Self-heal Daemon on md1cfsd01               N/A       N/A        Y       2623<br></div><div dir="ltr"><br></div><div dir="ltr">Then manually triggered a heal, which healed thousands of files but<br></div><div dir="ltr">now is stuck on the last 47 according to heal info summary.<br></div><div dir="ltr">glfsheal-glust-distr-rep.log has a bunch of entries like so:<br></div><div dir="ltr"><br></div><div dir="ltr">[2022-08-03 13:08:41.169387 +0000] W [MSGID: 114031]<br></div><div dir="ltr">[client-rpc-fops_v2.c:2618:client4_0_lookup_cbk]<br></div><div dir="ltr">0-glust-distr-rep-client-16: remote operation failed.<br></div><div dir="ltr">[{path=<gfid:24977f2f-5fbe-44f2-91bd-605eda824aff>},<br></div><div dir="ltr">{gfid=24977f2f-5fbe-44f2-91bd-605eda824aff}, {errno=2}, {error=No such<br></div><div dir="ltr">file or directory}]<br></div><div dir="ltr">________<br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr">Community Meeting Calendar:<br></div><div dir="ltr"><br></div><div dir="ltr">Schedule -<br></div><div dir="ltr">Every 2nd and 4th Tuesday at 14:30 IST / 09:00 UTC<br></div><div dir="ltr">Bridge: <a href="https://meet.google.com/cpu-eiue-hvk" target="_blank">https://meet.google.com/cpu-eiue-hvk</a><br></div><div dir="ltr">Gluster-users mailing list<br></div><div dir="ltr"><a ymailto="mailto:Gluster-users@gluster.org" href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br></div><div dir="ltr"><a href="https://lists.gluster.org/mailman/listinfo/gluster-users" target="_blank">https://lists.gluster.org/mailman/listinfo/gluster-users</a><br></div> </div> </blockquote></div>