Do you use brick multiplexing ?<div><br></div><div>Best Regards,</div><div>Strahil Nikolov <br> <br> <blockquote style="margin: 0 0 20px 0;"> <div style="font-family:Roboto, sans-serif; color:#6D00F6;"> <div>On Tue, Mar 14, 2023 at 16:44, Diego Zuccato</div><div><diego.zuccato@unibo.it> wrote:</div> </div> <div style="padding: 10px 0 0 20px; margin: 10px 0 0 0; border-left: 1px solid #6D00F6;"> <div dir="ltr">Hello all.<br></div><div dir="ltr"><br></div><div dir="ltr">Our Gluster 9.6 cluster is showing increasing problems.<br></div><div dir="ltr">Currently it's composed of 3 servers (2x Intel Xeon 4210 [20 cores dual <br></div><div dir="ltr">thread, total 40 threads], 192GB RAM, 30x HGST HUH721212AL5200 [12TB]), <br></div><div dir="ltr">configured in replica 3 arbiter 1. Using Debian packages from Gluster <br></div><div dir="ltr">9.x latest repository.<br></div><div dir="ltr"><br></div><div dir="ltr">Seems 192G RAM are not enough to handle 30 data bricks + 15 arbiters and <br></div><div dir="ltr">I often had to reload glusterfsd because glusterfs processed got killed <br></div><div dir="ltr">for OOM.<br></div><div dir="ltr">On top of that, performance have been quite bad, especially when we <br></div><div dir="ltr">reached about 20M files. On top of that, one of the servers have had <br></div><div dir="ltr">mobo issues that resulted in memory errors that corrupted some bricks fs <br></div><div dir="ltr">(XFS, it required "xfs_reparir -L" to fix).<br></div><div dir="ltr">Now I'm getting lots of "stale file handle" errors and other errors <br></div><div dir="ltr">(like directories that seem empty from the client but still containing <br></div><div dir="ltr">files in some bricks) and auto healing seems unable to complete.<br></div><div dir="ltr"><br></div><div dir="ltr">Since I can't keep up continuing to manually fix all the issues, I'm <br></div><div dir="ltr">thinking about backup+destroy+recreate strategy.<br></div><div dir="ltr"><br></div><div dir="ltr">I think that if I reduce the number of bricks per server to just 5 <br></div><div dir="ltr">(RAID1 of 6x12TB disks) I might resolve RAM issues - at the cost of <br></div><div dir="ltr">longer heal times in case a disk fails. Am I right or it's useless? <br></div><div dir="ltr">Other recommendations?<br></div><div dir="ltr">Servers have space for another 6 disks. Maybe those could be used for <br></div><div dir="ltr">some SSDs to speed up access?<br></div><div dir="ltr"><br></div><div dir="ltr">TIA.<br></div><div dir="ltr"><br></div><div dir="ltr">-- <br></div><div dir="ltr">Diego Zuccato<br></div><div dir="ltr">DIFA - Dip. di Fisica e Astronomia<br></div><div dir="ltr">Servizi Informatici<br></div><div dir="ltr">Alma Mater Studiorum - Università di Bologna<br></div><div dir="ltr">V.le Berti-Pichat 6/2 - 40127 Bologna - Italy<br></div><div dir="ltr">tel.: +39 051 20 95786<br></div><div dir="ltr">________<br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr">Community Meeting Calendar:<br></div><div dir="ltr"><br></div><div dir="ltr">Schedule -<br></div><div dir="ltr">Every 2nd and 4th Tuesday at 14:30 IST / 09:00 UTC<br></div><div dir="ltr">Bridge: <a href="https://meet.google.com/cpu-eiue-hvk" target="_blank">https://meet.google.com/cpu-eiue-hvk</a><br></div><div dir="ltr">Gluster-users mailing list<br></div><div dir="ltr"><a ymailto="mailto:Gluster-users@gluster.org" href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br></div><div dir="ltr"><a href="https://lists.gluster.org/mailman/listinfo/gluster-users" target="_blank">https://lists.gluster.org/mailman/listinfo/gluster-users</a><br></div> </div> </blockquote></div>