<div dir="ltr"><div>Filed a bug report. I was not able to reproduce the issue on x86 hardware.<br></div><div dir="ltr"><br></div><div dir="ltr"><a href="https://bugzilla.redhat.com/show_bug.cgi?id=1811373" target="_blank">https://bugzilla.redhat.com/show_bug.cgi?id=1811373</a></div><div><br></div><div><br></div><div><br></div><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Mar 2, 2020 at 1:58 AM Strahil Nikolov &lt;<a href="mailto:hunter86_bg@yahoo.com" target="_blank">hunter86_bg@yahoo.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On March 2, 2020 3:29:06 AM GMT+02:00, Fox &lt;<a href="mailto:foxxz.net@gmail.com" target="_blank">foxxz.net@gmail.com</a>&gt; wrote:<br>

&gt;The brick is mounted. However glusterfsd crashes shortly after startup.<br>

&gt;This happens on any host that needs to heal a dispersed volume.<br>

&gt;<br>

&gt;I spent today doing a clean rebuild of the cluster. Clean install of<br>

&gt;ubuntu<br>

&gt;18 and gluster 7.2. Create a dispersed volume. Reboot one of the<br>

&gt;cluster<br>

&gt;members while the volume is up and online. When that cluster member<br>

&gt;comes<br>

&gt;back it can not heal.<br>

&gt;<br>

&gt;I was able to replicate this behavior with raspberry pis running<br>

&gt;raspbian<br>

&gt;and gluster 5 so it looks like its not limited to the specific hardware<br>

&gt;or<br>

&gt;version of gluster I&#39;m using but perhaps the ARM architecture as a<br>

&gt;whole.<br>

&gt;<br>

&gt;Thank you for your help. Aside from not using dispersed volumes I don&#39;t<br>

&gt;think there is much more I can do. Submit a bug report I guess :)<br>

&gt;<br>

&gt;<br>

&gt;<br>

&gt;<br>

&gt;<br>

&gt;On Sun, Mar 1, 2020 at 12:02 PM Strahil Nikolov &lt;<a href="mailto:hunter86_bg@yahoo.com" target="_blank">hunter86_bg@yahoo.com</a>&gt;<br>

&gt;wrote:<br>

&gt;<br>

&gt;&gt; On March 1, 2020 6:22:59 PM GMT+02:00, Fox &lt;<a href="mailto:foxxz.net@gmail.com" target="_blank">foxxz.net@gmail.com</a>&gt;<br>

&gt;wrote:<br>

&gt;&gt; &gt;Yes the brick was up and running. And I can see files on the brick<br>

&gt;&gt; &gt;created<br>

&gt;&gt; &gt;by connected clients up until the node was rebooted.<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;This is what the volume status looks like after gluster12 was<br>

&gt;rebooted.<br>

&gt;&gt; &gt;Prior to reboot it showed as online and was otherwise operational.<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;root@gluster01:~# gluster volume status<br>

&gt;&gt; &gt;Status of volume: disp1<br>

&gt;&gt; &gt;Gluster process                             TCP Port  RDMA Port <br>

&gt;Online<br>

&gt;&gt; &gt; Pid<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;------------------------------------------------------------------------------<br>

&gt;&gt; &gt;Brick gluster01:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;3931<br>

&gt;&gt; &gt;Brick gluster02:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2755<br>

&gt;&gt; &gt;Brick gluster03:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2787<br>

&gt;&gt; &gt;Brick gluster04:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2780<br>

&gt;&gt; &gt;Brick gluster05:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2764<br>

&gt;&gt; &gt;Brick gluster06:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2760<br>

&gt;&gt; &gt;Brick gluster07:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2740<br>

&gt;&gt; &gt;Brick gluster08:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2729<br>

&gt;&gt; &gt;Brick gluster09:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2772<br>

&gt;&gt; &gt;Brick gluster10:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2791<br>

&gt;&gt; &gt;Brick gluster11:/exports/sda/brick1/disp1   49152     0          Y<br>

&gt;&gt; &gt;2026<br>

&gt;&gt; &gt;Brick gluster12:/exports/sda/brick1/disp1   N/A       N/A        N<br>

&gt;&gt; &gt;N/A<br>

&gt;&gt; &gt;Self-heal Daemon on localhost               N/A       N/A        Y<br>

&gt;&gt; &gt;3952<br>

&gt;&gt; &gt;Self-heal Daemon on gluster03               N/A       N/A        Y<br>

&gt;&gt; &gt;2808<br>

&gt;&gt; &gt;Self-heal Daemon on gluster02               N/A       N/A        Y<br>

&gt;&gt; &gt;2776<br>

&gt;&gt; &gt;Self-heal Daemon on gluster06               N/A       N/A        Y<br>

&gt;&gt; &gt;2781<br>

&gt;&gt; &gt;Self-heal Daemon on gluster07               N/A       N/A        Y<br>

&gt;&gt; &gt;2761<br>

&gt;&gt; &gt;Self-heal Daemon on gluster05               N/A       N/A        Y<br>

&gt;&gt; &gt;2785<br>

&gt;&gt; &gt;Self-heal Daemon on gluster08               N/A       N/A        Y<br>

&gt;&gt; &gt;2750<br>

&gt;&gt; &gt;Self-heal Daemon on gluster04               N/A       N/A        Y<br>

&gt;&gt; &gt;2801<br>

&gt;&gt; &gt;Self-heal Daemon on gluster09               N/A       N/A        Y<br>

&gt;&gt; &gt;2793<br>

&gt;&gt; &gt;Self-heal Daemon on gluster11               N/A       N/A        Y<br>

&gt;&gt; &gt;2047<br>

&gt;&gt; &gt;Self-heal Daemon on gluster10               N/A       N/A        Y<br>

&gt;&gt; &gt;2812<br>

&gt;&gt; &gt;Self-heal Daemon on gluster12               N/A       N/A        Y<br>

&gt;&gt; &gt;542<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;Task Status of Volume disp1<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;------------------------------------------------------------------------------<br>

&gt;&gt; &gt;There are no active volume tasks<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;On Sun, Mar 1, 2020 at 2:01 AM Strahil Nikolov<br>

&gt;&lt;<a href="mailto:hunter86_bg@yahoo.com" target="_blank">hunter86_bg@yahoo.com</a>&gt;<br>

&gt;&gt; &gt;wrote:<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; On March 1, 2020 6:08:31 AM GMT+02:00, Fox &lt;<a href="mailto:foxxz.net@gmail.com" target="_blank">foxxz.net@gmail.com</a>&gt;<br>

&gt;&gt; &gt;wrote:<br>

&gt;&gt; &gt;&gt; &gt;I am using a dozen odriod HC2 ARM systems each with a single<br>

&gt;&gt; &gt;HD/brick.<br>

&gt;&gt; &gt;&gt; &gt;Running ubuntu 18 and glusterfs 7.2 installed from the gluster<br>

&gt;PPA.<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;I can create a dispersed volume and use it. If one of the cluster<br>

&gt;&gt; &gt;&gt; &gt;members<br>

&gt;&gt; &gt;&gt; &gt;duck out, say gluster12 reboots, when it comes back online it<br>

&gt;shows<br>

&gt;&gt; &gt;&gt; &gt;connected in the peer list but using<br>

&gt;&gt; &gt;&gt; &gt;gluster volume heal &lt;volname&gt; info summary<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;It shows up as<br>

&gt;&gt; &gt;&gt; &gt;Brick gluster12:/exports/sda/brick1/disp1<br>

&gt;&gt; &gt;&gt; &gt;Status: Transport endpoint is not connected<br>

&gt;&gt; &gt;&gt; &gt;Total Number of entries: -<br>

&gt;&gt; &gt;&gt; &gt;Number of entries in heal pending: -<br>

&gt;&gt; &gt;&gt; &gt;Number of entries in split-brain: -<br>

&gt;&gt; &gt;&gt; &gt;Number of entries possibly healing: -<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;Trying to force a full heal doesn&#39;t fix it. The cluster member<br>

&gt;&gt; &gt;&gt; &gt;otherwise<br>

&gt;&gt; &gt;&gt; &gt;works and heals for other non-disperse volumes even while showing<br>

&gt;up<br>

&gt;&gt; &gt;as<br>

&gt;&gt; &gt;&gt; &gt;disconnected for the dispersed volume.<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;I have attached a terminal log of the volume creation and<br>

&gt;diagnostic<br>

&gt;&gt; &gt;&gt; &gt;output. Could this be an ARM specific problem?<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;I tested a similar setup on x86 virtual machines. They were able<br>

&gt;to<br>

&gt;&gt; &gt;&gt; &gt;heal a<br>

&gt;&gt; &gt;&gt; &gt;dispersed volume no problem. One thing I see in the ARM logs I<br>

&gt;don&#39;t<br>

&gt;&gt; &gt;&gt; &gt;see in<br>

&gt;&gt; &gt;&gt; &gt;the x86 logs is lots of this..<br>

&gt;&gt; &gt;&gt; &gt;[2020-03-01 03:54:45.856769] W [MSGID: 122035]<br>

&gt;&gt; &gt;&gt; &gt;[ec-common.c:668:ec_child_select] 0-disp1-disperse-0: Executing<br>

&gt;&gt; &gt;&gt; &gt;operation<br>

&gt;&gt; &gt;&gt; &gt;with some subvolumes unavailable. (800). FOP : &#39;LOOKUP&#39; failed on<br>

&gt;&gt; &gt;&gt; &gt;&#39;(null)&#39;<br>

&gt;&gt; &gt;&gt; &gt;with gfid 0d3c4cf3-e09c-4b9a-87d3-cdfc4f49b692<br>

&gt;&gt; &gt;&gt; &gt;[2020-03-01 03:54:45.910203] W [MSGID: 122035]<br>

&gt;&gt; &gt;&gt; &gt;[ec-common.c:668:ec_child_select] 0-disp1-disperse-0: Executing<br>

&gt;&gt; &gt;&gt; &gt;operation<br>

&gt;&gt; &gt;&gt; &gt;with some subvolumes unavailable. (800). FOP : &#39;LOOKUP&#39; failed on<br>

&gt;&gt; &gt;&gt; &gt;&#39;(null)&#39;<br>

&gt;&gt; &gt;&gt; &gt;with gfid 0d806805-81e4-47ee-a331-1808b34949bf<br>

&gt;&gt; &gt;&gt; &gt;[2020-03-01 03:54:45.932734] I<br>

&gt;[rpc-clnt.c:1963:rpc_clnt_reconfig]<br>

&gt;&gt; &gt;&gt; &gt;0-disp1-client-11: changing port to 49152 (from 0)<br>

&gt;&gt; &gt;&gt; &gt;[2020-03-01 03:54:45.956803] W [MSGID: 122035]<br>

&gt;&gt; &gt;&gt; &gt;[ec-common.c:668:ec_child_select] 0-disp1-disperse-0: Executing<br>

&gt;&gt; &gt;&gt; &gt;operation<br>

&gt;&gt; &gt;&gt; &gt;with some subvolumes unavailable. (800). FOP : &#39;LOOKUP&#39; failed on<br>

&gt;&gt; &gt;&gt; &gt;&#39;(null)&#39;<br>

&gt;&gt; &gt;&gt; &gt;with gfid d5768bad-7409-40f4-af98-4aef391d7ae4<br>

&gt;&gt; &gt;&gt; &gt;[2020-03-01 03:54:46.000102] W [MSGID: 122035]<br>

&gt;&gt; &gt;&gt; &gt;[ec-common.c:668:ec_child_select] 0-disp1-disperse-0: Executing<br>

&gt;&gt; &gt;&gt; &gt;operation<br>

&gt;&gt; &gt;&gt; &gt;with some subvolumes unavailable. (800). FOP : &#39;LOOKUP&#39; failed on<br>

&gt;&gt; &gt;&gt; &gt;&#39;(null)&#39;<br>

&gt;&gt; &gt;&gt; &gt;with gfid 216f5583-e1b4-49cf-bef9-8cd34617beaf<br>

&gt;&gt; &gt;&gt; &gt;[2020-03-01 03:54:46.044184] W [MSGID: 122035]<br>

&gt;&gt; &gt;&gt; &gt;[ec-common.c:668:ec_child_select] 0-disp1-disperse-0: Executing<br>

&gt;&gt; &gt;&gt; &gt;operation<br>

&gt;&gt; &gt;&gt; &gt;with some subvolumes unavailable. (800). FOP : &#39;LOOKUP&#39; failed on<br>

&gt;&gt; &gt;&gt; &gt;&#39;(null)&#39;<br>

&gt;&gt; &gt;&gt; &gt;with gfid 1b610b49-2d69-4ee6-a440-5d3edd6693d1<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; Hi,<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; Are you sure that the gluster bricks on this node is up and<br>

&gt;running ?<br>

&gt;&gt; &gt;&gt; What is the output of &#39;gluster volume status&#39; on this system ?<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; Best Regards,<br>

&gt;&gt; &gt;&gt; Strahil Nikolov<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; This seems like the brick is down.<br>

&gt;&gt; Check with &#39;ps aux | grep glusterfsd | grep disp1&#39; on the &#39;gluster12&#39;<br>

&gt;.<br>

&gt;&gt; Most probably it is down and you need  to verify the brick is<br>

&gt;properly<br>

&gt;&gt; mounted.<br>

&gt;&gt;<br>

&gt;&gt; Best Regards,<br>

&gt;&gt; Strahil Nikolov<br>

&gt;&gt;<br>

<br>

Hi Fox,<br>

<br>

<br>

Submit a bug and provide a link in the mailing list (add  the gluster-devel in CC once you register for that).<br>

Most probably it&#39;s a small thing that can be easily fixed.<br>

<br>

Have you tried to:<br>

gluster volume start &lt;VOLNAME&gt; force<br>

<br>

Best Regards,<br>

Strahil Nikolov<br>

</blockquote></div></div>