<div dir="ltr"><div dir="ltr"><div>As per code, it is difficult to predict why the brick was crashed in this function but I think we can avoid this crash after saving the host_name/base_path</div><div>in the starting of this function(posix_fs_health_check). Though we do cancel this health check thread at the time of calling posix_fini and call this function(posix_fs_health_check)</div><div>between cancellation point so ideally hostname and base_path will be free after calling this function (posix_fs_health_check) but here it seems hostname/base_path are freed at</div><div>the time of calling gf_event.</div><div><br></div><div>Thanks,</div><div>Mohit Agrawal</div></div></div><br><div class="gmail_quote"><div dir="ltr">On Wed, Nov 14, 2018 at 9:42 PM Nithya Balachandran &lt;<a href="mailto:nbalacha@redhat.com" target="_blank">nbalacha@redhat.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr">I am also seeing a bunch of these errors in the logs. Do they really need to be Info logs?</div><div dir="ltr"><br></div><div>&lt;snip&gt;</div><div><br></div><div dir="ltr"><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.597029] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 382 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.597640] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 385 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.598114] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 344 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.598737] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 343 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.599172] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 384 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.599789] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 386 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.600237] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 387 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.579405] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 324 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.563771] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 187 (errno:11:Resource temporarily unavailable); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.560416] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 161 (errno:0:Success); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.564826] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 194 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.561503] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 306 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.567985] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 164 (errno:0:Success); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.566924] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 198 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.562567] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 346 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:18.580451] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 363 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:23.165797] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 346 (errno:11:Resource temporarily unavailable); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:23.166019] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 207 (errno:0:Success); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:23.166905] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 197 (errno:0:Success); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:23.167541] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 273 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:23.167904] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 275 (errno:61:No data available); returning ENODATA</font></div><div dir="ltr"><font face="monospace, monospace" size="1">[2018-11-14 06:01:23.168502] I [socket.c:693:__socket_rwv] 0-tcp.patchy-vol01-server: EOF on socket 277 (errno:61:No data available); returning ENODATA</font></div><div><font face="monospace, monospace" size="1"><br></font></div><div><font face="monospace, monospace" size="1">&lt;/snip&gt;</font></div><div><font face="monospace, monospace" size="1"><br></font></div><div><font face="monospace, monospace" size="1"><br></font></div><div><div><font face="arial, helvetica, sans-serif">[nbalacha@dhcp35-62 bricks]$ grep &quot;EOF on socket&quot; d-backends-vol01-brick* |wc -l</font></div><div><font face="arial, helvetica, sans-serif">1580</font></div></div><div><br></div><div><br></div><div><br></div><div>Regards,</div><div>Nithya</div></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 14 November 2018 at 21:03, Shyam Ranganathan <span dir="ltr">&lt;<a href="mailto:srangana@redhat.com" target="_blank">srangana@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span>On 11/14/2018 10:04 AM, Nithya Balachandran wrote:<br>
&gt; Hi Mohit,<br>
&gt; <br>
&gt; The regression run in the subject has failed because a brick has crashed in <br>
&gt; <br>
&gt; bug-1432542-mpx-restart-crash.t<br>
&gt; <br>
&gt; <br>
</span>&gt; *06:03:38* 1 test(s) generated core <br>
&gt; *06:03:38* ./tests/bugs/core/bug-1432542-mpx-restart-crash.t<br>
&gt; *06:03:38*<br>
<span>&gt; <br>
&gt; <br>
&gt; The brick process has crashed in posix_fs_health_check as  this-&gt;priv<br>
&gt; contains garbage. It looks like it might have been freed already. Can<br>
&gt; you take a look at it?<br>
<br>
</span>Sounds like another incarnation of:<br>
<a href="https://bugzilla.redhat.com/show_bug.cgi?id=1636570" rel="noreferrer" target="_blank">https://bugzilla.redhat.com/show_bug.cgi?id=1636570</a><br>
<br>
@mohit, any further clues?<br>
<div><div class="m_5214367010829276708m_-5573198220252140434h5"><br>
&gt; <br>
&gt; <br>
&gt; <br>
&gt; (gdb) bt<br>
&gt; #0  0x00007f4019ea1f19 in vfprintf () from ./lib64/libc.so.6<br>
&gt; #1  0x00007f4019eccf49 in vsnprintf () from ./lib64/libc.so.6<br>
&gt; #2  0x00007f401b87705a in gf_vasprintf (string_ptr=0x7f3e81ff99f0,<br>
&gt; format=0x7f400df32f40 &quot;op=%s;path=%s;error=%s;brick=%s:%s timeout is<br>
&gt; %d&quot;, arg=0x7f3e81ff99f8)<br>
&gt;     at<br>
&gt; /home/jenkins/root/workspace/centos7-regression/libglusterfs/src/mem-pool.c:234<br>
&gt; #3  0x00007f401b8de6e2 in _gf_event<br>
&gt; (event=EVENT_POSIX_HEALTH_CHECK_FAILED, fmt=0x7f400df32f40<br>
&gt; &quot;op=%s;path=%s;error=%s;brick=%s:%s timeout is %d&quot;)<br>
&gt;     at<br>
&gt; /home/jenkins/root/workspace/centos7-regression/libglusterfs/src/events.c:89<br>
&gt; #4  0x00007f400def07f9 in posix_fs_health_check (this=0x7f3fd78b7840) at<br>
&gt; /home/jenkins/root/workspace/centos7-regression/xlators/storage/posix/src/posix-helpers.c:1960<br>
&gt; #5  0x00007f400def0926 in posix_health_check_thread_proc<br>
&gt; (data=0x7f3fd78b7840)<br>
&gt;     at<br>
&gt; /home/jenkins/root/workspace/centos7-regression/xlators/storage/posix/src/posix-helpers.c:2005<br>
&gt; #6  0x00007f401a68ae25 in start_thread () from ./lib64/libpthread.so.0<br>
&gt; #7  0x00007f4019f53bad in clone () from ./lib64/libc.so.6<br>
&gt; (gdb) f 4<br>
&gt; #4  0x00007f400def07f9 in posix_fs_health_check (this=0x7f3fd78b7840) at<br>
&gt; /home/jenkins/root/workspace/centos7-regression/xlators/storage/posix/src/posix-helpers.c:1960<br>
&gt; 1960        gf_event(EVENT_POSIX_HEALTH_CHECK_FAILED,<br>
&gt; (gdb) l<br>
&gt; 1955        sys_close(fd);<br>
&gt; 1956    }<br>
&gt; 1957    if (ret &amp;&amp; file_path[0]) {<br>
&gt; 1958        gf_msg(this-&gt;name, GF_LOG_WARNING, errno,<br>
&gt; P_MSG_HEALTHCHECK_FAILED,<br>
&gt; 1959               &quot;%s() on %s returned&quot;, op, file_path);<br>
&gt; 1960        gf_event(EVENT_POSIX_HEALTH_CHECK_FAILED,<br>
&gt; 1961                 &quot;op=%s;path=%s;error=%s;brick=%s:%s timeout is %d&quot;, op,<br>
&gt; 1962                 file_path, strerror(op_errno), priv-&gt;hostname,<br>
&gt; priv-&gt;base_path,<br>
&gt; 1963                 timeout);<br>
&gt; 1964    }<br>
&gt; (gdb) p pri-&gt;hostname<br>
&gt; No symbol &quot;pri&quot; in current context.<br>
</div></div>&gt; *(gdb) p priv-&gt;hostname*<br>
&gt; *$14 = 0xa200 &lt;error: Cannot access memory at address 0xa200&gt;*<br>
&gt; *(gdb) p priv-&gt;base_path*<br>
&gt; *$15 = 0x7f3ddeadc0de00 &lt;error: Cannot access memory at address<br>
&gt; 0x7f3ddeadc0de00&gt;*<br>
&gt; (gdb) <br>
&gt; <br>
&gt; <br>
&gt; <br>
&gt; Thanks,<br>
&gt; Nithya<br>
&gt; <br>
&gt; <br>
&gt; _______________________________________________<br>
&gt; Gluster-devel mailing list<br>
&gt; <a href="mailto:Gluster-devel@gluster.org" target="_blank">Gluster-devel@gluster.org</a><br>
&gt; <a href="https://lists.gluster.org/mailman/listinfo/gluster-devel" rel="noreferrer" target="_blank">https://lists.gluster.org/mailman/listinfo/gluster-devel</a><br>
&gt; <br>
</blockquote></div><br></div>
</blockquote></div>