<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Aug 23, 2018 at 10:49 AM, Michael Scherer <span dir="ltr">&lt;<a href="mailto:mscherer@redhat.com" target="_blank">mscherer@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Le jeudi 23 août 2018 à 11:21 +0530, Nigel Babu a écrit :<br>
&gt; One more piece that&#39;s missing is when we&#39;ll restart the physical<br>
&gt; servers.<br>
&gt; That seems to be entirely missing. The rest looks good to me and I&#39;m<br>
&gt; happy<br>
&gt; to add an item to next sprint to automate the node rebooting.<br>
<br>
That&#39;s covered as &quot;as critical as the services that depend on them.<br>
<br>
Now, the problem I do have is that some server (myrmicinae to name it)<br>
do take 30 minutes to reboot, and I can&#39;t diagnose nor fix without<br>
taking hours. This is the one running gerrit/jenkins, so that&#39;s not<br>
possible to spent time on this kind of test.<br></blockquote><div><br></div><div>You&#39;d imagine people would move to kexec reboots for VMs by now.</div><div>Not sure why it&#39;s not catching up.</div><div>(BTW, is it taking time to shutdown or to bring up?)</div><div>Y.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
<br>
<br>
&gt; On Tue, Aug 21, 2018 at 9:56 PM Michael Scherer &lt;<a href="mailto:mscherer@redhat.com">mscherer@redhat.com</a>&gt;<br>
&gt; wrote:<br>
&gt; <br>
&gt; &gt; Hi,<br>
&gt; &gt; <br>
&gt; &gt; so that&#39;s kernel reboot time again, this time courtesy of Intel<br>
&gt; &gt; (again). I do not consider the issue to be &quot;OMG the sky is<br>
&gt; &gt; falling&quot;,<br>
&gt; &gt; but enough to take time to streamline our process to reboot.<br>
&gt; &gt; <br>
&gt; &gt; <br>
&gt; &gt; <br>
&gt; &gt; Currently, we do not have a policy or anything, and I think the<br>
&gt; &gt; negociation time around that is cumbersome:<br>
&gt; &gt; - we need to reach people, which take time and add latency (would<br>
&gt; &gt; be<br>
&gt; &gt; bad if that was a urgent issue, and likely add undeed stress while<br>
&gt; &gt; waiting)<br>
&gt; &gt; <br>
&gt; &gt; - we need to keep track of what was supposed to be done, which is<br>
&gt; &gt; also<br>
&gt; &gt; cumbersome<br>
&gt; &gt; <br>
&gt; &gt; While that&#39;s not a problem if I had only gluster to deal with, my<br>
&gt; &gt; team<br>
&gt; &gt; of 3 do have to deal with a few more projects than 1, and<br>
&gt; &gt; orchestrating<br>
&gt; &gt; choice for a dozen of group is time consuming (just think last time<br>
&gt; &gt; you<br>
&gt; &gt; had to go to a restaurant after a conference to see how hard it is<br>
&gt; &gt; to<br>
&gt; &gt; reach agreements).<br>
&gt; &gt; <br>
&gt; &gt; So I would propose that we simplify that with the following policy:<br>
&gt; &gt; <br>
&gt; &gt; - Jenkins builder would be reboot by jenkins on a regular basis.<br>
&gt; &gt; I do not know how we can do that, but given that we have enough<br>
&gt; &gt; node to<br>
&gt; &gt; sustain builds, it shouldn&#39;t impact developpers in a big way. The<br>
&gt; &gt; only<br>
&gt; &gt; exception is the freebsd builder, since we only have 1 functionnal<br>
&gt; &gt; at<br>
&gt; &gt; the moment. But once the 2nd is working, it should be treated like<br>
&gt; &gt; the<br>
&gt; &gt; others.<br>
&gt; &gt; <br>
&gt; &gt; - service in HA (firewall, reverse proxy, internal squid/DNS) would<br>
&gt; &gt; be<br>
&gt; &gt; reboot during the day without notice. Due to working HA, that&#39;s non<br>
&gt; &gt; user impacting. In fact, that&#39;s already what I do.<br>
&gt; &gt; <br>
&gt; &gt; - service not in HA should be pushed for HA (gerrit might get there<br>
&gt; &gt; one<br>
&gt; &gt; day, no way for jenkins :/, need to see for postgres and so<br>
&gt; &gt; fstat/softserve, and maybe try to get something for<br>
&gt; &gt; <a href="http://download.gluster.org" rel="noreferrer" target="_blank">download.gluster.org</a>)<br>
&gt; &gt; <br>
&gt; &gt; - service critical and not in HA should be announced in advance.<br>
&gt; &gt; Critical mean the service listed here: <a href="https://gluster-infra-docs.r" rel="noreferrer" target="_blank">https://gluster-infra-docs.r</a><br>
&gt; &gt; eadt<br>
&gt; &gt; <a href="http://hedocs.io/emergency.html" rel="noreferrer" target="_blank">hedocs.io/emergency.html</a><br>
&gt; &gt; <br>
&gt; &gt; - service non visible to end user (backup servers, ansible<br>
&gt; &gt; deployment<br>
&gt; &gt; etc) can be reboot at will<br>
&gt; &gt; <br>
&gt; &gt; Then the only question is what about stuff not in the previous<br>
&gt; &gt; category, like softserve, fstat.<br>
&gt; &gt; <br>
&gt; &gt; Also, all dependencies are as critical as the most critical service<br>
&gt; &gt; that depend on them. So hypervisors hosting gerrit/jenkins are<br>
&gt; &gt; critical<br>
&gt; &gt; (until we find a way to avoid outage), the ones for builders are<br>
&gt; &gt; not.<br>
&gt; &gt; <br>
&gt; &gt; <br>
&gt; &gt; <br>
&gt; &gt; Thoughts, ideas ?<br>
<span class="">&gt; &gt; <br>
&gt; &gt; <br>
&gt; &gt; --<br>
&gt; &gt; Michael Scherer<br>
&gt; &gt; Sysadmin, Community Infrastructure and Platform, OSAS<br>
&gt; &gt; <br>
</span>&gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; Gluster-infra mailing list<br>
&gt; &gt; <a href="mailto:Gluster-infra@gluster.org">Gluster-infra@gluster.org</a><br>
&gt; &gt; <a href="https://lists.gluster.org/mailman/listinfo/gluster-infra" rel="noreferrer" target="_blank">https://lists.gluster.org/<wbr>mailman/listinfo/gluster-infra</a><br>
<div class="HOEnZb"><div class="h5">&gt; <br>
&gt; <br>
&gt; <br>
-- <br>
Michael Scherer<br>
Sysadmin, Community Infrastructure and Platform, OSAS<br>
<br>
</div></div><br>______________________________<wbr>_________________<br>
Gluster-devel mailing list<br>
<a href="mailto:Gluster-devel@gluster.org">Gluster-devel@gluster.org</a><br>
<a href="https://lists.gluster.org/mailman/listinfo/gluster-devel" rel="noreferrer" target="_blank">https://lists.gluster.org/<wbr>mailman/listinfo/gluster-devel</a><br></blockquote></div><br></div></div>