<div dir="ltr"><div>Even the brick which doesn&#39;t have high CPU seems to have same number of lookups, so that&#39;s not it.<br></div><div>Is there any difference at all between the machines which have high CPU vs low CPU?</div><div>I think the only other thing I would do is to install perf tools and try to figure out the call-graph which is leading to so much CPU</div><div><br></div><div>This affects performance of the brick I think, so you may have to do it quickly and for less time.<br></div><div><br></div><div><span style="font-size:11pt;font-family:Arial;color:rgb(0,0,255);background-color:transparent;font-weight:400;font-style:normal;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap" id="gmail-docs-internal-guid-62d3d128-7fff-1844-57ae-aeb4e06227e4">perf record --call-graph=dwarf -p   &lt;brick-pid&gt; -o &lt;/path/to/output&gt;</span></div><div><span style="font-size:11pt;font-family:Arial;color:rgb(0,0,255);background-color:transparent;font-weight:400;font-style:normal;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap" id="gmail-docs-internal-guid-62d3d128-7fff-1844-57ae-aeb4e06227e4">then</span></div><div><span style="font-size:11pt;font-family:Arial;color:rgb(0,0,255);background-color:transparent;font-weight:400;font-style:normal;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap" id="gmail-docs-internal-guid-62d3d128-7fff-1844-57ae-aeb4e06227e4"><span style="font-size:11pt;font-family:Arial;color:rgb(0,0,255);background-color:transparent;font-weight:400;font-style:normal;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap" id="gmail-docs-internal-guid-9e80d846-7fff-b090-5b4b-d0ad33659db8">perf report -i &lt;/path/to/output/given/in/the/previous/command&gt;</span></span></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, Aug 20, 2018 at 2:40 PM Hu Bert &lt;<a href="mailto:revirii@googlemail.com">revirii@googlemail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">gluster volume heal shared info | grep -i number<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

Number of entries: 0<br>

<br>

Looks good to me.<br>

<br>

<br>

2018-08-20 10:51 GMT+02:00 Pranith Kumar Karampuri &lt;<a href="mailto:pkarampu@redhat.com" target="_blank">pkarampu@redhat.com</a>&gt;:<br>

&gt; There are a lot of Lookup operations in the system. But I am not able to<br>

&gt; find why. Could you check the output of<br>

&gt;<br>

&gt; # gluster volume heal &lt;volname&gt; info | grep -i number<br>

&gt;<br>

&gt; it should print all zeros.<br>

&gt;<br>

&gt; On Fri, Aug 17, 2018 at 1:49 PM Hu Bert &lt;<a href="mailto:revirii@googlemail.com" target="_blank">revirii@googlemail.com</a>&gt; wrote:<br>

&gt;&gt;<br>

&gt;&gt; I don&#39;t know what you exactly mean with workload, but the main<br>

&gt;&gt; function of the volume is storing (incl. writing, reading) images<br>

&gt;&gt; (from hundreds of bytes up to 30 MBs, overall ~7TB). The work is done<br>

&gt;&gt; by apache tomcat servers writing to / reading from the volume. Besides<br>

&gt;&gt; images there are some text files and binaries that are stored on the<br>

&gt;&gt; volume and get updated regularly (every x hours); we&#39;ll try to migrate<br>

&gt;&gt; the latter ones to local storage asap.<br>

&gt;&gt;<br>

&gt;&gt; Interestingly it&#39;s only one process (and its threads) of the same<br>

&gt;&gt; brick on 2 of the gluster servers that consumes the CPU.<br>

&gt;&gt;<br>

&gt;&gt; gluster11: bricksdd1; not healed; full CPU<br>

&gt;&gt; gluster12: bricksdd1; got healed; normal CPU<br>

&gt;&gt; gluster13: bricksdd1; got healed; full CPU<br>

&gt;&gt;<br>

&gt;&gt; Besides: performance during heal (e.g. gluster12, bricksdd1) was way<br>

&gt;&gt; better than it is now. I&#39;ve attached 2 pngs showing the differing cpu<br>

&gt;&gt; usage of last week before/after heal.<br>

&gt;&gt;<br>

&gt;&gt; 2018-08-17 9:30 GMT+02:00 Pranith Kumar Karampuri &lt;<a href="mailto:pkarampu@redhat.com" target="_blank">pkarampu@redhat.com</a>&gt;:<br>

&gt;&gt; &gt; There seems to be too many lookup operations compared to any other<br>

&gt;&gt; &gt; operations. What is the workload on the volume?<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt; On Fri, Aug 17, 2018 at 12:47 PM Hu Bert &lt;<a href="mailto:revirii@googlemail.com" target="_blank">revirii@googlemail.com</a>&gt; wrote:<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; i hope i did get it right.<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; gluster volume profile shared start<br>

&gt;&gt; &gt;&gt; wait 10 minutes<br>

&gt;&gt; &gt;&gt; gluster volume profile shared info<br>

&gt;&gt; &gt;&gt; gluster volume profile shared stop<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; If that&#39;s ok, i&#39;ve attached the output of the info command.<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; 2018-08-17 8:31 GMT+02:00 Pranith Kumar Karampuri<br>

&gt;&gt; &gt;&gt; &lt;<a href="mailto:pkarampu@redhat.com" target="_blank">pkarampu@redhat.com</a>&gt;:<br>

&gt;&gt; &gt;&gt; &gt; Please do volume profile also for around 10 minutes when CPU% is<br>

&gt;&gt; &gt;&gt; &gt; high.<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt; On Fri, Aug 17, 2018 at 11:56 AM Pranith Kumar Karampuri<br>

&gt;&gt; &gt;&gt; &gt; &lt;<a href="mailto:pkarampu@redhat.com" target="_blank">pkarampu@redhat.com</a>&gt; wrote:<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; As per the output, all io-threads are using a lot of CPU. It is<br>

&gt;&gt; &gt;&gt; &gt;&gt; better<br>

&gt;&gt; &gt;&gt; &gt;&gt; to<br>

&gt;&gt; &gt;&gt; &gt;&gt; check what the volume profile is to see what is leading to so much<br>

&gt;&gt; &gt;&gt; &gt;&gt; work<br>

&gt;&gt; &gt;&gt; &gt;&gt; for<br>

&gt;&gt; &gt;&gt; &gt;&gt; io-threads. Please follow the documentation at<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; <a href="https://gluster.readthedocs.io/en/latest/Administrator%20Guide/Monitoring%20Workload/" rel="noreferrer" target="_blank">https://gluster.readthedocs.io/en/latest/Administrator%20Guide/Monitoring%20Workload/</a><br>

&gt;&gt; &gt;&gt; &gt;&gt; section: &quot;<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; Running GlusterFS Volume Profile Command&quot;<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; and attach output of  &quot;gluster volume profile info&quot;,<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; On Fri, Aug 17, 2018 at 11:24 AM Hu Bert &lt;<a href="mailto:revirii@googlemail.com" target="_blank">revirii@googlemail.com</a>&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; wrote:<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; Good morning,<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; i ran the command during 100% CPU usage and attached the file.<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; Hopefully it helps.<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; 2018-08-17 7:33 GMT+02:00 Pranith Kumar Karampuri<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &lt;<a href="mailto:pkarampu@redhat.com" target="_blank">pkarampu@redhat.com</a>&gt;:<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; Could you do the following on one of the nodes where you are<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; observing<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; high<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; CPU usage and attach that file to this thread? We can find what<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; threads/processes are leading to high usage. Do this for say 10<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; minutes<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; when<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; you see the ~100% CPU.<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; top -bHd 5 &gt; /tmp/top.${HOSTNAME}.txt<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; On Wed, Aug 15, 2018 at 2:37 PM Hu Bert &lt;<a href="mailto:revirii@googlemail.com" target="_blank">revirii@googlemail.com</a>&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; wrote:<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; Hello again :-)<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; The self heal must have finished as there are no log entries in<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; glustershd.log files anymore. According to munin disk latency<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; (average<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; io wait) has gone down to 100 ms, and disk utilization has gone<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; down<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; to ~60% - both on all servers and hard disks.<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; But now system load on 2 servers (which were in the good state)<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; fluctuates between 60 and 100; the server with the formerly<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; failed<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; disk has a load of 20-30.I&#39;ve uploaded some munin graphics of<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; the<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; cpu<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; usage:<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; <a href="https://abload.de/img/gluster11_cpu31d3a.png" rel="noreferrer" target="_blank">https://abload.de/img/gluster11_cpu31d3a.png</a><br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; <a href="https://abload.de/img/gluster12_cpu8sem7.png" rel="noreferrer" target="_blank">https://abload.de/img/gluster12_cpu8sem7.png</a><br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; <a href="https://abload.de/img/gluster13_cpud7eni.png" rel="noreferrer" target="_blank">https://abload.de/img/gluster13_cpud7eni.png</a><br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; This can&#39;t be normal. 2 of the servers under heavy load and one<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; not<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; that much. Does anyone have an explanation of this strange<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; behaviour?<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; Thx :-)<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; 2018-08-14 9:37 GMT+02:00 Hu Bert &lt;<a href="mailto:revirii@googlemail.com" target="_blank">revirii@googlemail.com</a>&gt;:<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; Hi there,<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; well, it seems the heal has finally finished. Couldn&#39;t<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; see/find<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; any<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; related log message; is there such a message in a specific log<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; file?<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; But i see the same behaviour when the last heal finished: all<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; CPU<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; cores are consumed by brick processes; not only by the<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; formerly<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; failed<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; bricksdd1, but by all 4 brick processes (and their threads).<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; Load<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; goes<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; up to &gt; 100 on the 2 servers with the not-failed brick, and<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; glustershd.log gets filled with a lot of entries. Load on the<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; server<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; with the then failed brick not that high, but still ~60.<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; Is this behaviour normal? Is there some post-heal after a heal<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; has<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; finished?<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;&gt; &gt; thx in advance :-)<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; --<br>

&gt;&gt; &gt;&gt; &gt;&gt;&gt; &gt; Pranith<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt;<br>

&gt;&gt; &gt;&gt; &gt;&gt; --<br>

&gt;&gt; &gt;&gt; &gt;&gt; Pranith<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt;<br>

&gt;&gt; &gt;&gt; &gt; --<br>

&gt;&gt; &gt;&gt; &gt; Pranith<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt;<br>

&gt;&gt; &gt; --<br>

&gt;&gt; &gt; Pranith<br>

&gt;<br>

&gt;<br>

&gt;<br>

&gt; --<br>

&gt; Pranith<br>

</blockquote></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">Pranith<br></div></div>