<div dir="ltr"><div class="gmail_default" style="font-family:monospace,monospace">Hi,</div><div class="gmail_default" style="font-family:monospace,monospace"><br></div><div class="gmail_default" style="font-family:monospace,monospace">no, the workload does not include deletion of any files or directories at all.</div><div class="gmail_default" style="font-family:monospace,monospace">The workload consists mainly of writing (creating) small files or appending to files.​</div><div class="gmail_default" style="font-family:monospace,monospace"><br></div><div class="gmail_default" style="font-family:monospace,monospace">If it is of any use, I could profile the workload.</div><div class="gmail_default" style="font-family:monospace,monospace"><br></div><div class="gmail_default" style="font-family:monospace,monospace">Regards,</div><div class="gmail_default" style="font-family:monospace,monospace">Micha</div></div><div class="gmail_extra"><br><div class="gmail_quote">2017-03-09 11:46 GMT+01:00 Mohammed Rafi K C <span dir="ltr">&lt;<a href="mailto:rkavunga@redhat.com" target="_blank">rkavunga@redhat.com</a>&gt;</span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I&#39;m sorry that you had to downgrade. We will work on it and hopefully<br>
will see you soon in 3.8 ;) .<br>
<br>
<br>
Just one question, does your workload include lot of delete either files<br>
or directories. We just want to see if the delayed deletes (Janitor<br>
thread) causing any issue .<br>
<br>
<br>
Regards<br>
<br>
Rafi KC<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
On 03/09/2017 01:53 PM, Amar Tumballi wrote:<br>
&gt;<br>
&gt; ----- Original Message -----<br>
&gt;&gt; From: &quot;Micha Ober&quot; &lt;<a href="mailto:micha2k@gmail.com">micha2k@gmail.com</a>&gt;<br>
&gt;&gt;<br>
&gt;&gt; ​Just to let you know: I have reverted back to glusterfs 3.4.2 and everything<br>
&gt;&gt; is working again. No more disconnects, no more errors in the kernel log. So<br>
&gt;&gt; there *has* to be some kind of regression in the newer versions​. Sadly, I<br>
&gt;&gt; guess, it will be hard to find.<br>
&gt;&gt;<br>
&gt; Thanks for the update Micha. This helps to corner the issue a little at least.<br>
&gt;<br>
&gt; Regards,<br>
&gt; Amar<br>
&gt;<br>
&gt;<br>
&gt;&gt; 2016-12-20 13:31 GMT+01:00 Micha Ober &lt; <a href="mailto:micha2k@gmail.com">micha2k@gmail.com</a> &gt; :<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Rafi,<br>
&gt;&gt;<br>
&gt;&gt; here are the log files:<br>
&gt;&gt;<br>
&gt;&gt; NFS: <a href="http://paste.ubuntu.com/23658653/" target="_blank" rel="noreferrer">http://paste.ubuntu.com/<wbr>23658653/</a><br>
&gt;&gt; Brick: <a href="http://paste.ubuntu.com/23658656/" target="_blank" rel="noreferrer">http://paste.ubuntu.com/<wbr>23658656/</a><br>
&gt;&gt;<br>
&gt;&gt; The brick log is of the brick which has caused the last disconnect at<br>
&gt;&gt; 2016-12-20 06:46:36 (0-gv0-client-7).<br>
&gt;&gt;<br>
&gt;&gt; For completeness, here is also dmesg output:<br>
&gt;&gt; <a href="http://paste.ubuntu.com/23658691/" target="_blank" rel="noreferrer">http://paste.ubuntu.com/<wbr>23658691/</a><br>
&gt;&gt;<br>
&gt;&gt; Regards,<br>
&gt;&gt; Micha<br>
&gt;&gt;<br>
&gt;&gt; 2016-12-19 7:28 GMT+01:00 Mohammed Rafi K C &lt; <a href="mailto:rkavunga@redhat.com">rkavunga@redhat.com</a> &gt; :<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Micha,<br>
&gt;&gt;<br>
&gt;&gt; Sorry for the late reply. I was busy with some other things.<br>
&gt;&gt;<br>
&gt;&gt; If you have still the setup available Can you enable TRACE log level [1],[2]<br>
&gt;&gt; and see if you could find any log entries when the network start<br>
&gt;&gt; disconnecting. Basically I&#39;m trying to find out any disconnection had<br>
&gt;&gt; occurred other than ping timer expire issue.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; [1] : gluster volume &lt;volname&gt; diagnostics.brick-log-level TRACE<br>
&gt;&gt;<br>
&gt;&gt; [2] : gluster volume &lt;volname&gt; diagnostics.client-log-level TRACE<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Regards<br>
&gt;&gt;<br>
&gt;&gt; Rafi KC<br>
&gt;&gt;<br>
&gt;&gt; On 12/08/2016 07:59 PM, Atin Mukherjee wrote:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; On Thu, Dec 8, 2016 at 4:37 PM, Micha Ober &lt; <a href="mailto:micha2k@gmail.com">micha2k@gmail.com</a> &gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Rafi,<br>
&gt;&gt;<br>
&gt;&gt; thank you for your support. It is greatly appreciated.<br>
&gt;&gt;<br>
&gt;&gt; Just some more thoughts from my side:<br>
&gt;&gt;<br>
&gt;&gt; There have been no reports from other users in *this* thread until now, but I<br>
&gt;&gt; have found at least one user with a very simiar problem in an older thread:<br>
&gt;&gt;<br>
&gt;&gt; <a href="https://www.gluster.org/pipermail/gluster-users/2014-November/019637.html" target="_blank" rel="noreferrer">https://www.gluster.org/<wbr>pipermail/gluster-users/2014-<wbr>November/019637.html</a><br>
&gt;&gt;<br>
&gt;&gt; He is also reporting disconnects with no apparent reasons, althogh his setup<br>
&gt;&gt; is a bit more complicated, also involving a firewall. In our setup, all<br>
&gt;&gt; servers/clients are connected via 1 GbE with no firewall or anything that<br>
&gt;&gt; might block/throttle traffic. Also, we are using exactly the same software<br>
&gt;&gt; versions on all nodes.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; I can also find some reports in the bugtracker when searching for<br>
&gt;&gt; &quot;rpc_client_ping_timer_<wbr>expired&quot; and &quot;rpc_clnt_ping_timer_expired&quot; (looks<br>
&gt;&gt; like spelling changed during versions).<br>
&gt;&gt;<br>
&gt;&gt; <a href="https://bugzilla.redhat.com/show_bug.cgi?id=1096729" target="_blank" rel="noreferrer">https://bugzilla.redhat.com/<wbr>show_bug.cgi?id=1096729</a><br>
&gt;&gt;<br>
&gt;&gt; Just FYI, this is a different issue, here GlusterD fails to handle the volume<br>
&gt;&gt; of incoming requests on time since MT-epoll is not enabled here.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; <a href="https://bugzilla.redhat.com/show_bug.cgi?id=1370683" target="_blank" rel="noreferrer">https://bugzilla.redhat.com/<wbr>show_bug.cgi?id=1370683</a><br>
&gt;&gt;<br>
&gt;&gt; But both reports involve large traffic/load on the bricks/disks, which is not<br>
&gt;&gt; the case for out setup.<br>
&gt;&gt; To give a ballpark figure: Over three days, 30 GiB were written. And the data<br>
&gt;&gt; was not written at once, but continuously over the whole time.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Just to be sure, I have checked the logfiles of one of the other clusters<br>
&gt;&gt; right now, which are sitting in the same building, in the same rack, even on<br>
&gt;&gt; the same switch, running the same jobs, but with glusterfs 3.4.2 and I can<br>
&gt;&gt; see no disconnects in the logfiles. So I can definitely rule out our<br>
&gt;&gt; infrastructure as problem.<br>
&gt;&gt;<br>
&gt;&gt; Regards,<br>
&gt;&gt; Micha<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Am 07.12.2016 um 18:08 schrieb Mohammed Rafi K C:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Micha,<br>
&gt;&gt;<br>
&gt;&gt; This is great. I will provide you one debug build which has two fixes which I<br>
&gt;&gt; possible suspect for a frequent disconnect issue, though I don&#39;t have much<br>
&gt;&gt; data to validate my theory. So I will take one more day to dig in to that.<br>
&gt;&gt;<br>
&gt;&gt; Thanks for your support, and opensource++<br>
&gt;&gt;<br>
&gt;&gt; Regards<br>
&gt;&gt;<br>
&gt;&gt; Rafi KC<br>
&gt;&gt; On 12/07/2016 05:02 AM, Micha Ober wrote:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi,<br>
&gt;&gt;<br>
&gt;&gt; thank you for your answer and even more for the question!<br>
&gt;&gt; Until now, I was using FUSE. Today I changed all mounts to NFS using the same<br>
&gt;&gt; 3.7.17 version.<br>
&gt;&gt;<br>
&gt;&gt; But: The problem is still the same. Now, the NFS logfile contains lines like<br>
&gt;&gt; these:<br>
&gt;&gt;<br>
&gt;&gt; [2016-12-06 15:12:29.006325] C<br>
&gt;&gt; [rpc-clnt-ping.c:165:rpc_clnt_<wbr>ping_timer_expired] 0-gv0-client-7: server<br>
&gt;&gt; X.X.18.62:49153 has not responded in the last 42 seconds, disconnecting.<br>
&gt;&gt;<br>
&gt;&gt; Interestingly enough, the IP address X.X.18.62 is the same machine! As I<br>
&gt;&gt; wrote earlier, each node serves both as a server and a client, as each node<br>
&gt;&gt; contributes bricks to the volume. Every server is connecting to itself via<br>
&gt;&gt; its hostname. For example, the fstab on the node &quot;giant2&quot; looks like:<br>
&gt;&gt;<br>
&gt;&gt; #giant2:/gv0 /shared_data glusterfs defaults,noauto 0 0<br>
&gt;&gt; #giant2:/gv2 /shared_slurm glusterfs defaults,noauto 0 0<br>
&gt;&gt;<br>
&gt;&gt; giant2:/gv0 /shared_data nfs defaults,_netdev,vers=3 0 0<br>
&gt;&gt; giant2:/gv2 /shared_slurm nfs defaults,_netdev,vers=3 0 0<br>
&gt;&gt;<br>
&gt;&gt; So I understand the disconnects even less.<br>
&gt;&gt;<br>
&gt;&gt; I don&#39;t know if it&#39;s possible to create a dummy cluster which exposes the<br>
&gt;&gt; same behaviour, because the disconnects only happen when there are compute<br>
&gt;&gt; jobs running on those nodes - and they are GPU compute jobs, so that&#39;s<br>
&gt;&gt; something which cannot be easily emulated in a VM.<br>
&gt;&gt;<br>
&gt;&gt; As we have more clusters (which are running fine with an ancient 3.4 version<br>
&gt;&gt; :-)) and we are currently not dependent on this particular cluster (which<br>
&gt;&gt; may stay like this for this month, I think) I should be able to deploy the<br>
&gt;&gt; debug build on the &quot;real&quot; cluster, if you can provide a debug build.<br>
&gt;&gt;<br>
&gt;&gt; Regards and thanks,<br>
&gt;&gt; Micha<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Am 06.12.2016 um 08:15 schrieb Mohammed Rafi K C:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; On 12/03/2016 12:56 AM, Micha Ober wrote:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; ** Update: ** I have downgraded from 3.8.6 to 3.7.17 now, but the problem<br>
&gt;&gt; still exists.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Client log: <a href="http://paste.ubuntu.com/" target="_blank" rel="noreferrer">http://paste.ubuntu.com/</a> 23569065/<br>
&gt;&gt; Brick log: <a href="http://paste.ubuntu.com/" target="_blank" rel="noreferrer">http://paste.ubuntu.com/</a> 23569067/<br>
&gt;&gt;<br>
&gt;&gt; Please note that each server has two bricks.<br>
&gt;&gt; Whereas, according to the logs, one brick loses the connection to all other<br>
&gt;&gt; hosts:<br>
&gt;&gt; [2016-12-02 18:38:53.703301] W [socket.c:596:__socket_rwv] 0-tcp.gv0-server:<br>
&gt;&gt; writev on X.X.X.219:49121 failed (Broken pipe)<br>
&gt;&gt; [2016-12-02 18:38:53.703381] W [socket.c:596:__socket_rwv] 0-tcp.gv0-server:<br>
&gt;&gt; writev on X.X.X.62:49118 failed (Broken pipe)<br>
&gt;&gt; [2016-12-02 18:38:53.703380] W [socket.c:596:__socket_rwv] 0-tcp.gv0-server:<br>
&gt;&gt; writev on X.X.X.107:49121 failed (Broken pipe)<br>
&gt;&gt; [2016-12-02 18:38:53.703424] W [socket.c:596:__socket_rwv] 0-tcp.gv0-server:<br>
&gt;&gt; writev on X.X.X.206:49120 failed (Broken pipe)<br>
&gt;&gt; [2016-12-02 18:38:53.703359] W [socket.c:596:__socket_rwv] 0-tcp.gv0-server:<br>
&gt;&gt; writev on X.X.X.58:49121 failed (Broken pipe)<br>
&gt;&gt;<br>
&gt;&gt; The SECOND brick on the SAME host is NOT affected, i.e. no disconnects!<br>
&gt;&gt; As I said, the network connection is fine and the disks are idle.<br>
&gt;&gt; The CPU always has 2 free cores.<br>
&gt;&gt;<br>
&gt;&gt; It looks like I have to downgrade to 3.4 now in order for the disconnects to<br>
&gt;&gt; stop.<br>
&gt;&gt;<br>
&gt;&gt; Hi Micha,<br>
&gt;&gt;<br>
&gt;&gt; Thanks for the update and sorry for what happened with gluster higher<br>
&gt;&gt; versions. I can understand the need for downgrade as it is a production<br>
&gt;&gt; setup.<br>
&gt;&gt;<br>
&gt;&gt; Can you tell me the clients used here ? whether it is a fuse,nfs,nfs-ganesha,<br>
&gt;&gt; smb or libgfapi ?<br>
&gt;&gt;<br>
&gt;&gt; Since I&#39;m not able to reproduce the issue (I have been trying from last<br>
&gt;&gt; 3days) and the logs are not much helpful here (we don&#39;t have much logs in<br>
&gt;&gt; socket layer), Could you please create a dummy cluster and try to reproduce<br>
&gt;&gt; the issue? If then we can play with that volume and I could provide some<br>
&gt;&gt; debug build which we can use for further debugging?<br>
&gt;&gt;<br>
&gt;&gt; If you don&#39;t have bandwidth for this, please leave it ;).<br>
&gt;&gt;<br>
&gt;&gt; Regards<br>
&gt;&gt; Rafi KC<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; - Micha<br>
&gt;&gt;<br>
&gt;&gt; Am 30.11.2016 um 06:57 schrieb Mohammed Rafi K C:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Micha,<br>
&gt;&gt;<br>
&gt;&gt; I have changed the thread and subject so that your original thread remain<br>
&gt;&gt; same for your query. Let&#39;s try to fix the problem what you observed with<br>
&gt;&gt; 3.8.4, So I have started a new thread to discuss the frequent disconnect<br>
&gt;&gt; problem.<br>
&gt;&gt;<br>
&gt;&gt; If any one else has experienced the same problem, please respond to the mail.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; It would be very helpful if you could give us some more logs from clients and<br>
&gt;&gt; bricks. Also any reproducible steps will surely help to chase the problem<br>
&gt;&gt; further.<br>
&gt;&gt;<br>
&gt;&gt; Regards<br>
&gt;&gt;<br>
&gt;&gt; Rafi KC<br>
&gt;&gt; On 11/30/2016 04:44 AM, Micha Ober wrote:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; I had opened another thread on this mailing list (Subject: &quot;After upgrade<br>
&gt;&gt; from 3.4.2 to 3.8.5 - High CPU usage resulting in disconnects and<br>
&gt;&gt; split-brain&quot;).<br>
&gt;&gt;<br>
&gt;&gt; The title may be a bit misleading now, as I am no longer observing high CPU<br>
&gt;&gt; usage after upgrading to 3.8.6, but the disconnects are still happening and<br>
&gt;&gt; the number of files in split-brain is growing.<br>
&gt;&gt;<br>
&gt;&gt; Setup: 6 compute nodes, each serving as a glusterfs server and client, Ubuntu<br>
&gt;&gt; 14.04, two bricks per node, distribute-replicate<br>
&gt;&gt;<br>
&gt;&gt; I have two gluster volumes set up (one for scratch data, one for the slurm<br>
&gt;&gt; scheduler). Only the scratch data volume shows critical errors &quot;[...] has<br>
&gt;&gt; not responded in the last 42 seconds, disconnecting.&quot;. So I can rule out<br>
&gt;&gt; network problems, the gigabit link between the nodes is not saturated at<br>
&gt;&gt; all. The disks are almost idle (&lt;10%).<br>
&gt;&gt;<br>
&gt;&gt; I have glusterfs 3.4.2 on Ubuntu 12.04 on a another compute cluster, running<br>
&gt;&gt; fine since it was deployed.<br>
&gt;&gt; I had glusterfs 3.4.2 on Ubuntu 14.04 on this cluster, running fine for<br>
&gt;&gt; almost a year.<br>
&gt;&gt;<br>
&gt;&gt; After upgrading to 3.8.5, the problems (as described) started. I would like<br>
&gt;&gt; to use some of the new features of the newer versions (like bitrot), but the<br>
&gt;&gt; users can&#39;t run their compute jobs right now because the result files are<br>
&gt;&gt; garbled.<br>
&gt;&gt;<br>
&gt;&gt; There also seems to be a bug report with a smiliar problem: (but no progress)<br>
&gt;&gt; <a href="https://bugzilla.redhat.com/" target="_blank" rel="noreferrer">https://bugzilla.redhat.com/</a> show_bug.cgi?id=1370683<br>
&gt;&gt;<br>
&gt;&gt; For me, ALL servers are affected (not isolated to one or two servers)<br>
&gt;&gt;<br>
&gt;&gt; I also see messages like &quot;INFO: task gpu_graphene_bv:4476 blocked for more<br>
&gt;&gt; than 120 seconds.&quot; in the syslog.<br>
&gt;&gt;<br>
&gt;&gt; For completeness (gv0 is the scratch volume, gv2 the slurm volume):<br>
&gt;&gt;<br>
&gt;&gt; [root@giant2: ~]# gluster v info<br>
&gt;&gt;<br>
&gt;&gt; Volume Name: gv0<br>
&gt;&gt; Type: Distributed-Replicate<br>
&gt;&gt; Volume ID: 993ec7c9-e4bc-44d0-b7c4-<wbr>2d977e622e86<br>
&gt;&gt; Status: Started<br>
&gt;&gt; Snapshot Count: 0<br>
&gt;&gt; Number of Bricks: 6 x 2 = 12<br>
&gt;&gt; Transport-type: tcp<br>
&gt;&gt; Bricks:<br>
&gt;&gt; Brick1: giant1:/gluster/sdc/gv0<br>
&gt;&gt; Brick2: giant2:/gluster/sdc/gv0<br>
&gt;&gt; Brick3: giant3:/gluster/sdc/gv0<br>
&gt;&gt; Brick4: giant4:/gluster/sdc/gv0<br>
&gt;&gt; Brick5: giant5:/gluster/sdc/gv0<br>
&gt;&gt; Brick6: giant6:/gluster/sdc/gv0<br>
&gt;&gt; Brick7: giant1:/gluster/sdd/gv0<br>
&gt;&gt; Brick8: giant2:/gluster/sdd/gv0<br>
&gt;&gt; Brick9: giant3:/gluster/sdd/gv0<br>
&gt;&gt; Brick10: giant4:/gluster/sdd/gv0<br>
&gt;&gt; Brick11: giant5:/gluster/sdd/gv0<br>
&gt;&gt; Brick12: giant6:/gluster/sdd/gv0<br>
&gt;&gt; Options Reconfigured:<br>
&gt;&gt; auth.allow: X.X.X.*,127.0.0.1<br>
&gt;&gt; nfs.disable: on<br>
&gt;&gt;<br>
&gt;&gt; Volume Name: gv2<br>
&gt;&gt; Type: Replicate<br>
&gt;&gt; Volume ID: 30c78928-5f2c-4671-becc-<wbr>8deaee1a7a8d<br>
&gt;&gt; Status: Started<br>
&gt;&gt; Snapshot Count: 0<br>
&gt;&gt; Number of Bricks: 1 x 2 = 2<br>
&gt;&gt; Transport-type: tcp<br>
&gt;&gt; Bricks:<br>
&gt;&gt; Brick1: giant1:/gluster/sdd/gv2<br>
&gt;&gt; Brick2: giant2:/gluster/sdd/gv2<br>
&gt;&gt; Options Reconfigured:<br>
&gt;&gt; auth.allow: X.X.X.*,127.0.0.1<br>
&gt;&gt; cluster.granular-entry-heal: on<br>
&gt;&gt; cluster.locking-scheme: granular<br>
&gt;&gt; nfs.disable: on<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; 2016-11-30 0:10 GMT+01:00 Micha Ober &lt; <a href="mailto:micha2k@gmail.com">micha2k@gmail.com</a> &gt; :<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; There also seems to be a bug report with a smiliar problem: (but no progress)<br>
&gt;&gt; <a href="https://bugzilla.redhat.com/sh" target="_blank" rel="noreferrer">https://bugzilla.redhat.com/sh</a> ow_bug.cgi?id=1370683<br>
&gt;&gt;<br>
&gt;&gt; For me, ALL servers are affected (not isolated to one or two servers)<br>
&gt;&gt;<br>
&gt;&gt; I also see messages like &quot;INFO: task gpu_graphene_bv:4476 blocked for more<br>
&gt;&gt; than 120 seconds.&quot; in the syslog.<br>
&gt;&gt;<br>
&gt;&gt; For completeness (gv0 is the scratch volume, gv2 the slurm volume):<br>
&gt;&gt;<br>
&gt;&gt; [root@giant2: ~]# gluster v info<br>
&gt;&gt;<br>
&gt;&gt; Volume Name: gv0<br>
&gt;&gt; Type: Distributed-Replicate<br>
&gt;&gt; Volume ID: 993ec7c9-e4bc-44d0-b7c4-<wbr>2d977e622e86<br>
&gt;&gt; Status: Started<br>
&gt;&gt; Snapshot Count: 0<br>
&gt;&gt; Number of Bricks: 6 x 2 = 12<br>
&gt;&gt; Transport-type: tcp<br>
&gt;&gt; Bricks:<br>
&gt;&gt; Brick1: giant1:/gluster/sdc/gv0<br>
&gt;&gt; Brick2: giant2:/gluster/sdc/gv0<br>
&gt;&gt; Brick3: giant3:/gluster/sdc/gv0<br>
&gt;&gt; Brick4: giant4:/gluster/sdc/gv0<br>
&gt;&gt; Brick5: giant5:/gluster/sdc/gv0<br>
&gt;&gt; Brick6: giant6:/gluster/sdc/gv0<br>
&gt;&gt; Brick7: giant1:/gluster/sdd/gv0<br>
&gt;&gt; Brick8: giant2:/gluster/sdd/gv0<br>
&gt;&gt; Brick9: giant3:/gluster/sdd/gv0<br>
&gt;&gt; Brick10: giant4:/gluster/sdd/gv0<br>
&gt;&gt; Brick11: giant5:/gluster/sdd/gv0<br>
&gt;&gt; Brick12: giant6:/gluster/sdd/gv0<br>
&gt;&gt; Options Reconfigured:<br>
&gt;&gt; auth.allow: X.X.X.*,127.0.0.1<br>
&gt;&gt; nfs.disable: on<br>
&gt;&gt;<br>
&gt;&gt; Volume Name: gv2<br>
&gt;&gt; Type: Replicate<br>
&gt;&gt; Volume ID: 30c78928-5f2c-4671-becc-<wbr>8deaee1a7a8d<br>
&gt;&gt; Status: Started<br>
&gt;&gt; Snapshot Count: 0<br>
&gt;&gt; Number of Bricks: 1 x 2 = 2<br>
&gt;&gt; Transport-type: tcp<br>
&gt;&gt; Bricks:<br>
&gt;&gt; Brick1: giant1:/gluster/sdd/gv2<br>
&gt;&gt; Brick2: giant2:/gluster/sdd/gv2<br>
&gt;&gt; Options Reconfigured:<br>
&gt;&gt; auth.allow: X.X.X.*,127.0.0.1<br>
&gt;&gt; cluster.granular-entry-heal: on<br>
&gt;&gt; cluster.locking-scheme: granular<br>
&gt;&gt; nfs.disable: on<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; 2016-11-29 19:21 GMT+01:00 Micha Ober &lt; <a href="mailto:micha2k@gmail.com">micha2k@gmail.com</a> &gt; :<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; I had opened another thread on this mailing list (Subject: &quot;After upgrade<br>
&gt;&gt; from 3.4.2 to 3.8.5 - High CPU usage resulting in disconnects and<br>
&gt;&gt; split-brain&quot;).<br>
&gt;&gt;<br>
&gt;&gt; The title may be a bit misleading now, as I am no longer observing high CPU<br>
&gt;&gt; usage after upgrading to 3.8.6, but the disconnects are still happening and<br>
&gt;&gt; the number of files in split-brain is growing.<br>
&gt;&gt;<br>
&gt;&gt; Setup: 6 compute nodes, each serving as a glusterfs server and client, Ubuntu<br>
&gt;&gt; 14.04, two bricks per node, distribute-replicate<br>
&gt;&gt;<br>
&gt;&gt; I have two gluster volumes set up (one for scratch data, one for the slurm<br>
&gt;&gt; scheduler). Only the scratch data volume shows critical errors &quot;[...] has<br>
&gt;&gt; not responded in the last 42 seconds, disconnecting.&quot;. So I can rule out<br>
&gt;&gt; network problems, the gigabit link between the nodes is not saturated at<br>
&gt;&gt; all. The disks are almost idle (&lt;10%).<br>
&gt;&gt;<br>
&gt;&gt; I have glusterfs 3.4.2 on Ubuntu 12.04 on a another compute cluster, running<br>
&gt;&gt; fine since it was deployed.<br>
&gt;&gt; I had glusterfs 3.4.2 on Ubuntu 14.04 on this cluster, running fine for<br>
&gt;&gt; almost a year.<br>
&gt;&gt;<br>
&gt;&gt; After upgrading to 3.8.5, the problems (as described) started. I would like<br>
&gt;&gt; to use some of the new features of the newer versions (like bitrot), but the<br>
&gt;&gt; users can&#39;t run their compute jobs right now because the result files are<br>
&gt;&gt; garbled.<br>
&gt;&gt;<br>
&gt;&gt; 2016-11-29 18:53 GMT+01:00 Atin Mukherjee &lt; <a href="mailto:amukherj@redhat.com">amukherj@redhat.com</a> &gt; :<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Would you be able to share what is not working for you in 3.8.x (mention the<br>
&gt;&gt; exact version). 3.4 is quite old and falling back to an unsupported version<br>
&gt;&gt; doesn&#39;t look a feasible option.<br>
&gt;&gt;<br>
&gt;&gt; On Tue, 29 Nov 2016 at 17:01, Micha Ober &lt; <a href="mailto:micha2k@gmail.com">micha2k@gmail.com</a> &gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi,<br>
&gt;&gt;<br>
&gt;&gt; I was using gluster 3.4 and upgraded to 3.8, but that version showed to be<br>
&gt;&gt; unusable for me. I now need to downgrade.<br>
&gt;&gt;<br>
&gt;&gt; I&#39;m running Ubuntu 14.04. As upgrades of the op version are irreversible, I<br>
&gt;&gt; guess I have to delete all gluster volumes and re-create them with the<br>
&gt;&gt; downgraded version.<br>
&gt;&gt;<br>
&gt;&gt; 0. Backup data<br>
&gt;&gt; 1. Unmount all gluster volumes<br>
&gt;&gt; 2. apt-get purge glusterfs-server glusterfs-client<br>
&gt;&gt; 3. Remove PPA for 3.8<br>
&gt;&gt; 4. Add PPA for older version<br>
&gt;&gt; 5. apt-get install glusterfs-server glusterfs-client<br>
&gt;&gt; 6. Create volumes<br>
&gt;&gt;<br>
&gt;&gt; Is &quot;purge&quot; enough to delete all configuration files of the currently<br>
&gt;&gt; installed version or do I need to manually clear some residues before<br>
&gt;&gt; installing an older version?<br>
&gt;&gt;<br>
&gt;&gt; Thanks.<br>
&gt;&gt; ______________________________<wbr>_________________<br>
&gt;&gt; Gluster-users mailing list<br>
&gt;&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt;&gt; <a href="http://www.gluster.org/mailman" target="_blank" rel="noreferrer">http://www.gluster.org/mailman</a> /listinfo/gluster-users<br>
&gt;&gt; --<br>
&gt;&gt; - Atin (atinm)<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; ______________________________<wbr>_________________<br>
&gt;&gt; Gluster-users mailing list <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt;&gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" target="_blank" rel="noreferrer">http://www.gluster.org/<wbr>mailman/listinfo/gluster-users</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt; ~ Atin (atinm)<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; ______________________________<wbr>_________________<br>
&gt;&gt; Gluster-users mailing list<br>
&gt;&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt;&gt; <a href="http://lists.gluster.org/mailman/listinfo/gluster-users" target="_blank" rel="noreferrer">http://lists.gluster.org/<wbr>mailman/listinfo/gluster-users</a><br>
<br>
</div></div></blockquote></div><br></div>