<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jan 14, 2020 at 2:37 PM Atin Mukherjee &lt;<a href="mailto:atin.mukherjee83@gmail.com">atin.mukherjee83@gmail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">From a design perspective 2 is a better choice. However I&#39;d like to see a design on how cluster id will be generated and maintained (with peer addition/deletion scenarios, node replacement etc).</div><br></blockquote><div><br></div><div>Thanks for the feedback Atin.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jan 14, 2020 at 1:42 PM Amar Tumballi &lt;<a href="mailto:amar@kadalu.io" target="_blank">amar@kadalu.io</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hello,<div><br></div><div>As we are gearing up for Release-8, and its planning, I wanted to bring up one of my favorite topics, &#39;Thin-Arbiter&#39; (or Tie-Breaker/Metro-Cluster etc etc).</div><div><br></div><div>We have made thin-arbiter release in v7.0 itself, which works great, when we have just 1 cluster of gluster. I am talking about a situation which involves multiple gluster clusters, and easier management of thin-arbiter nodes. (Ref: <a href="https://github.com/gluster/glusterfs/issues/763" target="_blank">https://github.com/gluster/glusterfs/issues/763</a>)</div><div><br></div><div>I am working with a goal of hosting a thin-arbiter node service (free of cost), for which any gluster deployment can connect, and save their cost of an additional replica, which is required today to not get into split-brain situation. Tie-breaker storage and process needs are so less that we can easily handle all gluster deployments till date in just one machine. When I looked at the code with this goal, I found that current implementation doesn&#39;t support it, mainly because it uses &#39;volumename&#39; in the file it creates. This is good for 1 cluster, as we don&#39;t allow duplicate volume names in a single cluster, or OK for multiple clusters, as long as volume names are not colliding.</div><div><br></div><div>To resolve this properly we have 2 options (as per my thinking now) to make it truly global service.</div><div><br></div><div>1. Add &#39;volume-id&#39; option in afr volume itself, so, each instance picks the volume-id and uses it in thin-arbiter name. A variant of this is submitted for review - <a href="https://review.gluster.org/23723" target="_blank">https://review.gluster.org/23723</a> but as it uses volume-id from io-stats, this particular patch fails in case of brick-mux and shd-mux scenarios.  A proper enhancement of this patch is, providing &#39;volume-id&#39; option in AFR itself, so glusterd (while generating volfiles) sends the proper vol-id to instance. </div><div><br></div><div>Pros: Minimal code changes to the above patch.</div><div>Cons: One more option to AFR (not exposed to users).</div><div><br></div><div>2. Add<b> cluster-id </b>to glusterd, and pass it to all processes. Let replicate use this in thin-arbiter file. This too will solve the issue.</div><div><br></div><div>Pros: A cluster-id is good to have in any distributed system, specially when there are deployments which will be 3 node each in different clusters. Identifying bricks, services as part of a cluster is better.</div><div><br></div><div>Cons: Code changes are more, and in glusterd component.</div><div><br></div><div>On another note, 1 above is purely for Thin-Arbiter feature only, where as 2nd option would be useful in debugging, and other solutions which involves multiple clusters.</div><div><br></div><div>Let me know what you all think about this. This is good to be discussed in next week&#39;s meeting, and taken to completion.</div></div></blockquote></div></blockquote><div><br></div><div>After some more code reading, and thinking about possible solutions, I found that there is another simpler solution to get this resolved for multiple cluster.</div><div><br></div><div>Currently thin-arbiter file name for a replica-set is picked from what is the 3rd (ie, index=2) option in &#39;pending-xattr&#39; key in volume file. If we get that key to be unique (say volume-id + index-of-replica-set), this problem is solved. Needs minimum change in code for glusterfs (actually, no code change in filesystem part, but only in glusterd-volgen.c).</div><div><br></div><div>I tried this approach while <a href="https://kadalu.io/rfcs/0003-kadalu-thin-arbiter-support">providing replica2 option</a> of <a href="http://kadalu.io">kadalu.io</a> project. The tests are running fine, and I got the expected goal met. </div><div> </div><div>&lt;snip&gt;</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"> I am working with a goal of hosting a thin-arbiter node service (free of cost), for which any gluster deployment can connect, and save their cost of an additional replica, which is required today to not get into split-brain situation. </blockquote><div>&lt;/snip&gt;</div><div> </div><div>I am happy to tell, this goal is achieved. We now have `tie-breaker.kadalu.io:/mnt`, an instance in cloud, for anyone trying to use a thin-arbiter. If you are not keen to deploy your own instance, you can use this as thin-arbiter instance. Note that if you are using glusterfs releases, you may want to wait for patch <a href="https://review.gluster.org/24096">https://review.gluster.org/24096</a> to make it to a release (probably 7.3/7.4) to use this in production, till that time, volume-files generated by glusterd volgen are still using volumename itself in pending-xattr, hence possible collision of files.</div><div><br></div><div>Regards,</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><br></div><div>Regards,</div><div>Amar</div><div>---</div><div><font color="#666666"><a href="https://kadalu.io" target="_blank">https://kadalu.io</a></font></div><div><font color="#666666">Storage made easy for k8s</font></div><div><br></div></div>
_______________________________________________<br>
<br>
Community Meeting Calendar:<br>
<br>
APAC Schedule -<br>
Every 2nd and 4th Tuesday at 11:30 AM IST<br>
Bridge: <a href="https://bluejeans.com/441850968" rel="noreferrer" target="_blank">https://bluejeans.com/441850968</a><br>
<br>
<br>
NA/EMEA Schedule -<br>
Every 1st and 3rd Tuesday at 01:00 PM EDT<br>
Bridge: <a href="https://bluejeans.com/441850968" rel="noreferrer" target="_blank">https://bluejeans.com/441850968</a><br>
<br>
Gluster-devel mailing list<br>
<a href="mailto:Gluster-devel@gluster.org" target="_blank">Gluster-devel@gluster.org</a><br>
<a href="https://lists.gluster.org/mailman/listinfo/gluster-devel" rel="noreferrer" target="_blank">https://lists.gluster.org/mailman/listinfo/gluster-devel</a><br>
<br>
</blockquote></div>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr">--<div><a href="https://kadalu.io" target="_blank">https://kadalu.io</a></div><div>Container Storage made easy!</div><div><br></div></div></div></div>