<div dir="ltr">+Amar, +Rafi - Other maintainers and Peers of transport/rdma<br><div class="gmail_extra"><br></div><div class="gmail_extra">* Can you attach logs from client and brick? Please set diagnostics.client-log-level and diagnostics.brick-log-level to TRACE before starting your tests.<br></div><div class="gmail_extra">* Does fuse client recover from hang? <br></div><div class="gmail_extra"><br></div><div class="gmail_extra">I think we might not be handling the poll_err path correctly. The fact that we see issues only after brick reboots we are seeing the issues, makes me suspect the error path.</div><div class="gmail_extra"><br></div><div class="gmail_extra">regards,</div><div class="gmail_extra">Raghavendra</div><div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_quote">On Wed, Apr 25, 2018 at 6:05 PM, Necati E. SISECI <span dir="ltr">&lt;<a href="mailto:siseci@gmail.com" target="_blank">siseci@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <div class="m_-2940335407357389776moz-cite-prefix">Thank you for your mail.<br>
      <br>
      ibv_rc_pingpong seems working between servers and client. Also
      udaddy, ucmatose, rping etc are working. <br>
      <br>
      root@gluster1:~# ibv_rc_pingpong -d mlx5_0 -g 0<br>
        local address:  LID 0x0000, QPN 0x0001e4, PSN 0x10090e, GID
      fe80::ee0d:9aff:fec0:1dc8<br>
        remote address: LID 0x0000, QPN 0x00014c, PSN 0x09402b, GID
      fe80::ee0d:9aff:fec0:1b14<br>
      8192000 bytes in 0.01 seconds = 7964.03 Mbit/sec<br>
      1000 iters in 0.01 seconds = 8.23 usec/iter<br>
      <br>
      root@cinder:~# ibv_rc_pingpong -g 0 -d mlx5_0 gluster1<br>
        local address:  LID 0x0000, QPN 0x00014c, PSN 0x09402b, GID
      fe80::ee0d:9aff:fec0:1b14<br>
        remote address: LID 0x0000, QPN 0x0001e4, PSN 0x10090e, GID
      fe80::ee0d:9aff:fec0:1dc8<br>
      8192000 bytes in 0.01 seconds = 8424.73 Mbit/sec<br>
      1000 iters in 0.01 seconds = 7.78 usec/iter<br>
      <br>
      <br>
      Thank you.<span class="HOEnZb"><font color="#888888"><br>
      <br>
      Necati.</font></span><div><div class="h5"><br>
      <br>
      On 25-04-2018 12:27, Raghavendra Gowdappa wrote:<br>
    </div></div></div><div><div class="h5">
    <blockquote type="cite">
      <div dir="ltr">Is infiniband itself working fine? You can run
        tools like ibv_rc_pingpong to find out.<br>
      </div>
      <div class="gmail_extra"><br>
        <div class="gmail_quote">On Wed, Apr 25, 2018 at 12:23 PM,
          Necati E. SISECI <span dir="ltr">&lt;<a href="mailto:siseci@gmail.com" target="_blank">siseci@gmail.com</a>&gt;</span>
          wrote:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
            <div text="#000000" bgcolor="#FFFFFF">
              <p>Dear Gluster-Users,</p>
              <p>I am experiencing RDMA problems.<br>
              </p>
              <p>I have installed Ubuntu 16.04.4 running with
                4.15.0-13-generic kernel, MLNX_OFED_LINUX-4.3-1.0.1.0-ub<wbr>untu16.04-x86_64
                to 4 different servers. All of them has Mellanox
                ConnectX-4 LX dual port NICs. These four servers are
                connected via Mellanox SN2100 Switch. <br>
              </p>
              <p>I have installed GlusterFS Server v3.10 (from Ubuntu
                PPA) to 3 servers. These 3 boxes are running as gluster
                cluster. Additionally, I have installed Glusterfs Client
                to the last one.</p>
              <p>I have created Gluster Volume with this command:</p>
              <p># gluster volume create db transport rdma replica 3
                arbiter 1 gluster1:/storage/db/ gluster2:/storage/db/
                cinder:/storage/db force</p>
              <p>(network.ping-timeout is 3)<br>
              </p>
              <p>Then I have mounted this volume using mount command
                below.<br>
              </p>
              <p>mount -t glusterfs -o transport=rdma gluster1:/db /db</p>
              <p>After mountings &quot;/db&quot;, I can access the files. <br>
              </p>
              <p>The problem is, when I reboot one of the cluster nodes,
                fuse client gives this error below and hangs. <br>
              </p>
              <p>[2018-04-17 07:42:55.506422] W [MSGID: 103070]
                [rdma.c:4284:gf_rdma_handle_fa<wbr>iled_send_completion]
                0-rpc-transport/rdma: <b>send work request on `mlx5_0&#39;
                  returned error wc.status = 5, wc.vendor_err = 245,
                  post-&gt;buf = 0x7f8b92016000, wc.byte_len = 0,
                  post-&gt;reused = 135</b><br>
              </p>
              <p>When I change transport mode from rdma to tcp, fuse
                client works well. No hangs.<br>
              </p>
              <p>I also tried Gluster 3.8, 3.10, 4.0.0 and 4.0.1 (from
                Ubuntu PPAs) on Ubuntu 16.04.4 and Centos 7.4. But
                results were the same.<br>
              </p>
              <p>Thank you.</p>
              <span class="m_-2940335407357389776HOEnZb"><font color="#888888"> Necati. <br>
                </font></span></div>
            <br>
            ______________________________<wbr>_________________<br>
            Gluster-users mailing list<br>
            <a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a><br>
            <a href="http://lists.gluster.org/mailman/listinfo/gluster-users" rel="noreferrer" target="_blank">http://lists.gluster.org/mailm<wbr>an/listinfo/gluster-users</a><br>
          </blockquote>
        </div>
        <br>
      </div>
    </blockquote>
    <p><br>
    </p>
  </div></div></div>

</blockquote></div><br></div></div>