Fuel for OpenStack

Bug #1463433
Comment #34

Comment 34 for bug 1463433

Revision history for this message

Leontii Istomin (listomin) wrote on 2015-06-29:

#34

rabbit_stat.tar.gz Edit (264.6 KiB, application/x-tar)

has been reproduced during nova/boot_and_delete_server_with_secgroups rally scenario. Test has been failed on 914 iteration:
http://paste.openstack.org/show/324559/
before tests we perform "pcs resource unmanage" command for rabbitmq pacemaker resource.
rabbitmqctl list_queues hangs.

node-288:
from log:
=INFO REPORT==== 29-Jun-2015::00:56:57 ===
rabbit on node 'rabbit@node-404' down
[root@node-288 ~]# rabbitmqctl cluster_status
Cluster status of node 'rabbit@node-288' ...
[{nodes,[{disc,['rabbit@node-288','rabbit@node-403','rabbit@node-404']}]},
{running_nodes,['rabbit@node-403','rabbit@node-288']},
{cluster_name,<<"<email address hidden>">>},
{partitions,[]}]
...done.
node-403:
from log: http://paste.openstack.org/show/324531/
[root@node-403 ~]# rabbitmqctl cluster_status
Cluster status of node 'rabbit@node-403' ...
[{nodes,[{disc,['rabbit@node-288','rabbit@node-403','rabbit@node-404']}]},
{running_nodes,['rabbit@node-404','rabbit@node-288','rabbit@node-403']},
{cluster_name,<<"<email address hidden>">>},
{partitions,[]}]
...done.
node-404:
from log:
=INFO REPORT==== 29-Jun-2015::00:56:57 ===
rabbit on node 'rabbit@node-288' down
[root@node-404 ~]# rabbitmqctl cluster_status
Cluster status of node 'rabbit@node-404' ...
[{nodes,[{disc,['rabbit@node-288','rabbit@node-403','rabbit@node-404']}]},
{running_nodes,['rabbit@node-403','rabbit@node-404']},
{cluster_name,<<"<email address hidden>">>},
{partitions,[]}]
...done.

atops from controller nodes at the time when rabbitmq was broken
atop on node-288: http://paste.openstack.org/show/325652/
atop on node-403: http://paste.openstack.org/show/325653/
atop on node-404: http://paste.openstack.org/show/325654/

** Reason for termination ==
** {function_clause,
       [{rabbit_mirror_queue_slave,forget_sender,[down_from_ch,down_from_ch]},
        {rabbit_mirror_queue_slave,maybe_forget_sender,3},
        {rabbit_mirror_queue_slave,handle_info,2},
        {gen_server2,handle_msg,2},
        {proc_lib,wake_up,3}]}

rabbitmq_statistics is attached
diagnostic snapshot here: http://mos-scale-share.mirantis.com/fuel-snapshot-2015-06-29_15-38-26.tar.xz

node-288:
from log:
=INFO REPORT==== 29-Jun-2015::00:56:57 ===
rabbit on node 'rabbit@node-404' down
[root@node-288 ~]# rabbitmqctl cluster_status
Cluster status of node 'rabbit@node-288' ...
[{nodes,[{disc,['rabbit@node-288','rabbit@node-403','rabbit@node-404']}]},
{running_nodes,['rabbit@node-403','rabbit@node-288']},
{cluster_name,<<"rabbit@node-288.domain.tld">>},
{partitions,[]}]
...done.
node-403:
from log: http://paste.openstack.org/show/324531/
[root@node-403 ~]# rabbitmqctl cluster_status
Cluster status of node 'rabbit@node-403' ...
[{nodes,[{disc,['rabbit@node-288','rabbit@node-403','rabbit@node-404']}]},
{running_nodes,['rabbit@node-404','rabbit@node-288','rabbit@node-403']},
{cluster_name,<<"rabbit@node-288.domain.tld">>},
{partitions,[]}]
...done.
node-404:
from log:
=INFO REPORT==== 29-Jun-2015::00:56:57 ===
rabbit on node 'rabbit@node-288' down
[root@node-404 ~]# rabbitmqctl cluster_status
Cluster status of node 'rabbit@node-404' ...
[{nodes,[{disc,['rabbit@node-288','rabbit@node-403','rabbit@node-404']}]},
{running_nodes,['rabbit@node-403','rabbit@node-404']},
{cluster_name,<<"rabbit@node-288.domain.tld">>},
{partitions,[]}]
...done.

** Reason for termination == 
** {function_clause,
       [{rabbit_mirror_queue_slave,forget_sender,[down_from_ch,down_from_ch]},
        {rabbit_mirror_queue_slave,maybe_forget_sender,3},
        {rabbit_mirror_queue_slave,handle_info,2},
        {gen_server2,handle_msg,2},
        {proc_lib,wake_up,3}]}

rabbitmq_statistics is attached
diagnostic snapshot here: http://mos-scale-share.mirantis.com/fuel-snapshot-2015-06-29_15-38-26.tar.xz