Bug #1525104 “building a pxc cluster should fail faster if an in...” : Bugs : OpenStack DBaaS (Trove)

Revision history for this message

Craig Vyvial (cp16net) wrote on 2015-12-17:

#1

Download full text (12.6 KiB)

Related to this bug... when all the instances you build in the cluster all goto ERROR state the cluster times out waiting for them and the cluster never gets out of the BUILDING state.

LOGS:
2015-12-16 18:01:28.506 ERROR oslo.service.loopingcall [-] Fixed interval looping call 'trove.common.utils.poll_and_check' failed
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall Traceback (most recent call last):
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall File "/usr/local/lib/python2.7/dist-packages/oslo_service/loopingcall.py", line 135, in _run_loop
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall result = func(*self.args, **self.kw)
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall File "/opt/stack/trove/trove/common/utils.py", line 192, in poll_and_check
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall raise exception.PollTimeOut
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall PollTimeOut: Polling request timed out.
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall
2015-12-16 18:01:28.508 ERROR trove.taskmanager.models [-] Timeout for all instance service statuses to become ready.
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models Traceback (most recent call last):
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models File "/opt/stack/trove/trove/taskmanager/models.py", line 244, in _all_instances_ready
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models time_out=CONF.usage_timeout)
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models File "/opt/stack/trove/trove/common/utils.py", line 208, in poll_until
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models sleep_time=sleep_time, time_out=time_out).wait()
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models File "/usr/local/lib/python2.7/dist-packages/eventlet/event.py", line 121, in wait
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models return hubs.get_hub().switch()
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models File "/usr/local/lib/python2.7/dist-packages/eventlet/hubs/hub.py", line 294, in switch
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models return self.greenlet.switch()
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models File "/usr/local/lib/python2.7/dist-packages/oslo_service/loopingcall.py", line 135, in _run_loop
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models result = func(*self.args, **self.kw)
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models File "/opt/stack/trove/trove/common/utils.py", line 192, in poll_and_check
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models raise exception.PollTimeOut
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models PollTimeOut: Polling request timed out.
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models
2015-12-16 18:01:28.514 DEBUG trove.db.models [-] Saving DBInstance: {u'cluster_id': u'565a9eea-6d67-471a-b810-4d3b353189ad', u'shard_id': None, u'deleted_at': None, u'id': u'00b91f8e-edc5-4248-8c56-010b95879417', u'datastore_version_id': u'93962cb1-9566-44f8-8187-ef37f351c0ef', 'errors': {}, u'hostname': None, u'server_status': None, u'task_description': 'Build error: Server.', u'volume_size': 1, u'typ...

Related to this bug... when all the instances you build in the cluster all goto ERROR state the cluster times out waiting for them and the cluster never gets out of the BUILDING state.

LOGS:
2015-12-16 18:01:28.506 ERROR oslo.service.loopingcall [-] Fixed interval looping call 'trove.common.utils.poll_and_check' failed
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall Traceback (most recent call last):
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall   File "/usr/local/lib/python2.7/dist-packages/oslo_service/loopingcall.py", line 135, in _run_loop
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall     result = func(*self.args, **self.kw)
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall   File "/opt/stack/trove/trove/common/utils.py", line 192, in poll_and_check
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall     raise exception.PollTimeOut
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall PollTimeOut: Polling request timed out.
2015-12-16 18:01:28.506 TRACE oslo.service.loopingcall 
2015-12-16 18:01:28.508 ERROR trove.taskmanager.models [-] Timeout for all instance service statuses to become ready.
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models Traceback (most recent call last):
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models   File "/opt/stack/trove/trove/taskmanager/models.py", line 244, in _all_instances_ready
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models     time_out=CONF.usage_timeout)
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models   File "/opt/stack/trove/trove/common/utils.py", line 208, in poll_until
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models     sleep_time=sleep_time, time_out=time_out).wait()
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models   File "/usr/local/lib/python2.7/dist-packages/eventlet/event.py", line 121, in wait
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models     return hubs.get_hub().switch()
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models   File "/usr/local/lib/python2.7/dist-packages/eventlet/hubs/hub.py", line 294, in switch
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models     return self.greenlet.switch()
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models   File "/usr/local/lib/python2.7/dist-packages/oslo_service/loopingcall.py", line 135, in _run_loop
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models     result = func(*self.args, **self.kw)
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models   File "/opt/stack/trove/trove/common/utils.py", line 192, in poll_and_check
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models     raise exception.PollTimeOut
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models PollTimeOut: Polling request timed out.
2015-12-16 18:01:28.508 TRACE trove.taskmanager.models 
2015-12-16 18:01:28.514 DEBUG trove.db.models [-] Saving DBInstance: {u'cluster_id': u'565a9eea-6d67-471a-b810-4d3b353189ad', u'shard_id': None, u'deleted_at': None, u'id': u'00b91f8e-edc5-4248-8c56-010b95879417', u'datastore_version_id': u'93962cb1-9566-44f8-8187-ef37f351c0ef', 'errors': {}, u'hostname': None, u'server_status': None, u'task_description': 'Build error: Server.', u'volume_size': 1, u'type': u'member', u'updated': datetime.datetime(2015, 12, 16, 18, 1, 28, 513950), '_sa_instance_state': <sqlalchemy.orm.state.InstanceState object at 0x7f953e633210>, u'deleted': 0, u'configuration_id': None, u'volume_id': u'6c791caa-b1c4-49df-95d3-2f7b6e913211', u'slave_of_id': None, u'task_start_time': None, u'name': u'test-cluster-member-2', u'task_id': 81, u'created': datetime.datetime(2015, 12, 16, 17, 36, 27), u'tenant_id': u'25305b151c3347e89e389885eabb14df', u'compute_instance_id': u'2691d5fa-8278-4637-bff8-1f1cab044b71', u'flavor_id': u'7'} from (pid=10614) save /opt/stack/trove/trove/db/models.py:62
2015-12-16 18:01:28.521 DEBUG trove.db.models [-] Saving DBInstance: {u'cluster_id': u'565a9eea-6d67-471a-b810-4d3b353189ad', u'shard_id': None, u'deleted_at': None, u'id': u'104a1241-3bde-46d2-ab08-d068c3d7f8f0', u'datastore_version_id': u'93962cb1-9566-44f8-8187-ef37f351c0ef', 'errors': {}, u'hostname': None, u'server_status': None, u'task_description': 'Build error: Server.', u'volume_size': 1, u'type': u'member', u'updated': datetime.datetime(2015, 12, 16, 18, 1, 28, 521234), '_sa_instance_state': <sqlalchemy.orm.state.InstanceState object at 0x7f953e633a50>, u'deleted': 0, u'configuration_id': None, u'volume_id': u'7f175550-b654-442f-8c79-3b06f248a015', u'slave_of_id': None, u'task_start_time': None, u'name': u'test-cluster-member-1', u'task_id': 81, u'created': datetime.datetime(2015, 12, 16, 17, 36, 27), u'tenant_id': u'25305b151c3347e89e389885eabb14df', u'compute_instance_id': u'eef02706-258e-4138-9e22-a54bf2a3d9da', u'flavor_id': u'7'} from (pid=10614) save /opt/stack/trove/trove/db/models.py:62
2015-12-16 18:01:28.527 ERROR trove.common.strategies.cluster.experimental.pxc.taskmanager [-] Error creating cluster 565a9eea-6d67-471a-b810-4d3b353189ad.
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager Traceback (most recent call last):
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager   File "/opt/stack/trove/trove/common/strategies/cluster/experimental/pxc/taskmanager.py", line 138, in create_cluster
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager     _create_cluster()
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager   File "/opt/stack/trove/trove/common/strategies/cluster/experimental/pxc/taskmanager.py", line 79, in _create_cluster
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager     raise TroveError("Instances in cluster did not report ACTIVE")
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager TroveError: Instances in cluster did not report ACTIVE
2015-12-16 18:01:28.527 TRACE trove.common.strategies.cluster.experimental.pxc.taskmanager 
2015-12-16 18:01:28.532 DEBUG trove.db.models [-] Saving DBInstance: {u'cluster_id': u'565a9eea-6d67-471a-b810-4d3b353189ad', u'shard_id': None, u'deleted_at': None, u'id': u'00b91f8e-edc5-4248-8c56-010b95879417', u'datastore_version_id': u'93962cb1-9566-44f8-8187-ef37f351c0ef', 'errors': {}, u'hostname': None, u'server_status': None, u'task_description': 'Build error: Server.', u'volume_size': 1, u'type': u'member', u'updated': datetime.datetime(2015, 12, 16, 18, 1, 28, 532237), '_sa_instance_state': <sqlalchemy.orm.state.InstanceState object at 0x7f953e672e90>, u'deleted': 0, u'configuration_id': None, u'volume_id': u'6c791caa-b1c4-49df-95d3-2f7b6e913211', u'slave_of_id': None, u'task_start_time': None, u'name': u'test-cluster-member-2', u'task_id': 81, u'created': datetime.datetime(2015, 12, 16, 17, 36, 27), u'tenant_id': u'25305b151c3347e89e389885eabb14df', u'compute_instance_id': u'2691d5fa-8278-4637-bff8-1f1cab044b71', u'flavor_id': u'7'} from (pid=10614) save /opt/stack/trove/trove/db/models.py:62
2015-12-16 18:01:28.539 DEBUG trove.db.models [-] Saving DBInstance: {u'cluster_id': u'565a9eea-6d67-471a-b810-4d3b353189ad', u'shard_id': None, u'deleted_at': None, u'id': u'104a1241-3bde-46d2-ab08-d068c3d7f8f0', u'datastore_version_id': u'93962cb1-9566-44f8-8187-ef37f351c0ef', 'errors': {}, u'hostname': None, u'server_status': None, u'task_description': 'Build error: Server.', u'volume_size': 1, u'type': u'member', u'updated': datetime.datetime(2015, 12, 16, 18, 1, 28, 539773), '_sa_instance_state': <sqlalchemy.orm.state.InstanceState object at 0x7f953e672cd0>, u'deleted': 0, u'configuration_id': None, u'volume_id': u'7f175550-b654-442f-8c79-3b06f248a015', u'slave_of_id': None, u'task_start_time': None, u'name': u'test-cluster-member-1', u'task_id': 81, u'created': datetime.datetime(2015, 12, 16, 17, 36, 27), u'tenant_id': u'25305b151c3347e89e389885eabb14df', u'compute_instance_id': u'eef02706-258e-4138-9e22-a54bf2a3d9da', u'flavor_id': u'7'} from (pid=10614) save /opt/stack/trove/trove/db/models.py:62
2015-12-16 18:01:28.545 DEBUG trove.common.strategies.cluster.experimental.pxc.taskmanager [-] End create_cluster for id: 565a9eea-6d67-471a-b810-4d3b353189ad. from (pid=10614) create_cluster /opt/stack/trove/trove/common/strategies/cluster/experimental/pxc/taskmanager.py:151
2015-12-16 18:01:32.324 ERROR oslo.service.loopingcall [-] Fixed interval looping call 'trove.common.utils.poll_and_check' failed
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall Traceback (most recent call last):
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall   File "/usr/local/lib/python2.7/dist-packages/oslo_service/loopingcall.py", line 135, in _run_loop
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall     result = func(*self.args, **self.kw)
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall   File "/opt/stack/trove/trove/common/utils.py", line 192, in poll_and_check
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall     raise exception.PollTimeOut
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall PollTimeOut: Polling request timed out.
2015-12-16 18:01:32.324 TRACE oslo.service.loopingcall 
2015-12-16 18:01:32.326 ERROR trove.taskmanager.models [-] Failed to create instance 104a1241-3bde-46d2-ab08-d068c3d7f8f0. Timeout waiting for instance to become active. No usage create-event was sent.
2015-12-16 18:01:32.333 ERROR trove.taskmanager.models [-] Service status: ERROR
2015-12-16 18:01:32.333 ERROR trove.taskmanager.models [-] Service error description: guestagent error
2015-12-16 18:01:32.337 DEBUG trove.db.models [-] Saving DBInstance: {u'cluster_id': u'565a9eea-6d67-471a-b810-4d3b353189ad', u'shard_id': None, u'deleted_at': None, u'id': u'104a1241-3bde-46d2-ab08-d068c3d7f8f0', u'datastore_version_id': u'93962cb1-9566-44f8-8187-ef37f351c0ef', 'errors': {}, u'hostname': None, u'server_status': None, u'task_description': 'Build error: guestagent timeout.', u'volume_size': 1, u'type': u'member', u'updated': datetime.datetime(2015, 12, 16, 18, 1, 32, 337398), '_sa_instance_state': <sqlalchemy.orm.state.InstanceState object at 0x7f953e633d10>, u'deleted': 0, u'configuration_id': None, u'volume_id': u'7f175550-b654-442f-8c79-3b06f248a015', u'slave_of_id': None, u'task_start_time': None, u'name': u'test-cluster-member-1', u'task_id': 84, u'created': datetime.datetime(2015, 12, 16, 17, 36, 27), u'tenant_id': u'25305b151c3347e89e389885eabb14df', u'compute_instance_id': u'eef02706-258e-4138-9e22-a54bf2a3d9da', u'flavor_id': u'7'} from (pid=10614) save /opt/stack/trove/trove/db/models.py:62
2015-12-16 18:01:32.343 ERROR trove.taskmanager.models [-] Trove instance status: ERROR
2015-12-16 18:01:32.343 ERROR trove.taskmanager.models [-] Trove instance status description: Build error: guestagent timeout.

Revision history for this message

Craig Vyvial (cp16net) wrote on 2015-12-17:

#2

Here is a paste of the log from the last comment since its quite hard to read.

http://paste.openstack.org/show/482162/

Revision history for this message

Craig Vyvial (cp16net) wrote on 2015-12-17:

#3

https://github.com/openstack/trove/blob/master/trove/taskmanager/models.py#L203-L258

This logic needs to be handle if the trove instance status goes to ERROR and the InstanceServiceStatus never gets updated because the guest never comes online. Currently this code is dependent on the guest coming online and sometimes it never does.

Changed in trove:
importance:	Undecided → Medium

Amrith Kumar (amrith) on 2016-01-26

tags:

added: delete-instance-force

Revision history for this message

tianhui (tianhui) wrote on 2017-08-16:

#4

I ran into the same problem in Mitaka
http://paste.openstack.org/show/482162/

Revision history for this message

Zhao Chao (zhaochao1984) wrote on 2018-02-07:

#5

This should be duplicate to https://bugs.launchpad.net/trove/+bug/1516763, and that one was already fixed.

Changed in trove:
status:	New → Fix Released

OpenStack DBaaS (Trove)

building a pxc cluster should fail faster if an instance goes to an ERROR state

Bug Description

Other bug subscribers

Remote bug watches