Bug #1682400 “[MongoDB] couldn't start after rebooting mongo nod...” : Bugs : Mirantis OpenStack

Michael Kraynov (mkraynov) on 2017-04-13

Changed in mos:
importance:	Undecided → High

Revision history for this message

Michael Kraynov (mkraynov) wrote on 2017-04-13:

#1

Impact:
Two other nodes have the following errors:
2017-04-12T18:15:11.478877+02:00 cic-1 mongod.27017[7475]: [rsHealthPoll] couldn't connect to 192.168.2.27:27017: couldn't connect to server 192.168.2.27:27017 (192.168.2.27) failed, connection attempt failed
2017-04-12T18:15:11.487226+02:00 cic-1 mongod.27017[7475]: [rsHealthPoll] Failed to connect to 192.168.2.27:27017, reason: errno:111 Connection refused
2017-04-12T18:15:11.487542+02:00 cic-1 mongod.27017[7475]: [rsHealthPoll] Failed to connect to 192.168.2.27:27017, reason: errno:111 Connection refused
2017-04-12T18:15:11.487563+02:00 cic-1 mongod.27017[7475]: [rsHealthPoll] couldn't connect to 192.168.2.27:27017: couldn't connect to server 192.168.2.27:27017 (192.168.2.27) failed, connection attempt failed

Ceiometer-collector can't connect to primary node:

2017-04-12T09:14:26.096726+02:00 cic-1 ceilometer-collector[8529]: 2017-04-12 09:14:26.093 8529 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on 192.168.2.26:5673 is unreachable: [Errno 111] Connection refused. Trying again in 1 seconds.
2017-04-12T09:14:27.116837+02:00 cic-1 ceilometer-collector[8529]: 2017-04-12 09:14:27.116 8529 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on 192.168.2.25:5673 via [amqp] client
2017-04-12T09:14:42.687743+02:00 cic-1 ceilometer-collector[8518]: 2017-04-12 09:14:42.687 8518 WARNING oslo_config.cfg [-] Option "metering_secret" from group "publisher" is deprecated. Use option "telemetry_secret" from group "publisher".
2017-04-12T09:14:42.690329+02:00 cic-1 ceilometer-collector[8517]: 2017-04-12 09:14:42.689 8517 WARNING oslo_config.cfg [-] Option "metering_secret" from group "publisher" is deprecated. Use option "telemetry_secret" from group "publisher".

Denis Meltsaykin (dmeltsaykin) on 2017-04-13

Changed in mos:
milestone:	9.x-updates → 9.2-mu-2
assignee:	nobody → MOS Maintenance (mos-maintenance)

Revision history for this message

Dmitry Teselkin (teselkin-d) wrote on 2017-04-18:

#2

In short - having a lock file in place means that mongodb
either running or wasn't stopped correctly. How exactly
servers was rebooted?

From [1]:
> Mongodb always creates the mongodb.lock file when the
> server starts and drops it before mongodb is stopped.
>
> Removing mongodb.lock does not affect any data it just
> means that mongodb was not stopped correctly. So, you
> are correct in removing this file and running with the
> -repair option should fix database.

Please also take a look at [2].

[1] http://stackoverflow.com/questions/6857781/what-is-the-use-of-the-mongo-lock-file/6857973#6857973
[2] http://stackoverflow.com/questions/13700261/mongodb-wont-start-after-server-crash

Revision history for this message

Michael Kraynov (mkraynov) wrote on 2017-04-25:

#3

> How exactly servers was rebooted?

It was rebooted like reset button. Can we add additional check to mongo service which can remove old lock file?

Revision history for this message

Denis Meltsaykin (dmeltsaykin) wrote on 2017-04-25:

#4

According to the https://docs.mongodb.com/manual/tutorial/recover-data-following-unexpected-shutdown/ manual, it's not correct just to remove a lock file. There should be some additional steps made in order to recover mongodb correctly. Not sure we can (or should) automate this - recovery might be a very non-straight procedure.

Revision history for this message

Michael Kraynov (mkraynov) wrote on 2017-04-25:

#5

Download full text (4.6 KiB)

But why the other two nodes couldn't accept connections?

2017-04-12T07:39:04.132922+02:00 cic-3 ceilometer-collector[8245]: 2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector [-] Dispatcher failed to handle the sample, requeue it.
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector Traceback (most recent call last):
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/ceilometer/collector.py", line 156, in sample
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector self.dispatcher_manager.map_method(self.method, samples)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 252, in map_method
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector method_name, *args, **kwds)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 225, in map
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector self._invoke_one_plugin(response.append, func, e, args, kwds)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 256, in _invoke_one_plugin
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector response_callback(func(e, *args, **kwds))
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 230, in _call_extension_method
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector return getattr(extension.obj, method_name)(*args, **kwds)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/ceilometer/dispatcher/database.py", line 95, in record_metering_data
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector self.meter_conn.record_metering_data(meter)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/ceilometer/storage/impl_mongodb.py", line 266, in record_metering_data
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector return_document=pymongo.ReturnDocument.AFTER,
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/ceilometer/storage/mongo/utils.py", line 415, in closure
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector return call(*args, **kwargs)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/ceilometer/storage/mongo/utils.py", line 437, in __call__
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector return self.method(*args, **kwargs)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/pymongo/collection.py", line 1881, in find_one_and_update
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector sort, upsert, return_document, **kwargs)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector File "/usr/lib/python2.7/dist-packages/pymongo/collection.py", line 1689, in __find_and_modify
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector with self._socket_for_writes() as sock_info:
2017-04-12 07:39:04.130 8245 ERRO...

But why the other two nodes couldn't accept connections?

2017-04-12T07:39:04.132922+02:00 cic-3 ceilometer-collector[8245]: 2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector [-] Dispatcher failed to handle the sample, requeue it.
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector Traceback (most recent call last):
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/ceilometer/collector.py", line 156, in sample
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     self.dispatcher_manager.map_method(self.method, samples)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 252, in map_method
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     method_name, *args, **kwds)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 225, in map
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     self._invoke_one_plugin(response.append, func, e, args, kwds)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 256, in _invoke_one_plugin
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     response_callback(func(e, *args, **kwds))
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/stevedore/extension.py", line 230, in _call_extension_method
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     return getattr(extension.obj, method_name)(*args, **kwds)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/ceilometer/dispatcher/database.py", line 95, in record_metering_data
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     self.meter_conn.record_metering_data(meter)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/ceilometer/storage/impl_mongodb.py", line 266, in record_metering_data
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     return_document=pymongo.ReturnDocument.AFTER,
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/ceilometer/storage/mongo/utils.py", line 415, in closure
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     return call(*args, **kwargs)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/ceilometer/storage/mongo/utils.py", line 437, in __call__
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     return self.method(*args, **kwargs)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/pymongo/collection.py", line 1881, in find_one_and_update
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     sort, upsert, return_document, **kwargs)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/pymongo/collection.py", line 1689, in __find_and_modify
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     with self._socket_for_writes() as sock_info:
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/contextlib.py", line 17, in __enter__
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     return self.gen.next()
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/pymongo/mongo_client.py", line 663, in _get_socket
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     server = self._get_topology().select_server(selector)
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/pymongo/topology.py", line 121, in select_server
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     address))
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector   File "/usr/lib/python2.7/dist-packages/pymongo/topology.py", line 97, in select_servers
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector     self._error_message(selector))
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector ServerSelectionTimeoutError: No primary available for writes
2017-04-12 07:39:04.130 8245 ERROR ceilometer.collector 
2017-04-12T07:39:04.388107+02:00 cic-3 ceilometer-collector[8246]: 2017-04-12 07:39:04.387 8246 WARNING ceilometer.storage.mongo.utils [-] Unable to reconnect to the primary mongodb: No primary available for writes. Trying again in 10 seconds.
2017-04-12T07:39:04.619904+02:00 cic-3 ceilometer-collector[8245]: 2017-04-12 07:39:04.619 8245 WARNING ceilometer.storage.mongo.utils [-] Unable to reconnect to the primary mongodb: No primary available for writes. Trying again in 10 seconds.

Revision history for this message

Dmitry Teselkin (teselkin-d) wrote on 2017-05-16:

#6

Download full text (6.2 KiB)

MongoDB should work with one node down, we found in its logs that new primary node was re-elected during failover:

==========

2017-04-12T01:24:19.092267+02:00 cic-1 mongod.27017[10826]: [rsSync] replSet SECONDARY
2017-04-12T01:24:20.092510+02:00 cic-1 mongod.27017[10826]: [rsMgr] replSet PRIMARY
2017-04-12T01:25:57.500547+02:00 cic-2 mongod.27017[14059]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY
2017-04-12T01:26:12.610586+02:00 cic-2 mongod.27017[14059]: [rsSync] replSet SECONDARY
2017-04-12T01:26:12.875462+02:00 cic-1 mongod.27017[10826]: [rsHealthPoll] replSet member 192.168.2.27:27017 is now in state SECONDARY
2017-04-12T01:26:16.190612+02:00 cic-3 mongod.27017[12860]: [rsHealthPoll] replSet member 192.168.2.27:27017 is now in state SECONDARY
2017-04-12T01:26:16.190814+02:00 cic-3 mongod.27017[12860]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY
2017-04-12T01:26:31.313368+02:00 cic-3 mongod.27017[12860]: [rsSync] replSet SECONDARY
2017-04-12T01:26:31.407522+02:00 cic-1 mongod.27017[10826]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T01:26:31.514937+02:00 cic-2 mongod.27017[14059]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY

Summary
-------
01:24:19 -> 01:26:31
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] SECONDARY
cic-3 [192.168.2.25] SECONDARY

==========

2017-04-12T07:25:22.451440+02:00 cic-1 mongod.27017[10826]: [rsMgr] replSet SECONDARY
2017-04-12T07:27:04.642237+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state SECONDARY
2017-04-12T07:27:04.872019+02:00 cic-3 mongod.27017[7278]: [rsSync] replSet SECONDARY
2017-04-12T07:27:05.989145+02:00 cic-1 mongod.27017[10826]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T07:27:12.123031+02:00 cic-1 mongod.27017[10826]: [rsMgr] replSet PRIMARY
2017-04-12T07:27:12.644713+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY

Summary
-------
07:25:22 -> 07:27:12
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] SECONDARY

==========

2017-04-12T07:39:06.153556+02:00 cic-1 mongod.27017[7613]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T07:39:06.156648+02:00 cic-1 mongod.27017[7613]: [rsSync] replSet SECONDARY
2017-04-12T07:39:07.156990+02:00 cic-1 mongod.27017[7613]: [rsMgr] replSet PRIMARY
2017-04-12T07:39:07.978172+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY

Summary
-------
07:39:06 -> 07:39:07
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] SECONDARY

==========

2017-04-12T07:40:37.026948+02:00 cic-1 mongod.27017[28754]: [rsSync] replSet SECONDARY
2017-04-12T07:40:37.036988+02:00 cic-1 mongod.27017[28754]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T07:40:38.015850+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state SECONDARY
2017-04-12T07:40:44.373900+02:00 cic-3 mongod.27017[727...

MongoDB should work with one node down, we found in its logs that new primary node was re-elected during failover:

==========

2017-04-12T01:24:19.092267+02:00 cic-1 mongod.27017[10826]: [rsSync] replSet SECONDARY
2017-04-12T01:24:20.092510+02:00 cic-1 mongod.27017[10826]: [rsMgr] replSet PRIMARY
2017-04-12T01:25:57.500547+02:00 cic-2 mongod.27017[14059]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY
2017-04-12T01:26:12.610586+02:00 cic-2 mongod.27017[14059]: [rsSync] replSet SECONDARY
2017-04-12T01:26:12.875462+02:00 cic-1 mongod.27017[10826]: [rsHealthPoll] replSet member 192.168.2.27:27017 is now in state SECONDARY
2017-04-12T01:26:16.190612+02:00 cic-3 mongod.27017[12860]: [rsHealthPoll] replSet member 192.168.2.27:27017 is now in state SECONDARY
2017-04-12T01:26:16.190814+02:00 cic-3 mongod.27017[12860]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY
2017-04-12T01:26:31.313368+02:00 cic-3 mongod.27017[12860]: [rsSync] replSet SECONDARY
2017-04-12T01:26:31.407522+02:00 cic-1 mongod.27017[10826]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T01:26:31.514937+02:00 cic-2 mongod.27017[14059]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY

Summary
-------
01:24:19 -> 01:26:31
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] SECONDARY
cic-3 [192.168.2.25] SECONDARY

==========

2017-04-12T07:25:22.451440+02:00 cic-1 mongod.27017[10826]: [rsMgr] replSet SECONDARY
2017-04-12T07:27:04.642237+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state SECONDARY
2017-04-12T07:27:04.872019+02:00 cic-3 mongod.27017[7278]: [rsSync] replSet SECONDARY
2017-04-12T07:27:05.989145+02:00 cic-1 mongod.27017[10826]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T07:27:12.123031+02:00 cic-1 mongod.27017[10826]: [rsMgr] replSet PRIMARY
2017-04-12T07:27:12.644713+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY

Summary
-------
07:25:22 -> 07:27:12
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] SECONDARY

==========

2017-04-12T07:39:06.153556+02:00 cic-1 mongod.27017[7613]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T07:39:06.156648+02:00 cic-1 mongod.27017[7613]: [rsSync] replSet SECONDARY
2017-04-12T07:39:07.156990+02:00 cic-1 mongod.27017[7613]: [rsMgr] replSet PRIMARY
2017-04-12T07:39:07.978172+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY

Summary
-------
07:39:06 -> 07:39:07
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] SECONDARY

==========

2017-04-12T07:40:37.026948+02:00 cic-1 mongod.27017[28754]: [rsSync] replSet SECONDARY
2017-04-12T07:40:37.036988+02:00 cic-1 mongod.27017[28754]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T07:40:38.015850+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state SECONDARY
2017-04-12T07:40:44.373900+02:00 cic-3 mongod.27017[7278]: [rsMgr] replSet PRIMARY
2017-04-12T07:40:45.043343+02:00 cic-1 mongod.27017[28754]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state PRIMARY

Summary
-------
07:40:37 -> 07:40:45
cic-1 [192.168.2.26] SECONDARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] PRIMARY

==========

2017-04-12T08:48:27.140580+02:00 cic-1 mongod.27017[1729]: [rsSync] replSet SECONDARY
2017-04-12T08:48:27.141599+02:00 cic-1 mongod.27017[1729]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state PRIMARY

Summary
-------
08:48:27
cic-1 [192.168.2.26] SECONDARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] PRIMARY

==========

2017-04-12T09:13:20.568874+02:00 cic-3 mongod.27017[7278]: [rsMgr] replSet SECONDARY
2017-04-12T09:14:15.198929+02:00 cic-1 mongod.27017[7475]: [rsHealthPoll] replSet member 192.168.2.25:27017 is now in state SECONDARY
2017-04-12T09:14:15.212696+02:00 cic-1 mongod.27017[7475]: [rsSync] replSet SECONDARY
2017-04-12T09:14:16.623826+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state SECONDARY
2017-04-12T09:14:22.201271+02:00 cic-1 mongod.27017[7475]: [rsMgr] replSet PRIMARY
2017-04-12T09:14:22.626422+02:00 cic-3 mongod.27017[7278]: [rsHealthPoll] replSet member 192.168.2.26:27017 is now in state PRIMARY

Summary
-------
09:13:20 -> 09:14:22
cic-1 [192.168.2.26] PRIMARY
cic-2 [192.168.2.27] DOWN?
cic-3 [192.168.2.25] SECONDARY

==========

Ceilometer on node cic-1 failed to connect several times to MongoDB (this occured during primary node re-election), but then succeeded:

==========
$ cd /tmp/12-4-2017/node-6-192.168.0.28/var/log/ceilometer
$ grep 'Unable to reconnect to the primary mongodb' ceilometer-collector.log  | cut -d' ' -f3 | sort | uniq -c
      3 ceilometer-collector[5196]:
      1 ceilometer-collector[5198]:
      2 ceilometer-collector[5201]:
      3 ceilometer-collector[5203]:
      3 ceilometer-collector[5206]:
      3 ceilometer-collector[5211]:
      3 ceilometer-collector[5212]:
      3 ceilometer-collector[5213]:
      3 ceilometer-collector[5214]:
      3 ceilometer-collector[5216]:
      2 ceilometer-collector[5217]:
      3 ceilometer-collector[5219]:
==========

However, this failed on cic-3 for some reason:

==========
$ cd /tmp/12-4-2017/node-8-192.168.0.27/var/log/ceilometer
$ grep 'Unable to reconnect to the primary mongodb' ceilometer-collector.log  | cut -d' ' -f3 | sort | uniq -c
     89 ceilometer-collector[8245]:
    102 ceilometer-collector[8246]:
    102 ceilometer-collector[8248]:
     99 ceilometer-collector[8250]:
    108 ceilometer-collector[8251]:
     95 ceilometer-collector[8252]:
     87 ceilometer-collector[8254]:
    104 ceilometer-collector[8256]:
    100 ceilometer-collector[8259]:
     87 ceilometer-collector[8260]:
     87 ceilometer-collector[8264]:
    106 ceilometer-collector[8267]:
==========

So it seems like a ceilometer issue.

If the issue is reproducable then I'd suggest to check from failed node that pymongo is able to establish connection with MongoDB (without ceilometer), to confirm that cluster is reachable and primary node could be found.

Denis Meltsaykin (dmeltsaykin) on 2017-05-19

Changed in mos:
assignee:	MOS Maintenance (mos-maintenance) → MOS Ceilometer (mos-ceilometer)

Alexey Stupnikov (astupnikov) on 2017-06-06

Changed in mos:
assignee:	MOS Ceilometer (mos-ceilometer) → Alexey Stupnikov (astupnikov)

Revision history for this message

Alexey Stupnikov (astupnikov) wrote on 2017-06-09:

#7

I have tried to reproduce described issue and understand what is going on there. I have used our virtualized lab and destroyed controller's VMs with "virsh destroy" commands and started them with "virsh create".

It was impossible for me the issue: mongod started successfully when lock file wasn't deleted [1]

IMO mongod tries to automatically recover from the failure and cancels mongod initialization if it fails [2]

From my point of view, we have the following situation: mongod fails to recover and breaks the cluster. I don't think that there is something wrong with this situation.

[1] https://paste.mirantis.net/show/11402/
[2] https://paste.mirantis.net/show/11403/

Revision history for this message

Alexey Stupnikov (astupnikov) wrote on 2017-06-09:

#8

Moving bug to Incomplete. I would like to ask reporter to clarify steps to reproduce (cluster load, cluster configuration, reboot method, lab environment).

Changed in mos:
status:	New → Incomplete
assignee:	Alexey Stupnikov (astupnikov) → Michael Kraynov (mkraynov)
milestone:	9.2-mu-2 → 9.x-updates

Revision history for this message

Alexey Stupnikov (astupnikov) wrote on 2017-07-19:

#9

Moving to Invalid, since the bug wasn't updated for more than 40 days now.

Changed in mos:
status:	Incomplete → Invalid

Mirantis OpenStack

[MongoDB] couldn't start after rebooting mongo nodes due to old pid file.

Bug Description

Other bug subscribers

Remote bug watches