StarlingX

Bug #1942480
Comment #6

Comment 6 for bug 1942480

Revision history for this message

Alexandru Dimofte (adimofte) wrote on 2021-12-01:

#6

I collected the logs from virtual standard configuration Edit (34.0 MiB, application/x-tar)

The image used is: 20211201T041648Z
[sysadmin@controller-0 ~(keystone_admin)]$ fm alarm-list
+----------+---------------------------------------------------------------------------------------+--------------------------------------+----------+-------------------+
| Alarm ID | Reason Text | Entity ID | Severity | Time Stamp |
+----------+---------------------------------------------------------------------------------------+--------------------------------------+----------+-------------------+
| 800.010 | Potential data loss. No available OSDs in storage replication group group-0: no OSDs | cluster=07c0ce0c-9b00-4de0-a8ee- | critical | 2021-12-01T08:36: |
| | | 13da4debf43c.peergroup=group-0 | | 39.009657 |
| | | | | |
| 800.001 | Storage Alarm Condition: HEALTH_WARN. Please check 'ceph -s' for more details. | cluster=07c0ce0c-9b00-4de0-a8ee- | warning | 2021-12-01T08:14: |
| | | 13da4debf43c | | 14.949030 |
| | | | | |
| 250.001 | compute-1 Configuration is out-of-date. | host=compute-1 | major | 2021-12-01T08:07: |
| | | | | 16.063014 |
| | | | | |
| 250.001 | compute-0 Configuration is out-of-date. | host=compute-0 | major | 2021-12-01T08:07: |
| | | | | 13.642871 |
| | | | | |
| 200.001 | compute-1 was administratively locked to take it out-of-service. | host=compute-1 | warning | 2021-12-01T07:56: |
| | | | | 59.093516 |
| | | | | |
| 200.001 | compute-0 was administratively locked to take it out-of-service. | host=compute-0 | warning | 2021-12-01T07:56: |
| | | | | 53.223718 |
| | | | | |
+----------+---------------------------------------------------------------------------------------+--------------------------------------+----------+-------------------+
[sysadmin@controller-0 ~(keystone_admin)]$ system host-list
+----+--------------+-------------+----------------+-------------+--------------+
| id | hostname | personality | administrative | operational | availability |
+----+--------------+-------------+----------------+-------------+--------------+
| 1 | controller-0 | controller | unlocked | enabled | available |
| 2 | controller-1 | controller | unlocked | enabled | available |
| 3 | compute-0 | worker | locked | disabled | online |
| 4 | compute-1 | worker | locked | disabled | online |
+----+--------------+-------------+----------------+-------------+--------------+
[sysadmin@controller-0 ~(keystone_admin)]$ system host-unlock 3
A host with worker functionality requires a nova-local volume group prior to being enabled.The nova-local volume group does not contain any physical volumes in the adding or provisioned state.
[sysadmin@controller-0 ~(keystone_admin)]$ collect all
[sudo] password for sysadmin:
collecting data from 4 host(s)
Error: cannot collect from compute-0 (reason:33:unreachable)
Error: cannot collect from compute-1 (reason:33:unreachable)
monitoring host collect ; please standby ..
collected controller-1_20211201.085016 ... done (00:00:40 16M 1%)
collected controller-0_20211201.085016 ... done (00:01:41 19M 1%)
collected from 2 hosts
creating all-nodes tarball /scratch/ALL_NODES_20211201.085016.tar ... done (00:01:42 35M 1%)
[sysadmin@controller-0 ~(keystone_admin)]$
[sysadmin@controller-0 ~(keystone_admin)]$ ceph -s
  cluster:
    id: 07c0ce0c-9b00-4de0-a8ee-13da4debf43c
    health: HEALTH_WARN
            OSD count 0 < osd_pool_default_size 2

  services:
    mon: 2 daemons, quorum controller-0,controller-1 (age 22m)
    mgr: controller-0(active, since 44m), standbys: controller-1
    mds: 2 up:standby
    osd: 0 osds: 0 up, 0 in

  data:
    pools: 0 pools, 0 pgs
    objects: 0 objects, 0 B
    usage: 0 B used, 0 B / 0 B avail
    pgs:

The image used is: 20211201T041648Z
[sysadmin@controller-0 ~(keystone_admin)]$ fm alarm-list
+----------+---------------------------------------------------------------------------------------+--------------------------------------+----------+-------------------+
| Alarm ID | Reason Text                                                                           | Entity ID                            | Severity | Time Stamp        |
+----------+---------------------------------------------------------------------------------------+--------------------------------------+----------+-------------------+
| 800.010  | Potential data loss. No available OSDs in storage replication group  group-0: no OSDs | cluster=07c0ce0c-9b00-4de0-a8ee-     | critical | 2021-12-01T08:36: |
|          |                                                                                       | 13da4debf43c.peergroup=group-0       |          | 39.009657         |
|          |                                                                                       |                                      |          |                   |
| 800.001  | Storage Alarm Condition: HEALTH_WARN. Please check 'ceph -s' for more details.        | cluster=07c0ce0c-9b00-4de0-a8ee-     | warning  | 2021-12-01T08:14: |
|          |                                                                                       | 13da4debf43c                         |          | 14.949030         |
|          |                                                                                       |                                      |          |                   |
| 250.001  | compute-1 Configuration is out-of-date.                                               | host=compute-1                       | major    | 2021-12-01T08:07: |
|          |                                                                                       |                                      |          | 16.063014         |
|          |                                                                                       |                                      |          |                   |
| 250.001  | compute-0 Configuration is out-of-date.                                               | host=compute-0                       | major    | 2021-12-01T08:07: |
|          |                                                                                       |                                      |          | 13.642871         |
|          |                                                                                       |                                      |          |                   |
| 200.001  | compute-1 was administratively locked to take it out-of-service.                      | host=compute-1                       | warning  | 2021-12-01T07:56: |
|          |                                                                                       |                                      |          | 59.093516         |
|          |                                                                                       |                                      |          |                   |
| 200.001  | compute-0 was administratively locked to take it out-of-service.                      | host=compute-0                       | warning  | 2021-12-01T07:56: |
|          |                                                                                       |                                      |          | 53.223718         |
|          |                                                                                       |                                      |          |                   |
+----------+---------------------------------------------------------------------------------------+--------------------------------------+----------+-------------------+
[sysadmin@controller-0 ~(keystone_admin)]$ system host-list
+----+--------------+-------------+----------------+-------------+--------------+
| id | hostname     | personality | administrative | operational | availability |
+----+--------------+-------------+----------------+-------------+--------------+
| 1  | controller-0 | controller  | unlocked       | enabled     | available    |
| 2  | controller-1 | controller  | unlocked       | enabled     | available    |
| 3  | compute-0    | worker      | locked         | disabled    | online       |
| 4  | compute-1    | worker      | locked         | disabled    | online       |
+----+--------------+-------------+----------------+-------------+--------------+
[sysadmin@controller-0 ~(keystone_admin)]$ system host-unlock 3
A host with worker functionality requires a nova-local volume group prior to being enabled.The nova-local volume group does not contain any physical volumes in the adding or provisioned state.
[sysadmin@controller-0 ~(keystone_admin)]$ collect all
[sudo] password for sysadmin:
collecting data from 4 host(s)
Error: cannot collect from compute-0 (reason:33:unreachable)
Error: cannot collect from compute-1 (reason:33:unreachable)
monitoring host collect ; please standby ..
collected controller-1_20211201.085016 ... done  (00:00:40   16M   1%)
collected controller-0_20211201.085016 ... done  (00:01:41   19M   1%)
collected from 2 hosts
creating all-nodes tarball /scratch/ALL_NODES_20211201.085016.tar ... done (00:01:42   35M   1%)
[sysadmin@controller-0 ~(keystone_admin)]$
[sysadmin@controller-0 ~(keystone_admin)]$ ceph -s
  cluster:
    id:     07c0ce0c-9b00-4de0-a8ee-13da4debf43c
    health: HEALTH_WARN
            OSD count 0 < osd_pool_default_size 2

services:
    mon: 2 daemons, quorum controller-0,controller-1 (age 22m)
    mgr: controller-0(active, since 44m), standbys: controller-1
    mds:  2 up:standby
    osd: 0 osds: 0 up, 0 in

data:
    pools:   0 pools, 0 pgs
    objects: 0 objects, 0 B
    usage:   0 B used, 0 B / 0 B avail
    pgs: