Bug #1558853 “Bootstrapping Ceph OSDs fails” : Bugs : kolla

Steven Dake (sdake) on 2016-03-18

Changed in kolla:
importance:	Undecided → Critical
milestone:	none → mitaka-rc2
status:	New → Triaged

Revision history for this message

Sam Yaple (s8m) wrote on 2016-03-18:

#1

This is most commonly a problem when youve attempted multiple ceph deploys and not properly cleaned the environment.

please remove all ceph containers and volumes as well as all ceph configs folders in /etc/kolla/* on all nodes and attempt this again.

If you still have an issue, run docker logs ceph_osd_bootstrap_0 (or whatever container name you have) and post those logs here

Revision history for this message

Ahmad Al-Shishtawy (alshishtawy) wrote on 2016-03-18:

#2

Thanks for your reply!

I cleaned all servers with tools/cleanup-containers and tools/cleanup-host
Removed config files and cleaned the local registry then pulled latest kolla source an rebuild images.
The problem still exists!

Here are the logs you mentioned. Thanks!

$ docker logs bootstrap_osd_0

INFO:__main__:Kolla config strategy set to: COPY_ALWAYS
INFO:__main__:Loading config file at /var/lib/kolla/config_files/config.json
INFO:__main__:Validating config file
INFO:__main__:Copying service configuration files
INFO:__main__:Copying /var/lib/kolla/config_files/ceph.conf to /etc/ceph/ceph.conf
INFO:__main__:Setting permissions for /etc/ceph/ceph.conf
INFO:__main__:Copying /var/lib/kolla/config_files/ceph.client.admin.keyring to /etc/ceph/ceph.client.admin.keyring
INFO:__main__:Setting permissions for /etc/ceph/ceph.client.admin.keyring
INFO:__main__:Writing out command to execute
2016-03-18 21:32:41.485882 7f83c8578700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.63:6789/0 pipe(0x7f83bc000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc004ef0).fault
2016-03-18 21:32:44.486210 7f83d010f700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.62:6789/0 pipe(0x7f83bc008280 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc00c520).fault
2016-03-18 21:32:50.486622 7f83d0210700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.62:6789/0 pipe(0x7f83bc008280 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc007650).fault
....
....
2016-03-18 21:37:29.507208 7f83d0210700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.62:6789/0 pipe(0x7f83bc0008c0 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc00f540).fault
2016-03-18 21:37:35.507671 7f83d010f700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.63:6789/0 pipe(0x7f83bc0008c0 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc00dae0).fault
2016-03-18 21:37:38.485583 7f83d1705700 0 monclient(hunting): authenticate timed out after 300
2016-03-18 21:37:38.485649 7f83d1705700 0 librados: client.admin authentication error (110) Connection timed out
Error connecting to cluster: TimedOut

Revision history for this message

Vikram Hosakote (vhosakot) wrote on 2016-03-19:

#3

I think those messages ending in .fault are not expected.

2016-03-18 21:32:41.485882 7f83c8578700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.63:6789/0 pipe(0x7f83bc000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc004ef0).fault
2016-03-18 21:32:44.486210 7f83d010f700 0 -- 10.0.112.61:0/1000028 >> 10.0.112.62:6789/0 pipe(0x7f83bc008280 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f83bc00c520).fault

Looks an issue with ceph_mon. Is ceph_mon container up ?

Can you send the output of the following.

docker ps -a | grep ceph
docker logs ceph_mon
docker exec ceph_mon ceph -s
docker exec ceph_mon ceph mon dump
docker exec ceph_mon ceph mon stat
docker exec ceph_mon ceph quorum_status
docker volume ls

Revision history for this message

Ahmad Al-Shishtawy (alshishtawy) wrote on 2016-03-19:

#4

Download full text (15.2 KiB)

Here are the logs from one of the three control servers

docker ps -a | grep ceph
0b9666aa6c57 10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0 "kolla_start" 31 minutes ago Exited (1) 26 minutes ago bootstrap_osd_3
2cbc1914c3b9 10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0 "kolla_start" 36 minutes ago Exited (1) 31 minutes ago bootstrap_osd_2
2ec060d596cb 10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0 "kolla_start" 41 minutes ago Exited (1) 36 minutes ago bootstrap_osd_1
0949a7b8c99e 10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0 "kolla_start" 46 minutes ago Exited (1) 41 minutes ago bootstrap_osd_0
6bea26a16776 10.0.112.61:4000/kollaglue/centos-binary-ceph-mon:2.0.0 "kolla_start" 47 minutes ago Up 46 minutes ceph_mon

docker logs ceph_mon
INFO:__main__:Kolla config strategy set to: COPY_ALWAYS
INFO:__main__:Loading config file at /var/lib/kolla/config_files/config.json
INFO:__main__:Validating config file
INFO:__main__:Copying service configuration files
INFO:__main__:Removing existing destination: /etc/ceph/ceph.conf
INFO:__main__:Copying /var/lib/kolla/config_files/ceph.conf to /etc/ceph/ceph.conf
INFO:__main__:Setting permissions for /etc/ceph/ceph.conf
WARNING:__main__:/var/lib/kolla/config_files/ceph.client.admin.keyring does not exist, but is not required
WARNING:__main__:/var/lib/kolla/config_files/ceph.client.mon.keyring does not exist, but is not required
WARNING:__main__:/var/lib/kolla/config_files/ceph.client.radosgw.keyring does not exist, but is not required
WARNING:__main__:/var/lib/kolla/config_files/ceph.monmap does not exist, but is not required
INFO:__main__:Writing out command to execute
creating /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.admin.keyring into /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.mon.keyring into /tmp/ceph.mon.keyring
ceph-mon: set fsid to a80c84b4-cee4-4419-a950-63fdb70bef21
ceph-mon: created monfs at /var/lib/ceph/mon/ceph-10.0.112.61 for mon.10.0.112.61
Running command: '/usr/bin/ceph-mon -d -i 10.0.112.61 --public-addr 10.0.112.61:6789'
2016-03-19 06:30:01.715236 7f361c7e8880 0 ceph version 0.94.5 (9764da52395923e0b32908d83a9f7304401fee43), process ceph-mon, pid 1
2016-03-19 06:30:01.837093 7f361c7e8880 0 starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03-19 06:30:01.837734 7f361c7e8880 1 mon.10.0.112.61@-1(probing) e0 preinit fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03-19 06:30:01.837863 7f361c7e8880 1 mon.10.0.112.61@-1(probing) e0 initial_members 10.0.112.61,10.0.112.62,10.0.112.63, filtering seed monmap
2016-03-19 06:30:01.839076 7f361c7e8880 -1 compacting monitor store ...
2016...

Here are the logs from one of the three control servers

docker ps -a | grep ceph
0b9666aa6c57        10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0        "kolla_start"            31 minutes ago      Exited (1) 26 minutes ago                            bootstrap_osd_3
2cbc1914c3b9        10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0        "kolla_start"            36 minutes ago      Exited (1) 31 minutes ago                            bootstrap_osd_2
2ec060d596cb        10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0        "kolla_start"            41 minutes ago      Exited (1) 36 minutes ago                            bootstrap_osd_1
0949a7b8c99e        10.0.112.61:4000/kollaglue/centos-binary-ceph-osd:2.0.0        "kolla_start"            46 minutes ago      Exited (1) 41 minutes ago                            bootstrap_osd_0
6bea26a16776        10.0.112.61:4000/kollaglue/centos-binary-ceph-mon:2.0.0        "kolla_start"            47 minutes ago      Up 46 minutes                                        ceph_mon

docker logs ceph_mon
INFO:__main__:Kolla config strategy set to: COPY_ALWAYS
INFO:__main__:Loading config file at /var/lib/kolla/config_files/config.json
INFO:__main__:Validating config file
INFO:__main__:Copying service configuration files
INFO:__main__:Removing existing destination: /etc/ceph/ceph.conf
INFO:__main__:Copying /var/lib/kolla/config_files/ceph.conf to /etc/ceph/ceph.conf
INFO:__main__:Setting permissions for /etc/ceph/ceph.conf
WARNING:__main__:/var/lib/kolla/config_files/ceph.client.admin.keyring does not exist, but is not required
WARNING:__main__:/var/lib/kolla/config_files/ceph.client.mon.keyring does not exist, but is not required
WARNING:__main__:/var/lib/kolla/config_files/ceph.client.radosgw.keyring does not exist, but is not required
WARNING:__main__:/var/lib/kolla/config_files/ceph.monmap does not exist, but is not required
INFO:__main__:Writing out command to execute
creating /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.admin.keyring into /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.mon.keyring into /tmp/ceph.mon.keyring
ceph-mon: set fsid to a80c84b4-cee4-4419-a950-63fdb70bef21
ceph-mon: created monfs at /var/lib/ceph/mon/ceph-10.0.112.61 for mon.10.0.112.61
Running command: '/usr/bin/ceph-mon -d -i 10.0.112.61 --public-addr 10.0.112.61:6789'
2016-03-19 06:30:01.715236 7f361c7e8880  0 ceph version 0.94.5 (9764da52395923e0b32908d83a9f7304401fee43), process ceph-mon, pid 1
2016-03-19 06:30:01.837093 7f361c7e8880  0 starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03-19 06:30:01.837734 7f361c7e8880  1 mon.10.0.112.61@-1(probing) e0 preinit fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03-19 06:30:01.837863 7f361c7e8880  1 mon.10.0.112.61@-1(probing) e0  initial_members 10.0.112.61,10.0.112.62,10.0.112.63, filtering seed monmap
2016-03-19 06:30:01.839076 7f361c7e8880 -1 compacting monitor store ...
2016-03-19 06:30:01.871365 7f361c7e8880 -1 done compacting
2016-03-19 06:30:01.871723 7f361c7e8880  0 mon.10.0.112.61@-1(probing) e0  my rank is now 0 (was -1)
2016-03-19 06:30:01.872177 7f3613206700  0 -- 10.0.112.61:6789/0 >> 0.0.0.0:0/2 pipe(0x3ab9000 sd=8 :0 s=1 pgs=0 cs=0 l=0 c=0x3870f20).fault
2016-03-19 06:30:01.872177 7f361c7d4700  0 -- 10.0.112.61:6789/0 >> 0.0.0.0:0/1 pipe(0x3ab0000 sd=12 :0 s=1 pgs=0 cs=0 l=0 c=0x3871080).fault
2016-03-19 06:31:01.838604 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15741 MB, avail 31951 MB
2016-03-19 06:32:01.838851 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15743 MB, avail 31948 MB
2016-03-19 06:33:01.839033 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15743 MB, avail 31948 MB
2016-03-19 06:34:01.839213 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15743 MB, avail 31948 MB
2016-03-19 06:35:01.839391 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15743 MB, avail 31948 MB
2016-03-19 06:36:01.839575 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15748 MB, avail 31943 MB
2016-03-19 06:37:01.839754 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15751 MB, avail 31940 MB
2016-03-19 06:38:01.839930 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15751 MB, avail 31940 MB
2016-03-19 06:39:01.840131 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15751 MB, avail 31940 MB
2016-03-19 06:40:01.840307 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15751 MB, avail 31940 MB
2016-03-19 06:41:01.840502 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15756 MB, avail 31935 MB
2016-03-19 06:42:01.840684 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15759 MB, avail 31932 MB
2016-03-19 06:43:01.840863 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15759 MB, avail 31932 MB
2016-03-19 06:44:01.841045 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15759 MB, avail 31932 MB
2016-03-19 06:45:01.841225 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15759 MB, avail 31932 MB
2016-03-19 06:46:01.841407 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15764 MB, avail 31927 MB
2016-03-19 06:47:01.841588 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:48:01.841769 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:49:01.841977 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:50:01.842154 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:51:01.842339 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:52:01.842527 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:53:01.842707 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:54:01.842882 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:55:01.843083 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:56:01.843259 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:57:01.843439 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:58:01.843614 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 06:59:01.843795 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:00:01.843973 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:01:01.844157 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:02:01.844345 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:03:01.844525 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:04:01.844701 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:05:01.844882 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:06:01.845079 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:07:01.845260 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:08:01.845435 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:09:01.845618 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:10:01.845795 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:11:01.845979 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:12:01.846165 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:13:01.846344 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:14:01.846520 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:15:01.846702 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:16:01.846878 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:17:01.847114 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:18:01.847312 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:19:01.847491 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:20:01.847681 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB
2016-03-19 07:21:01.847854 7f361520a700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 63% total 50268 MB, used 15767 MB, avail 31925 MB

docker exec ceph_mon ceph -s
2016-03-19 07:23:42.727293 7f949c307700  0 -- 10.0.112.61:0/1000346 >> 10.0.112.63:6789/0 pipe(0x7f9488000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f9488004ef0).fault
2016-03-19 07:23:45.727568 7f949c408700  0 -- 10.0.112.61:0/1000346 >> 10.0.112.62:6789/0 pipe(0x7f9488008280 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f948800c520).fault
2016-03-19 07:23:51.728049 7f949c509700  0 -- 10.0.112.61:0/1000346 >> 10.0.112.62:6789/0 pipe(0x7f9488008280 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f94880076a0).fault
2016-03-19 07:23:54.728254 7f949c408700  0 -- 10.0.112.61:0/1000346 >> 10.0.112.63:6789/0 pipe(0x7f9488000c00 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f9488007ea0).fault
...
...

docker exec ceph_mon ceph mon dump
2016-03-19 07:24:24.030972 7fecabd77700  0 -- :/1000418 >> 10.0.112.63:6789/0 pipe(0x7fecb0065010 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7fecb005b770).fault
2016-03-19 07:24:27.031046 7fecabc76700  0 -- :/1000418 >> 10.0.112.62:6789/0 pipe(0x7feca0000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7feca0004ef0).fault
2016-03-19 07:24:30.031264 7fecabd77700  0 -- :/1000418 >> 10.0.112.63:6789/0 pipe(0x7feca0008280 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7feca000c520).fault
2016-03-19 07:24:36.031812 7fecabb75700  0 -- 10.0.112.61:0/1000418 >> 10.0.112.62:6789/0 pipe(0x7feca0008280 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7feca0007790).fault
2016-03-19 07:24:39.032020 7fecabd77700  0 -- 10.0.112.61:0/1000418 >> 10.0.112.63:6789/0 pipe(0x7feca0000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7feca0005090).fault
2016-03-19 07:24:45.032483 7fecabc76700  0 -- 10.0.112.61:0/1000418 >> 10.0.112.63:6789/0 pipe(0x7feca000dfa0 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7feca0000cd0).fault
2016-03-19 07:24:51.033062 7fecabb75700  0 -- 10.0.112.61:0/1000418 >> 10.0.112.62:6789/0 pipe(0x7feca000dfa0 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7feca0000cd0).fault
...
...

docker exec ceph_mon ceph mon stat
2016-03-19 07:26:07.189432 7f4094248700  0 -- :/1000599 >> 10.0.112.63:6789/0 pipe(0x7f4090065010 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f409005b770).fault
2016-03-19 07:26:10.189497 7f4094147700  0 -- :/1000599 >> 10.0.112.62:6789/0 pipe(0x7f4084000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f4084004ef0).fault
2016-03-19 07:26:13.189753 7f4094248700  0 -- :/1000599 >> 10.0.112.63:6789/0 pipe(0x7f4084008280 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f408400c520).fault
2016-03-19 07:26:19.190238 7f408cff9700  0 -- 10.0.112.61:0/1000599 >> 10.0.112.62:6789/0 pipe(0x7f4084008280 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f4084007790).fault
2016-03-19 07:26:22.190476 7f4094248700  0 -- 10.0.112.61:0/1000599 >> 10.0.112.63:6789/0 pipe(0x7f4084000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f4084005090).fault
2016-03-19 07:26:28.191005 7f4094147700  0 -- 10.0.112.61:0/1000599 >> 10.0.112.63:6789/0 pipe(0x7f4084000c00 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f4084005b90).fault
2016-03-19 07:26:34.191467 7f408cff9700  0 -- 10.0.112.61:0/1000599 >> 10.0.112.62:6789/0 pipe(0x7f4084000c00 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f408400e070).fault

docker exec ceph_mon ceph quorum_status
2016-03-19 07:27:38.822207 7f0d207fc700  0 -- :/1000806 >> 10.0.112.63:6789/0 pipe(0x7f0d14008280 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f0d1400c520).fault
2016-03-19 07:27:52.820650 7f0d206fb700  0 -- 10.0.112.61:0/1000806 >> 10.0.112.63:6789/0 pipe(0x7f0d14000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f0d14005310).fault
2016-03-19 07:28:13.822215 7f0d205fa700  0 -- 10.0.112.61:0/1000806 >> 10.0.112.63:6789/0 pipe(0x7f0d14008280 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f0d1400e920).fault
2016-03-19 07:28:16.822428 7f0d207fc700  0 -- 10.0.112.61:0/1000806 >> 10.0.112.62:6789/0 pipe(0x7f0d14000c00 sd=4 :0 s=1 pgs=0 cs=0 l=1 c=0x7f0d1400e1c0).fault
2016-03-19 07:28:28.823329 7f0d205fa700  0 -- 10.0.112.61:0/1000806 >> 10.0.112.62:6789/0 pipe(0x7f0d14000c00 sd=3 :0 s=1 pgs=0 cs=0 l=1 c=0x7f0d140111e0).fault

docker volume ls
DRIVER              VOLUME NAME
local               heka_socket
local               heka
local               ceph_mon_config
local               ceph_mon
local               dba1c650622e477f3b5e9d357e6c4e1ce71001311d50ff7db0a733edeaacb337
local               kolla_logs

Ryan Hallisey (rthall14) on 2016-03-19

Changed in kolla:
assignee:	nobody → Sam Yaple (s8m)

OpenStack Infra (hudson-openstack) on 2016-03-19

Changed in kolla:
status:	Triaged → In Progress

Revision history for this message

OpenStack Infra (hudson-openstack) wrote on 2016-03-21: Fix merged to kolla (master)

#5

Reviewed: https://review.openstack.org/294862
Committed: https://git.openstack.org/cgit/openstack/kolla/commit/?id=5250a00781a214911fec78718ef6dfb91154b0de
Submitter: Jenkins
Branch: master

commit 5250a00781a214911fec78718ef6dfb91154b0de
Author: SamYaple <email address hidden>
Date: Fri Mar 18 13:52:32 2016 +0000

Allow external ceph journals and fix bootstrap

    This allows us to specify external journals for osds which can greatly
    improve performance when the external journals are on the solid-state
    drives.

The new lookup and startup methods fix the previous races we had
preventing osds from being created properly.

    This retains the same functionality as before and is completely
    compatible with the previous method and labels, however this does set
    new labels for all new bootstrap OSDs. This was due to a limitation
    in the length of the name of a GPT partition.

    Closes-Bug: #1558853
    DocImpact
    Partially-Implements: blueprint ceph-improvements
    Change-Id: I61fd10cb35c67dabc53bd82270f26909ef51fc38

Changed in kolla:
status:	In Progress → Fix Released

Revision history for this message

Ahmad Al-Shishtawy (alshishtawy) wrote on 2016-03-22:

#6

Download full text (3.9 KiB)

I updated to the latest fix, cleaned up hosts, build images, and re deployed. It is still failing for me.

The logs are now different. I see /dev/sda2 in the logs, but I only have one partition per disk (sda1) is this normal?

I have four disks per host (/dev/sda - /dev/sdd) and trying to deploy on 10 hosts. All 40 disks look similar to what below:

parted /dev/sdc print
Model: ATA ST4000NM0033-9ZM (scsi)
Disk /dev/sdc: 4001GB
Sector size (logical/physical): 512B/512B
Partition Table: gpt
Disk Flags:

Number Start End Size File system Name Flags
1 1049kB 4001GB 4001GB KOLLA_CEPH_OSD_BOOTSTRAP

TASK: [ceph | Bootstrapping Ceph OSDs] ****************************************
failed: [opst5] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst4] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst3] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst2] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1, "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst1] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed":...

I updated to the latest fix, cleaned up hosts, build images, and re deployed. It is still failing for me.

The logs are now different. I see /dev/sda2 in the logs, but I only have one partition per disk (sda1) is this normal?

I have four disks per host (/dev/sda - /dev/sdd) and trying to deploy on 10 hosts. All 40 disks look similar to what below:

parted /dev/sdc print
Model: ATA ST4000NM0033-9ZM (scsi)
Disk /dev/sdc: 4001GB
Sector size (logical/physical): 512B/512B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name                      Flags
 1      1049kB  4001GB  4001GB               KOLLA_CEPH_OSD_BOOTSTRAP

TASK: [ceph | Bootstrapping Ceph OSDs] ****************************************
failed: [opst5] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst4] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst3] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst2] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1, "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst1] => (item=(0, {u'device': u'/dev/sda', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sda', u'journal':u'/dev/sda2', u'partition': u'/dev/sda1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [0, {"device": "/dev/sda", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sda2", "journal_device": "/dev/sda", "journal_num": 2, "partition": "/dev/sda1", "partition_num": "1"}]}
msg: Container exited with non-zero return code
failed: [opst5] => (item=(1, {u'device': u'/dev/sdb', u'fs_uuid': u'', u'journal_num': 2, u'partition_num': u'1', u'journal_device': u'/dev/sdb', u'journal':u'/dev/sdb2', u'partition': u'/dev/sdb1', u'fs_label': u'', u'external_journal': False})) => {"changed": true, "failed": true, "item": [1, {"device": "/dev/sdb", "external_journal": false, "fs_label": "", "fs_uuid": "", "journal": "/dev/sdb2", "journal_device": "/dev/sdb", "journal_num": 2, "partition": "/dev/sdb1", "partition_num": "1"}]}
...
...
...

Revision history for this message

Sam Yaple (s8m) wrote on 2016-03-22:

#7

The logs from the containers would be needed here. Please look at bootstrap_osd_* logs and post them here

Revision history for this message

Ahmad Al-Shishtawy (alshishtawy) wrote on 2016-03-22:

#8

Download full text (12.3 KiB)

Here are the logs. Thanks!

$ docker volume ls
DRIVER VOLUME NAME
local ceph_mon
local a9d0c5a17f26bd403ae7bc7f2096d52ebcbe82ec7bb5051ac70ba8dfb0a56130
local kolla_logs
local heka_socket
local heka
local ceph_mon_config

$ docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
ea387c55b9b5 10.0.112.61:4000/kollaglue/centos-binary-ceph-mon:2.0.0 "kolla_start" 56 minutes ago Up 56 minutes ceph_mon
8894cbccc227 10.0.112.61:4000/kollaglue/centos-binary-cron:2.0.0 "kolla_start" 56 minutes ago Up 56 minutes cron
25e79fb927e3 10.0.112.61:4000/kollaglue/centos-binary-kolla-toolbox:2.0.0 "/bin/sleep infinity" 56 minutes ago Up 56 minutes kolla_toolbox
66705fcdcc04 10.0.112.61:4000/kollaglue/centos-binary-heka:2.0.0 "kolla_start" 56 minutes ago Up 56 minutes heka
e1fd3ffeee50 registry:2 "/bin/registry /etc/d" 7 hours ago Up 7 hours 0.0.0.0:4000->5000/tcp registry

docker logs ceph_mon
INFO:__main__:Kolla config strategy set to: COPY_ALWAYS
INFO:__main__:Loading config file at /var/lib/kolla/config_files/config.json
INFO:__main__:Validating config file
INFO:__main__:Copying service configuration files
INFO:__main__:Removing existing destination: /etc/ceph/ceph.conf
INFO:__main__:Copying /var/lib/kolla/config_files/ceph.conf to /etc/ceph/ceph.conf
INFO:__main__:Setting permissions for /etc/ceph/ceph.conf
INFO:__main__:/var/lib/kolla/config_files/ceph.client.admin.keyring does not exist, but is not required
INFO:__main__:/var/lib/kolla/config_files/ceph.client.mon.keyring does not exist, but is not required
INFO:__main__:/var/lib/kolla/config_files/ceph.client.radosgw.keyring does not exist, but is not required
INFO:__main__:/var/lib/kolla/config_files/ceph.monmap does not exist, but is not required
INFO:__main__:Writing out command to execute
creating /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.admin.keyring into /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.mon.keyring into /tmp/ceph.mon.keyring
ceph-mon: set fsid to a80c84b4-cee4-4419-a950-63fdb70bef21
ceph-mon: created monfs at /var/lib/ceph/mon/ceph-10.0.112.61 for mon.10.0.112.61
Running command: '/usr/bin/ceph-mon -d -i 10.0.112.61 --public-addr 10.0.112.61:6789'
2016-03-22 16:20:42.127794 7ff00533c880 0 ceph version 0.94.5 (9764da52395923e0b32908d83a9f7304401fee43), process ceph-mon, pid 1
2016-03-22 16:20:42.240972 7ff00533c880 0 starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03...

Here are the logs. Thanks!

$ docker volume ls
DRIVER              VOLUME NAME
local               ceph_mon
local               a9d0c5a17f26bd403ae7bc7f2096d52ebcbe82ec7bb5051ac70ba8dfb0a56130
local               kolla_logs
local               heka_socket
local               heka
local               ceph_mon_config

$ docker ps
CONTAINER ID        IMAGE                                                          COMMAND                  CREATED             STATUS              PORTS                    NAMES
ea387c55b9b5        10.0.112.61:4000/kollaglue/centos-binary-ceph-mon:2.0.0        "kolla_start"            56 minutes ago      Up 56 minutes                                ceph_mon
8894cbccc227        10.0.112.61:4000/kollaglue/centos-binary-cron:2.0.0            "kolla_start"            56 minutes ago      Up 56 minutes                                cron
25e79fb927e3        10.0.112.61:4000/kollaglue/centos-binary-kolla-toolbox:2.0.0   "/bin/sleep infinity"    56 minutes ago      Up 56 minutes                                kolla_toolbox
66705fcdcc04        10.0.112.61:4000/kollaglue/centos-binary-heka:2.0.0            "kolla_start"            56 minutes ago      Up 56 minutes                                heka
e1fd3ffeee50        registry:2                                                     "/bin/registry /etc/d"   7 hours ago         Up 7 hours          0.0.0.0:4000->5000/tcp   registry

docker logs ceph_mon
INFO:__main__:Kolla config strategy set to: COPY_ALWAYS
INFO:__main__:Loading config file at /var/lib/kolla/config_files/config.json
INFO:__main__:Validating config file
INFO:__main__:Copying service configuration files
INFO:__main__:Removing existing destination: /etc/ceph/ceph.conf
INFO:__main__:Copying /var/lib/kolla/config_files/ceph.conf to /etc/ceph/ceph.conf
INFO:__main__:Setting permissions for /etc/ceph/ceph.conf
INFO:__main__:/var/lib/kolla/config_files/ceph.client.admin.keyring does not exist, but is not required
INFO:__main__:/var/lib/kolla/config_files/ceph.client.mon.keyring does not exist, but is not required
INFO:__main__:/var/lib/kolla/config_files/ceph.client.radosgw.keyring does not exist, but is not required
INFO:__main__:/var/lib/kolla/config_files/ceph.monmap does not exist, but is not required
INFO:__main__:Writing out command to execute
creating /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.admin.keyring into /tmp/ceph.mon.keyring
importing contents of /etc/ceph/ceph.client.mon.keyring into /tmp/ceph.mon.keyring
ceph-mon: set fsid to a80c84b4-cee4-4419-a950-63fdb70bef21
ceph-mon: created monfs at /var/lib/ceph/mon/ceph-10.0.112.61 for mon.10.0.112.61
Running command: '/usr/bin/ceph-mon -d -i 10.0.112.61 --public-addr 10.0.112.61:6789'
2016-03-22 16:20:42.127794 7ff00533c880  0 ceph version 0.94.5 (9764da52395923e0b32908d83a9f7304401fee43), process ceph-mon, pid 1
2016-03-22 16:20:42.240972 7ff00533c880  0 starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
starting mon.10.0.112.61 rank 0 at 10.0.112.61:6789/0 mon_data /var/lib/ceph/mon/ceph-10.0.112.61 fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03-22 16:20:42.241496 7ff00533c880  1 mon.10.0.112.61@-1(probing) e0 preinit fsid a80c84b4-cee4-4419-a950-63fdb70bef21
2016-03-22 16:20:42.241606 7ff00533c880  1 mon.10.0.112.61@-1(probing) e0  initial_members 10.0.112.61,10.0.112.62,10.0.112.63, filtering seed monmap
2016-03-22 16:20:42.242668 7ff00533c880 -1 compacting monitor store ...
2016-03-22 16:20:42.283504 7ff00533c880 -1 done compacting
2016-03-22 16:20:42.283758 7ff00533c880  0 mon.10.0.112.61@-1(probing) e0  my rank is now 0 (was -1)
2016-03-22 16:20:42.284230 7feffbd5b700  0 -- 10.0.112.61:6789/0 >> 0.0.0.0:0/2 pipe(0x3f01000 sd=8 :0 s=1 pgs=0 cs=0 l=0 c=0x3cb8f20).fault
2016-03-22 16:20:42.284230 7ff005329700  0 -- 10.0.112.61:6789/0 >> 0.0.0.0:0/1 pipe(0x3ef8000 sd=12 :0 s=1 pgs=0 cs=0 l=0 c=0x3cb9080).fault
2016-03-22 16:21:42.242312 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25462 MB, avail 22230 MB
2016-03-22 16:22:42.242519 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25464 MB, avail 22227 MB
2016-03-22 16:23:42.242695 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25464 MB, avail 22227 MB
2016-03-22 16:24:42.242872 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25464 MB, avail 22227 MB
2016-03-22 16:25:42.243102 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25464 MB, avail 22227 MB
2016-03-22 16:26:42.243280 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25469 MB, avail 22222 MB
2016-03-22 16:27:42.243456 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25472 MB, avail 22219 MB
2016-03-22 16:28:42.243627 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25472 MB, avail 22219 MB
2016-03-22 16:29:42.243797 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25472 MB, avail 22219 MB
2016-03-22 16:30:42.243972 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25472 MB, avail 22219 MB
2016-03-22 16:31:42.244150 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25477 MB, avail 22214 MB
2016-03-22 16:32:42.244328 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25480 MB, avail 22212 MB
2016-03-22 16:33:42.244499 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25480 MB, avail 22212 MB
2016-03-22 16:34:42.244674 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25480 MB, avail 22212 MB
2016-03-22 16:35:42.244848 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25480 MB, avail 22212 MB
2016-03-22 16:36:42.245030 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25483 MB, avail 22209 MB
2016-03-22 16:37:42.245218 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:38:42.245394 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:39:42.245571 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:40:42.245755 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:41:42.245912 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:42:42.246109 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:43:42.246290 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:44:42.246470 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:45:42.246650 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:46:42.246826 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:47:42.247007 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:48:42.247184 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:49:42.247381 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:50:42.247551 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:51:42.247734 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:52:42.247911 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:53:42.248120 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:54:42.248286 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:55:42.248454 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:56:42.248627 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:57:42.248773 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:58:42.248976 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 16:59:42.249151 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:00:42.249319 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:01:42.249499 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:02:42.249677 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:03:42.249850 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:04:42.250021 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:05:42.250194 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:06:42.250362 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:07:42.250534 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:08:42.250706 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:09:42.250880 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:10:42.251085 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:11:42.251263 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:12:42.251441 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:13:42.251614 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:14:42.251784 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:15:42.251998 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
2016-03-22 17:16:42.252184 7feffdd5f700  0 mon.10.0.112.61@0(probing).data_health(0) update_stats avail 44% total 50268 MB, used 25486 MB, avail 22206 MB
[opst@opst1 ~]$

Revision history for this message

Sam Yaple (s8m) wrote on 2016-03-22:

#9

Ahmad, you need to properly clean out your environment.

remove all ceph containers as seen by `docker ps -a`
remove all ceph volumes as seen by `docker volume ls`
remove all ceph configs in /etc/kolla/ceph-*
umount anything in /var/lib/ceph/osd/*
remove any ceph /etc/fstab entries

And then reattempt your task. What yo uare seeing is most common in dev environments that are not properly cleaned as shown above

Revision history for this message

Ahmad Al-Shishtawy (alshishtawy) wrote on 2016-03-23:

#10

Thanks for your help! But it is still failing for me.

As I mentioned in previous post, i clean up all 10 hosts with tools/cleanup-containers and tools/cleanup-host

docker ps -a and docker volume ls show no containers or volumes on all 10 hosts except for a registry on one host.
/etc/kolla/ is cleaned on all, no ceph entries in /etc/fstab, /var/lib/ceph does not exist.
After making sure everything is clean, I deployed again but got the same failure.

Any hints or clues on where to look or what to try different?
I followed the quick start guide and the ceph guide. Any special requirements for a multi-node setup that is not in the docs?

Revision history for this message

Ahmad Al-Shishtawy (alshishtawy) wrote on 2016-03-24:

#11

Problem solved!

Was bad firewall configuration on the controller nodes and in addition to unmounting /etc/kolla/ceph-* I had to remove the partitions and reinitialize disks with KOLLA_CEPH_OSD_BOOTSTRAP flag.

Thanks for the help!

Revision history for this message

Doug Hellmann (doug-hellmann) wrote on 2016-04-22: Fix included in openstack/kolla 2.0.0

#12

This issue was fixed in the openstack/kolla 2.0.0 release.

Revision history for this message

Doug Hellmann (doug-hellmann) wrote on 2016-05-10: Fix included in openstack/kolla 1.1.0

#13

This issue was fixed in the openstack/kolla 1.1.0 release.

Revision history for this message

Doug Hellmann (doug-hellmann) wrote on 2016-06-06: Fix included in openstack/kolla 3.0.0.0b1

#14

This issue was fixed in the openstack/kolla 3.0.0.0b1 development milestone.

kolla

Bootstrapping Ceph OSDs fails

Bug Description

Other bug subscribers

Remote bug watches