openstack 疏散功能nova evacuate

admin · 发表于 2021-8-30 17:33:16

[root@controller1 ~]# nova help  evacuate
usage: nova evacuate [--password <password>] <server> [<host>]
Evacuate server from failed host.
Positional arguments:
  <server>             Name or ID of server.
  <host>                Name or ID of the target host. If no host is
                     specified, the scheduler will choose one.
Optional arguments:
  --password <password>  Set the provided admin password on the evacuated
                     server. Not applicable if the server is on shared
                     storage.

admin · 发表于 2021-8-30 17:35:13

前提条件：
openstack和ceph集成完成，保证虚拟机系统盘运行在ceph上

配置步骤：
1.在各个计算节点之间做root的ssh认证，可以相互免密登录

2.配置libvirtd服务修改配置

# vim /etc/libvirt/libvirtd.conf

listen_tls = 0
listen_tcp = 1
unix_sock_group = "root"
unix_sock_rw_perms = "0777"
auth_unix_ro = "none"
auth_unix_rw = "none"
log_filters="2:qemu_monitor_json 2:qemu_driver"
log_outputs="2:file:/var/log/libvirt/libvirtd.log"
tcp_port = "16509"
listen_addr = "0.0.0.0"
auth_tcp = "none"
修改配置

vim /etc/sysconfig/libvirtd

LIBVIRTD_ARGS="--listen"
#重启libvirtd服务

# systemctl restart libvirtd
3.执行热迁移

# openstack server migrate 3aa7f750-0867-43e8-accb-d2262ab99932 --live compute01
4.疏散步骤
4.1 主机查询

# openstack host list
[root@controller1 ~]# openstack host list
+-------------+-------------+----------+
| Host Name | Service    | Zone    |
+-------------+-------------+----------+
| controller2 | scheduler | internal |
| controller3 | scheduler | internal |
| controller1 | scheduler | internal |
| controller3 | conductor | internal |
| controller1 | conductor | internal |
| controller2 | conductor | internal |
| controller2 | consoleauth | internal |
| controller1 | consoleauth | internal |
| controller3 | consoleauth | internal |
| compute02 | compute    | nova    |
| compute03 | compute    | nova    |
| compute01 | compute    | nova    |
+-------------+-------------+----------+

4.2 执行疏散

一台计算节点的所有虚拟机疏散到另外一台计算节点

# nova host-evacuate --target_host compute02 compute01
一台计算节点上的一台虚拟机疏散到另外一台计算节点

# nova evacuate 3aa7f750-0867-43e8-accb-d2262ab99932 compute02

[root@controller1 ~]# openstack host list
+-------------+-------------+----------+
| Host Name | Service    | Zone    |
+-------------+-------------+----------+
| controller2 | scheduler | internal |
| controller3 | scheduler | internal |
| controller1 | scheduler | internal |
| controller3 | conductor | internal |
| controller1 | conductor | internal |
| controller2 | conductor | internal |
| controller2 | consoleauth | internal |
| controller1 | consoleauth | internal |
| controller3 | consoleauth | internal |
| compute03 | compute    | nova    |
| compute01 | compute    | nova    |
+-------------+-------------+----------+

[root@controller1 ~]# nova host-evacuate --target_host compute02 compute01
+--------------------------------------+-------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+
| Server UUID                         | Evacuate Accepted | Error Message                                                                                                                                  |
+--------------------------------------+-------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+
| 590e3822-085b-4273-bce1-bf0e7a09b9f7 | False          | Error while evacuating instance: Compute service of compute01 is still in use. (HTTP 400) (Request-ID: req-a53b7625-8718-4fe9-9c90-ba67bc79c5bb) |
+--------------------------------------+-------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+
[root@controller1 ~]# nova host-evacuate --target_host compute02 compute03
+--------------------------------------+-------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+
| Server UUID                         | Evacuate Accepted | Error Message                                                                                                                                  |
+--------------------------------------+-------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+
| 347d5d2e-1516-41ef-b247-a42bc72e093c | False          | Error while evacuating instance: Compute service of compute03 is still in use. (HTTP 400) (Request-ID: req-d6940859-0d1f-4453-b6b7-16091b602b39) |
+--------------------------------------+-------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+

[root@controller1 ~]# nova list
+--------------------------------------+----------+--------+------------+-------------+-------------------------------------+
| ID                                  | Name    | Status | Task State | Power State | Networks                         |
+--------------------------------------+----------+--------+------------+-------------+-------------------------------------+
| 7b01d71a-40d4-45fa-bf5c-97e676b2b9a2 | test1 | ACTIVE | -       | Running    | bridge=192.168.0.206, 192.168.0.233 |
| 590e3822-085b-4273-bce1-bf0e7a09b9f7 | zhangyj1 | ACTIVE | -       | Running    | bridge=192.168.0.223             |
| 347d5d2e-1516-41ef-b247-a42bc72e093c | zhangyj2 | ACTIVE | -       | Running    | bridge=192.168.0.201             |
+--------------------------------------+----------+--------+------------+-------------+-------------------------------------+
[root@controller1 ~]# nova evacuate  7b01d71a-40d4-45fa-bf5c-97e676b2b9a2 compute03
[root@controller1 ~]# nova list
+--------------------------------------+----------+--------+------------+-------------+-------------------------------------+
| ID                                  | Name    | Status | Task State | Power State | Networks                         |
+--------------------------------------+----------+--------+------------+-------------+-------------------------------------+
| 7b01d71a-40d4-45fa-bf5c-97e676b2b9a2 | test1 | ACTIVE | -       | Running    | bridge=192.168.0.206, 192.168.0.233 |
| 590e3822-085b-4273-bce1-bf0e7a09b9f7 | zhangyj1 | ACTIVE | -       | Running    | bridge=192.168.0.223             |
| 347d5d2e-1516-41ef-b247-a42bc72e093c | zhangyj2 | ACTIVE | -       | Running    | bridge=192.168.0.201             |
+--------------------------------------+----------+--------+------------+-------------+-------------------------------------+
[root@controller1 ~]# nova show 7b01d71a-40d4-45fa-bf5c-97e676b2b9a2
+--------------------------------------+----------------------------------------------------------------------------------+
| Property                            | Value                                                                         |
+--------------------------------------+----------------------------------------------------------------------------------+
| OS-DCF:diskConfig                   | AUTO                                                                            |
| OS-EXT-AZ:availability_zone       | nova                                                                            |
| OS-EXT-SRV-ATTR:host                | compute03                                                                      |
| OS-EXT-SRV-ATTR:hostname          | test1                                                                         |
| OS-EXT-SRV-ATTR:hypervisor_hostname  | compute03                                                                      |
| OS-EXT-SRV-ATTR:instance_name       | instance-00000002                                                             |
| OS-EXT-SRV-ATTR:kernel_id          |                                                                               |
| OS-EXT-SRV-ATTR:launch_index       | 0                                                                               |
| OS-EXT-SRV-ATTR:ramdisk_id          |                                                                               |
| OS-EXT-SRV-ATTR:reservation_id    | r-uqofhf0v                                                                      |
| OS-EXT-SRV-ATTR:root_device_name    | /dev/vda                                                                      |
| OS-EXT-SRV-ATTR:user_data          | -                                                                               |
| OS-EXT-STS:power_state             | 1                                                                               |
| OS-EXT-STS:task_state             | -                                                                               |
| OS-EXT-STS:vm_state                | active                                                                         |
| OS-SRV-USG:launched_at             | 2021-08-31T01:25:16.000000                                                    |
| OS-SRV-USG:terminated_at          | -                                                                               |
| accessIPv4                         |                                                                               |
| accessIPv6                         |                                                                               |
| bridge network                      | 192.168.0.206, 192.168.0.233                                                    |
| config_drive                      |                                                                               |
| created                            | 2021-08-25T07:37:43Z                                                          |
| description                         | -                                                                               |
| flavor:disk                         | 10                                                                            |
| flavor:ephemeral                   | 0                                                                               |
| flavor:extra_specs                | {}                                                                            |
| flavor:original_name                | type-1c-1g-10g                                                                |
| flavor:ram                         | 1024                                                                            |
| flavor:swap                         | 0                                                                               |
| flavor:vcpus                      | 1                                                                               |
| hostId                            | 35bcc54020d6ae54aebe586983a9df9d8562a0201cea0c0d85e39455                      |
| host_status                         | UP                                                                            |
| id                                  | 7b01d71a-40d4-45fa-bf5c-97e676b2b9a2                                           |
| image                               | Attempt to boot from volume - no image supplied                               |
| key_name                            | -                                                                               |
| locked                            | False                                                                         |
| metadata                            | {}                                                                            |
| name                               | test1                                                                         |
| os-extended-volumes:volumes_attached | [{"id": "d385a405-529b-450e-98e7-44aad0d3e94a", "delete_on_termination": false}] |
| progress                            | 0                                                                               |
| security_groups                   | default                                                                         |
| status                            | ACTIVE                                                                         |
| tags                               | []                                                                            |
| tenant_id                         | 92a5a26fc14d418d881ade0ccbcffc59                                              |
| updated                            | 2021-08-31T01:25:17Z                                                          |
| user_id                            | b1ffbc1f84cf42c99a8e59fdaf7f1cf5                                              |
+--------------------------------------+----------------------------------------------------------------------------------+
————————————————

admin · 发表于 2021-8-30 17:35:43

一. 当实例所在的节点发生故障不可用时，可执行evacuate操作，在另外一个新节点rebuild该实例，实现高可用。
这可以是OpenStack计算节点HA的一种实现方案。

二. API调用
nova.servers.evacuate(server=fm['id']), on_shared_storage=True
1. on_shared_storage参数在2.14版本后废除，自动检查是否为共享存储。
共享存储能够保证实例在另外新节点重建后数据不丢失
2. 可以设置目的主机host
如果不设置host，nova会通过scheduler选择一个新的主机（不会分到原主机，因为rebuild函数中过滤了原主机）
3. 这个调用只是发送了evacuate操作命令，具体是否真正疏散成功，无法知道

三. 源码分析
对应的是/nova/compute/api.py
@check_instance_state(vm_state=[vm_states.ACTIVE, vm_states.STOPPED,
                              vm_states.ERROR])
def evacuate(self, context, instance, host, on_shared_storage,
         admin_password=None)
1. 函数上方有装饰符 @check_instance_state
表示在执行evacuate方法前先执行check_instance_state：检测传入的instance的vm_state是否为ACTIVE、STOPPED或ERROR。如果不是这三种状态，不能执行evacuate方法。

2. 首先检测instance所在主机的状态是否为down，如果不是down（比如up），执行会出错。
LOG.debug('vm evacuation scheduled', instance=instance)
# 原实例所在主机
inst_host = instance.host
service = objects.Service.get_by_compute_host(context, inst_host)
# 首先确保compute主机的状态为down
if self.servicegroup_api.service_is_up(service):
LOG.error(_LE('Instance compute service state on %s '
               'expected to be down, but it was up.'), inst_host)
raise exception.ComputeServiceInUse(host=inst_host)

3. 记录action执行操作
# 实例的任务状态设置为REBUILDING
instance.task_state = task_states.REBUILDING
instance.save(expected_task_state=[None])
self._record_action_start(context, instance, instance_actions.EVACUATE)

4. 初始化迁移类
migration = objects.Migration(context,
                           source_compute=instance.host,
                           source_node=instance.node,
                           instance_uuid=instance_uuid,
                           status='accepted',
                           migration_type='evacuation')
5. 创建迁移（这里为什么要创建migration，并没有执行迁移）
# 如果提供了目的主机
if host:
migration.dest_compute = host
migration.create()

6. 发送消息通知实例的使用配额
compute_utils.notify_about_instance_usage(
self.notifier, context, instance, "evacuate")

7. 最后执行task任务：rebuild_instance
所以evacuate的本质是在新节点上执行rebuild操作
return self.compute_task_api.rebuild_instance(context,
         instance=instance,
         new_pass=admin_password,
         injected_files=None,
         image_ref=None,
         orig_image_ref=None,
         orig_sys_metadata=None,
         bdms=None,
         recreate=True,
         on_shared_storage=on_shared_storage,
         host=host)
深入分析rebuild_instance方法，通过各种rpc调用，最终具体执行的是/nova/conductor/manager.py
def rebuild_instance(self, context, instance, orig_image_ref, image_ref,
                  injected_files, new_pass, orig_sys_metadata,
                  bdms, recreate, on_shared_storage,
                  preserve_ephemeral=False, host=None):
（1）在选择新目的主机时先排除instance所在主机
这样能确保不会在原主机上执行rebuild操作
# 排除原实例所在的主机，即不能在同一个主机里进行rebuild
filter_properties = {'ignore_hosts': [instance.host]}
hosts = self.scheduler_client.select_destinations(context,
                                    request_spec,
                                    filter_properties)
（2）接下来会通过scheduler模块筛选出合适的新主机
（3）如果没有选出足够的合适新主机，则抛出异常
except exception.NoValidHost as ex:
with excutils.save_and_reraise_exception():
      self._set_vm_state_and_notify(context, instance.uuid,
         'rebuild_server',
         {'vm_state': instance.vm_state,
         'task_state': None}, ex, request_spec)
      LOG.warning(_LW("No valid host found for rebuild"),
                  instance=instance)
不能选出合适的新主机，有可能是除了原节点外，其他节点都不可用（computer service status:disabled）或网络不通（computer service state:down），导致没有合适的新主机。

admin · 发表于 2021-8-30 17:36:52

前言: 因为机房服务器运行不稳定的原因导致计算节点挂掉，然后上面的Centos7虚拟机在迁移之后开机报错。这个解决方法同样适用于其它操作系统的虚拟机。基于镜像创建的虚拟机实例。

I/O error, can't read device /dev/vda 的报错信息

首先做疏散先把虚拟实例从宿主机上面疏散到其它主机，关闭云主机。

1.找到虚拟机的ID可以通过dashboard界面或者使用openstack server list命令，找到虚拟机的ID；然后查看虚拟机的详细信息。

比如:

nova show 8fa3d2eb-2401-48a9-850a-f800314c6950# 与这个命令相同功能的命令还有openstack server show ID

连接到所在的计算节点，实例名称确定是哪台主机。

注意要主机是开机状态才能看到

通过ID可以确定该虚拟机实例的数据目录，如果openstack没有对接存储的话那么在这个目录下就会存在数据文件，因为对接了ceph所以信息在libvirt.xml的文件里面。

cat /var/lib/nova/instances/8fa3d2eb-2401-48a9-850a-f800314c6950/libvirt.xml 里面就是它的vda的ID。

2.当找到这个磁盘的ID之后，在ceph集群里面去查看这个设备

rbd ls volumes | grep 8fa3d2eb-2401-48a9-850a-f800314c6950

3.取消它原来有的一些属性

# 查看卷rbd info volumes/0859147d-27aa-49a5-8373-7c515c4f3a02_disk#取消它原来有的一些属性；根据ceph的提示操作，因为有的属性linux不支持。rbd feature disable exclusive-lock object-map fast-diff deep-flatten --image 8fa3d2eb-2401-48a9-850a-f800314c6950_disk -p volumes

4.把它映射到本地

rbd map 8fa3d2eb-2401-48a9-850a-f800314c6950_disk -p volumes# 如果映射不了执行下这个命令。rbd flatten volumes/8fa3d2eb-2401-48a9-850a-f800314c6950_disk

5.使用命令修复

# 有的可能修复不了就只能做好丢失数据的准备了xfs_repair -L /dev/rbd0p1可以ls /dev/rbd* 查看一下，rbd0p1表示的事一个启动分区。

6.取消映射

rbd unmap 8fa3d2eb-2401-48a9-850a-f800314c6950_disk -p volumes

这个时候再重新启动就正常了。

		自动登录	找回密码
密码			注册

openstack 疏散功能nova evacuate

浏览过的版块