喵ID:MKUmJJ免责声明

Active/active replication for highly available HPC system services

高可用性 HPC 系统服务的主动/主动复制

基本信息

DOI:
10.1109/ares.2006.23
发表时间:
2006
期刊:
First International Conference on Availability, Reliability and Security (ARES'06)
影响因子:
--
通讯作者:
Xubin He
中科院分区:
文献类型:
--
作者: C. Engelmann;S. Scott;C. Leangsuksun;Xubin He研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Today's high performance computing systems have several reliability deficiencies resulting in availability and serviceability issues. Head and service nodes represent a single point of failure and control for an entire system as they render it inaccessible and unmanageable in case of a failure until repair, causing a significant downtime. This paper introduces two distinct replication methods (internal and external) for providing symmetric active/active high availability for multiple head and service nodes running in virtual synchrony. It presents a comparison of both methods in terms of expected correctness, ease-of-use and performance based on early results from ongoing work in providing symmetric active/active high availability for two HPC system services (TORQUE and PVFS metadata server). It continues with a short description of a distributed mutual exclusion algorithm and a brief statement regarding the handling of Byzantine failures. This paper concludes with an overview of past and ongoing work, and a short summary of the presented research.
当今的高性能计算系统具有几种可靠性缺陷,导致可用性和可维修性问题。头和服务节点代表了整个系统的单个故障和控制点,因为它们使其无法访问并且在维修之前无法控制,并且无法控制,从而导致大量停机时间。本文介绍了两种不同的复制方法(内部和外部),用于为在虚拟同步中运行的多个头部和服务节点提供对称的活动/主动高可用性。它根据正在进行的两种HPC系统服务(Torque和PVFS Metadata Server)提供的对称主动/主动高可用性的早期结果来对两种方法进行比较。它继续对分布式相互排除算法的简短描述以及有关处理拜占庭失败的简短陈述。本文以过去和正在进行的工作的概述以及介绍的研究简要介绍。
参考文献(1)
被引文献(14)
Total order broadcast and multicast algorithms: Taxonomy and survey
DOI:
10.1145/1041680.1041682
发表时间:
2003-09
期刊:
ACM Comput. Surv.
影响因子:
0
作者:
X. Défago;A. Schiper;P. Urbán
通讯作者:
X. Défago;A. Schiper;P. Urbán

数据更新时间:{{ references.updateTime }}

Xubin He
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓