1.一种节点故障记录的方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括多个节点,所述方法包括:确定所述分布式系统中的任一节点发生故障;
获取发生故障的所述节点的故障信息;
将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。
2.根据权利要求1所述的方法,其特征在于,所述确定分布式系统中的任一节点发生故障包括:第一节点向与所述第一节点相邻的第二节点发送心跳报文,所述第一节点是所述分布式系统中的任一节点;
所述第一节点在时间阈值之前,未收到所述第二节点发送的心跳响应报文时,确定所述第二节点发生故障。
3.根据权利要求2所述的方法,其特征在于,所述获取发生故障的所述节点的故障信息,包括:所述第一节点获取所述第二节点的故障信息;
所述将所述故障信息广播给所述分布式系统中的其他所有节点包括:所述第一节点记录所述故障信息,并将所述故障信息广播给所述分布式系统中的其他所有节点。
4.一种节点故障处理的方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括多个节点,包括:主节点对所述主节点记录的第一故障记录进行处理;
所述主节点在处理完成所述第一故障记录后,广播处理完成消息给所述分布式系统中的其他所有节点,以便接收到所述处理完成消息的节点删除自身记录的第一故障记录,其中,所述分布式系统中的所有节点均记录有相同的故障记录集合,所述第一故障记录是所述故障记录集合中的任一故障记录。
5.根据权利要求4所述的方法,其特征在于,在所述主节点对所述主节点记录的第一故障记录进行处理之前,所述方法还包括:在上一任主节点发生故障时,记录所述上一任主节点的故障信息,其中,所述故障记录集合包括所述上一任主节点的故障信息;
确定自身作为新的所述主节点。
6.一种节点故障记录的装置,其特征在于,所述装置包括:确定单元,用于确定分布式系统中的任一节点发生故障;
获取单元,用于获取发生故障的所述节点的故障信息;
广播单元,用于将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。
7.根据权利要求6所述的装置,其特征在于,所述装置应用于所述分布式系统中的第一节点,所述第一节点是所述分布式系统中的任一节点,所述装置还包括:发送单元,用于向与所述第一节点相邻的第二节点发送心跳报文;
所述确定单元具体用于,所述在时间阈值之前,未收到所述第二节点发送的心跳响应报文时,确定所述第二节点发生故障。
8.根据权利要求7所述的装置,其特征在于,所述获取单元具体用于:获取所述第二节点的故障信息;
所述装置还包括:
记录单元,用于记录所述第二节点的故障信息。
9.一种节点故障处理的装置,其特征在于,所述装置应用于所述分布式系统中的主节点,所述装置包括:故障处理单元,用于对主节点记录的第一故障记录进行处理;
广播单元,用于在所述故障数量范元处理完成所述第一故障记录后,广播处理完成消息给所述分布式系统中的其他所有节点,以便接收到所述处理完成消息的节点删除自身记录的第一故障记录,其中,所述分布式系统中的所有节点均记录有相同的故障记录集合,所述第一故障记录是所述故障记录集合中的任一故障记录。
10.根据权利要求9所述的装置,其特征在于,还包括记录单元,用于在上一任主节点发生故障时,记录所述上一任主节点的故障信息,其中,所述故障记录集合包括所述上一任主节点的故障信息;
确定单元,用于确定自身作为新的所述主节点。