powerpc/pseries: Track LMB nid instead of using device tree
authorNathan Fontenot <nfont@linux.vnet.ibm.com>
Tue, 2 Oct 2018 15:35:59 +0000 (10:35 -0500)
committerMichael Ellerman <mpe@ellerman.id.au>
Mon, 29 Apr 2019 12:27:16 +0000 (22:27 +1000)
When removing memory we need to remove the memory from the node
it was added to instead of looking up the node it should be in
in the device tree.

During testing we have seen scenarios where the affinity for a
LMB changes due to a partition migration or PRRN event. In these
cases the node the LMB exists in may not match the node the device
tree indicates it belongs in. This can lead to a system crash
when trying to DLPAR remove the LMB after a migration or PRRN
event. The current code looks up the node in the device tree to
remove the LMB from, the crash occurs when we try to offline this
node and it does not have any data, i.e. node_data[nid] == NULL.

36:mon> e
cpu 0x36: Vector: 300 (Data Access) at [c0000001828b7810]
    pc: c00000000036d08c: try_offline_node+0x2c/0x1b0
    lr: c0000000003a14ec: remove_memory+0xbc/0x110
    sp: c0000001828b7a90
   msr: 800000000280b033
   dar: 9a28
 dsisr: 40000000
  current = 0xc0000006329c4c80
  paca    = 0xc000000007a55200   softe: 0        irq_happened: 0x01
    pid   = 76926, comm = kworker/u320:3

36:mon> t
[link register   ] c0000000003a14ec remove_memory+0xbc/0x110
[c0000001828b7a90c00000000006a1cc arch_remove_memory+0x9c/0xd0 (unreliable)
[c0000001828b7ad0c0000000003a14e0 remove_memory+0xb0/0x110
[c0000001828b7b20c0000000000c7db4 dlpar_remove_lmb+0x94/0x160
[c0000001828b7b60c0000000000c8ef8 dlpar_memory+0x7e8/0xd10
[c0000001828b7bf0c0000000000bf828 handle_dlpar_errorlog+0xf8/0x160
[c0000001828b7c60c0000000000bf8cc pseries_hp_work_fn+0x3c/0xa0
[c0000001828b7c90c000000000128cd8 process_one_work+0x298/0x5a0
[c0000001828b7d20c000000000129068 worker_thread+0x88/0x620
[c0000001828b7dc0c00000000013223c kthread+0x1ac/0x1c0
[c0000001828b7e30c00000000000b45c ret_from_kernel_thread+0x5c/0x80

To resolve this we need to track the node a LMB belongs to when
it is added to the system so we can remove it from that node instead
of the node that the device tree indicates it should belong to.

Signed-off-by: Nathan Fontenot <nfont@linux.vnet.ibm.com>
Signed-off-by: Michael Ellerman <mpe@ellerman.id.au>
arch/powerpc/include/asm/drmem.h
arch/powerpc/mm/drmem.c
arch/powerpc/platforms/pseries/hotplug-memory.c

index 7c1d8e74b25d4f18ca31fdfa1dd773ab47a0e542..7f3279b014db031dbd2818efffd568ff10e39f0d 100644 (file)
@@ -17,6 +17,9 @@ struct drmem_lmb {
        u32     drc_index;
        u32     aa_index;
        u32     flags;
+#ifdef CONFIG_MEMORY_HOTPLUG
+       int     nid;
+#endif
 };
 
 struct drmem_lmb_info {
@@ -104,4 +107,22 @@ static inline void invalidate_lmb_associativity_index(struct drmem_lmb *lmb)
        lmb->aa_index = 0xffffffff;
 }
 
+#ifdef CONFIG_MEMORY_HOTPLUG
+static inline void lmb_set_nid(struct drmem_lmb *lmb)
+{
+       lmb->nid = memory_add_physaddr_to_nid(lmb->base_addr);
+}
+static inline void lmb_clear_nid(struct drmem_lmb *lmb)
+{
+       lmb->nid = -1;
+}
+#else
+static inline void lmb_set_nid(struct drmem_lmb *lmb)
+{
+}
+static inline void lmb_clear_nid(struct drmem_lmb *lmb)
+{
+}
+#endif
+
 #endif /* _ASM_POWERPC_LMB_H */
index 3f1803672c9bb1062da0238999a82338f7c3c387..641891df2046cccf6aec1fdf1ee1bab5f9d4af7e 100644 (file)
@@ -366,8 +366,10 @@ static void __init init_drmem_v1_lmbs(const __be32 *prop)
        if (!drmem_info->lmbs)
                return;
 
-       for_each_drmem_lmb(lmb)
+       for_each_drmem_lmb(lmb) {
                read_drconf_v1_cell(lmb, &prop);
+               lmb_set_nid(lmb);
+       }
 }
 
 static void __init init_drmem_v2_lmbs(const __be32 *prop)
@@ -412,6 +414,8 @@ static void __init init_drmem_v2_lmbs(const __be32 *prop)
 
                        lmb->aa_index = dr_cell.aa_index;
                        lmb->flags = dr_cell.flags;
+
+                       lmb_set_nid(lmb);
                }
        }
 }
index d291b618a559dc5a0f6fee5e312330b96ff9b8a0..47087832f8b2ecd56defcd64d7c5a467bac5085d 100644 (file)
@@ -379,7 +379,7 @@ static int dlpar_add_lmb(struct drmem_lmb *);
 static int dlpar_remove_lmb(struct drmem_lmb *lmb)
 {
        unsigned long block_sz;
-       int nid, rc;
+       int rc;
 
        if (!lmb_is_removable(lmb))
                return -EINVAL;
@@ -389,14 +389,14 @@ static int dlpar_remove_lmb(struct drmem_lmb *lmb)
                return rc;
 
        block_sz = pseries_memory_block_size();
-       nid = memory_add_physaddr_to_nid(lmb->base_addr);
 
-       __remove_memory(nid, lmb->base_addr, block_sz);
+       __remove_memory(lmb->nid, lmb->base_addr, block_sz);
 
        /* Update memory regions for memory remove */
        memblock_remove(lmb->base_addr, block_sz);
 
        invalidate_lmb_associativity_index(lmb);
+       lmb_clear_nid(lmb);
        lmb->flags &= ~DRCONF_MEM_ASSIGNED;
 
        return 0;
@@ -653,7 +653,7 @@ static int dlpar_memory_remove_by_ic(u32 lmbs_to_remove, u32 drc_index)
 static int dlpar_add_lmb(struct drmem_lmb *lmb)
 {
        unsigned long block_sz;
-       int nid, rc;
+       int rc;
 
        if (lmb->flags & DRCONF_MEM_ASSIGNED)
                return -EINVAL;
@@ -664,13 +664,11 @@ static int dlpar_add_lmb(struct drmem_lmb *lmb)
                return rc;
        }
 
+       lmb_set_nid(lmb);
        block_sz = memory_block_size_bytes();
 
-       /* Find the node id for this address */
-       nid = memory_add_physaddr_to_nid(lmb->base_addr);
-
        /* Add the memory */
-       rc = __add_memory(nid, lmb->base_addr, block_sz);
+       rc = __add_memory(lmb->nid, lmb->base_addr, block_sz);
        if (rc) {
                invalidate_lmb_associativity_index(lmb);
                return rc;
@@ -678,8 +676,9 @@ static int dlpar_add_lmb(struct drmem_lmb *lmb)
 
        rc = dlpar_online_lmb(lmb);
        if (rc) {
-               __remove_memory(nid, lmb->base_addr, block_sz);
+               __remove_memory(lmb->nid, lmb->base_addr, block_sz);
                invalidate_lmb_associativity_index(lmb);
+               lmb_clear_nid(lmb);
        } else {
                lmb->flags |= DRCONF_MEM_ASSIGNED;
        }