drm/amdgpu: Add gpu_recovery parameter

author Andrey Grodzovsky <andrey.grodzovsky@amd.com>

Tue, 12 Dec 2017 19:09:30 +0000 (14:09 -0500)

committer Alex Deucher <alexander.deucher@amd.com>

Fri, 15 Dec 2017 22:14:50 +0000 (17:14 -0500)
author Andrey Grodzovsky <andrey.grodzovsky@amd.com>
Tue, 12 Dec 2017 19:09:30 +0000 (14:09 -0500)
committer Alex Deucher <alexander.deucher@amd.com>
Fri, 15 Dec 2017 22:14:50 +0000 (17:14 -0500)
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu.h b/drivers/gpu/drm/amd/amdgpu/amdgpu.h

index c31c5496dc5e920b281fb682bfe3cbaa19baa5c7..ffbe99d839a3737a1740d5bc26859f7683248826 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu.h
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu.h
@@ -126,6 +126,7 @@ extern int amdgpu_param_buf_per_se;
  extern int amdgpu_job_hang_limit;
  extern int amdgpu_lbpw;
  extern int amdgpu_compute_multipipe;
+extern int amdgpu_gpu_recovery;
  
  #ifdef CONFIG_DRM_AMDGPU_SI
  extern int amdgpu_si_support;
@@ -1910,7 +1911,7 @@ amdgpu_get_sdma_instance(struct amdgpu_ring *ring)
  #define amdgpu_psp_check_fw_loading_status(adev, i) (adev)->firmware.funcs->check_fw_loading_status((adev), (i))
  
  /* Common functions */
-int amdgpu_gpu_recover(struct amdgpu_device *adev, struct amdgpu_job* job);
+int amdgpu_gpu_recover(struct amdgpu_device *adev, struct amdgpu_job* job, bool force);
  bool amdgpu_need_backup(struct amdgpu_device *adev);
  void amdgpu_pci_config_reset(struct amdgpu_device *adev);
  bool amdgpu_need_post(struct amdgpu_device *adev);
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c

index 046b9d5bc14d2d603cbcc090e88f3dbcd45919ad..3f63f5ca4fa7809284a42dbbf5a09b1c33d08033 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
@@ -3009,11 +3009,12 @@ error:
   *
   * @adev: amdgpu device pointer
   * @job: which job trigger hang
+ * @force forces reset regardless of amdgpu_gpu_recovery
   *
   * Attempt to reset the GPU if it has hung (all asics).
   * Returns 0 for success or an error on failure.
   */
-int amdgpu_gpu_recover(struct amdgpu_device *adev, struct amdgpu_job *job)
+int amdgpu_gpu_recover(struct amdgpu_device *adev, struct amdgpu_job *job, bool force)
  {
         struct drm_atomic_state *state = NULL;
         uint64_t reset_flags = 0;
@@ -3024,6 +3025,12 @@ int amdgpu_gpu_recover(struct amdgpu_device *adev, struct amdgpu_job *job)
                 return 0;
         }
  
+       if (!force && (amdgpu_gpu_recovery == 0 ||
+                       (amdgpu_gpu_recovery == -1  && !amdgpu_sriov_vf(adev)))) {
+               DRM_INFO("GPU recovery disabled.\n");
+               return 0;
+       }
+
         dev_info(adev->dev, "GPU reset begin!\n");
  
         mutex_lock(&adev->lock_reset);
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_drv.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_drv.c

index 0b039bdcf84e914f589b7976feccc6c4f474b161..b734cd668ff14b3ef7d528d9f7b6d334805b062c 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_drv.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_drv.c
@@ -128,6 +128,7 @@ int amdgpu_param_buf_per_se = 0;
  int amdgpu_job_hang_limit = 0;
  int amdgpu_lbpw = -1;
  int amdgpu_compute_multipipe = -1;
+int amdgpu_gpu_recovery = -1; /* auto */
  
  MODULE_PARM_DESC(vramlimit, "Restrict VRAM for testing, in megabytes");
  module_param_named(vramlimit, amdgpu_vram_limit, int, 0600);
@@ -280,6 +281,9 @@ module_param_named(lbpw, amdgpu_lbpw, int, 0444);
  MODULE_PARM_DESC(compute_multipipe, "Force compute queues to be spread across pipes (1 = enable, 0 = disable, -1 = auto)");
  module_param_named(compute_multipipe, amdgpu_compute_multipipe, int, 0444);
  
+MODULE_PARM_DESC(gpu_recovery, "Enable GPU recovery mechanism, (1 = enable, 0 = disable, -1 = auto");
+module_param_named(gpu_recovery, amdgpu_gpu_recovery, int, 0444);
+
  #ifdef CONFIG_DRM_AMDGPU_SI
  
  #if defined(CONFIG_DRM_RADEON) || defined(CONFIG_DRM_RADEON_MODULE)
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_fence.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_fence.c

index 7cb71a8e21df1198518550956364ef0d01d7109b..d3ce121495429251953fc4a3d58f1a27e9d1d60c 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_fence.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_fence.c
@@ -705,7 +705,7 @@ static int amdgpu_debugfs_gpu_recover(struct seq_file *m, void *data)
         struct amdgpu_device *adev = dev->dev_private;
  
         seq_printf(m, "gpu recover\n");
-       amdgpu_gpu_recover(adev, NULL);
+       amdgpu_gpu_recover(adev, NULL, true);
  
         return 0;
  }
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_irq.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_irq.c

index c340774082ea225e7dc2106397c1630d1aeb180c..c43643e8c8c885a4ed741749944063bd667ffc4a 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_irq.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_irq.c
@@ -88,7 +88,7 @@ static void amdgpu_irq_reset_work_func(struct work_struct *work)
                                                   reset_work);
  
         if (!amdgpu_sriov_vf(adev))
-               amdgpu_gpu_recover(adev, NULL);
+               amdgpu_gpu_recover(adev, NULL, false);
  }
  
  /* Disable *all* interrupts */
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c

index 013c0a8cfb604a805096c1518667ff539ea83021..be8a437fad544924320de5f8edbdfcba1b917e01 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
@@ -37,7 +37,7 @@ static void amdgpu_job_timedout(struct drm_sched_job *s_job)
                   atomic_read(&job->ring->fence_drv.last_seq),
                   job->ring->fence_drv.sync_seq);
  
-       amdgpu_gpu_recover(job->adev, job);
+       amdgpu_gpu_recover(job->adev, job, false);
  }
  
  int amdgpu_job_alloc(struct amdgpu_device *adev, unsigned num_ibs,
diff --git a/drivers/gpu/drm/amd/amdgpu/mxgpu_ai.c b/drivers/gpu/drm/amd/amdgpu/mxgpu_ai.c

index 71f56900d6fea872c1376b1c4fb3229cde8de985..7ade56d59c2773d79a9394d5744d95174fba668e 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/mxgpu_ai.c
+++ b/drivers/gpu/drm/amd/amdgpu/mxgpu_ai.c
@@ -253,7 +253,7 @@ static void xgpu_ai_mailbox_flr_work(struct work_struct *work)
         }
  
         /* Trigger recovery due to world switch failure */
-       amdgpu_gpu_recover(adev, NULL);
+       amdgpu_gpu_recover(adev, NULL, false);
  }
  
  static int xgpu_ai_set_mailbox_rcv_irq(struct amdgpu_device *adev,
diff --git a/drivers/gpu/drm/amd/amdgpu/mxgpu_vi.c b/drivers/gpu/drm/amd/amdgpu/mxgpu_vi.c

index df52824c0cd416154251847b247b4ef638c99c03..e05823d86cfb2fc41bc76173ca87b0bb32d63601 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/mxgpu_vi.c
+++ b/drivers/gpu/drm/amd/amdgpu/mxgpu_vi.c
@@ -521,7 +521,7 @@ static void xgpu_vi_mailbox_flr_work(struct work_struct *work)
         }
  
         /* Trigger recovery due to world switch failure */
-       amdgpu_gpu_recover(adev, NULL);
+       amdgpu_gpu_recover(adev, NULL, false);
  }
  
  static int xgpu_vi_set_mailbox_rcv_irq(struct amdgpu_device *adev,
author	Andrey Grodzovsky <andrey.grodzovsky@amd.com>
	Tue, 12 Dec 2017 19:09:30 +0000 (14:09 -0500)
committer	Alex Deucher <alexander.deucher@amd.com>
	Fri, 15 Dec 2017 22:14:50 +0000 (17:14 -0500)
drivers/gpu/drm/amd/amdgpu/amdgpu.h		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/amdgpu_device.c		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/amdgpu_drv.c		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/amdgpu_fence.c		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/amdgpu_irq.c		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/amdgpu_job.c		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/mxgpu_ai.c		patch \| blob \| history
drivers/gpu/drm/amd/amdgpu/mxgpu_vi.c		patch \| blob \| history