Django 開發人員的 7 個數據庫優化最佳實踐

譯文精選

作者：黃顯東 2022-08-31 15:45:57

數據庫

數據庫管理是后端開發最重要的方面之一。適當優化的數據庫可以幫助減少響應時間，從而帶來更好的用戶體驗。

數據庫管理是后端開發最重要的方面之一。適當優化的數據庫可以幫助減少響應時間，從而帶來更好的用戶體驗。在本文中，我們將討論在 Django 應用程序中優化數據庫以提高速度的方法。

了解 Django 中的查詢集是優化的關鍵，因此，請記住以下幾點：

查詢集是惰性的，這意味著在你對查詢集執行某些操作（例如對其進行迭代）之前，不會發出相應的數據庫請求。
始終通過指定要返回的值的數量來限制數據庫查詢的結果。
在 Django 中，查詢集可以通過迭代、切片、緩存和 python 方法（例如len()等）進行評估count()。確保充分利用它們。
Django 查詢集被緩存，因此如果你重復使用相同的查詢集，將不會發出多個數據庫請求，從而最大限度地減少數據庫訪問。
一次檢索你需要的所有內容，但請確保你只檢索你需要的內容。

Django中的查詢優化

數據庫索引

數據庫索引是一種在從數據庫中檢索記錄時加快查詢速度的技術。隨著應用程序大小的增加，它可能會變慢，并且用戶會注意到，因為獲取所需數據需要更長的時間。因此，在處理生成大量數據的大型數據庫時，索引是一項不可協商的操作。

索引是一種基于各個字段對大量數據進行排序的方法。當你在數據庫中的字段上創建索引時，你將創建另一個數據結構，其中包含字段值以及指向與其相關的記錄的指針。然后對該索引結構進行排序，使二進制搜索成為可能。

例如，這是一個名為 Sale 的 Django 模型：

# models.py

from django.db import models

class Sale(models.Model):
    sold_at = models.DateTimeField(
        auto_now_add=True,
    )
    charged_amount = models.PositiveIntegerField()

在定義 Django 模型時，可以將數據庫索引添加到特定字段，如下所示：

# models.py

from django.db import models

class Sale(models.Model):
    sold_at = models.DateTimeField(
        auto_now_add=True,
        db_index=True, #DB Indexing
    )
    charged_amount = models.PositiveIntegerField()

如果你為此模型運行遷移，Django 將在表 Sales 上創建一個數據庫索引，并且它將被鎖定直到索引完成。在本地開發設置中，數據量很少，連接很少，這種遷移可能感覺是瞬間的，但是當我們談論生產環境時，有很多并發連接的大型數據集可能會導致停機，如獲取鎖和創建數據庫索引可能需要很長時間。

你還可以為兩個字段創建單個索引，如下所示：

# models.py

from django.db import models

class Sale(models.Model):
    sold_at = models.DateTimeField(
        auto_now_add=True,
        db_index=True, #DB Indexing
    )
    charged_amount = models.PositiveIntegerField()

    class Meta:
        indexes = [
            ["sold_at", "charged_amount"]]

數據庫緩存

數據庫緩存是從數據庫獲得快速響應的最佳方法之一。它確保對數據庫的調用更少，從而防止過載。標準緩存操作遵循以下結構：

Django 提供了一種緩存機制，可以使用不同的緩存后端，如 Memcached 和 Redis，讓你避免多次運行相同的查詢。

Memcached 是一個開源的內存系統，可保證在不到一毫秒的時間內提供緩存結果。它易于設置和擴展。另一方面，Redis 是一種開源緩存解決方案，具有與 Memcached 相似的特性。大多數離線應用程序使用以前緩存的數據，這意味著大多數查詢永遠不會到達數據庫。

用戶會話應該保存在 Django 應用程序的緩存中，并且因為 Redis 在磁盤上維護數據，所以登錄用戶的所有會話都來自緩存而不是數據庫。

要在 Django 中使用 Memcache，我們需要定義以下內容：

BACKEND：定義要使用的緩存后端。
LOCATION：ip:port 值 where ip 是 Memcached 守護程序的 IP 地址， port 是運行 Memcached 的端口，或者是指向你的 Redis 實例的 URL，使用適當的方案。

要使用 Memcached 啟用數據庫緩存，請pymemcache使用以下命令使用 pip 進行安裝：

pip install pymemcache

然后，你可以settings.py按如下方式配置緩存設置：

CACHES = {
    'default': {
        'BACKEND': 'django.core.cache.backends.memcached.PyMemcacheCache',
        'LOCATION': '127.0.0.1:11211',
    }
}

在上面的示例中，Memcached 使用以下 pymemcache 綁定在 localhost (127.0.0.1) 端口 11211 上運行：

同樣，要使用 Redis 啟用數據庫緩存，請使用以下命令使用 pip 安裝 Redis：

pip install redis

tings.py然后通過添加以下代碼來配置你的緩存設置：

CACHES = {
    'default': {
        'BACKEND': 'django.core.cache.backends.redis.RedisCache',
        'LOCATION': 'redis://127.0.0.1:6379',
    }
}

Memcached 和 Redis 也可用于存儲用戶身份驗證令牌。因為每個登錄的人都必須提供一個令牌，所以所有這些過程都會導致大量的數據庫開銷。使用緩存的令牌將大大加快數據庫訪問速度。

盡可能使用迭代器

Django 中的查詢集通常會在評估發生時緩存其結果，對于該查詢集的任何進一步操作，它首先檢查是否有緩存的結果。但是，當你使用時iterator()，它不會檢查緩存并直接從數據庫中讀取結果，也不會將結果保存到查詢集。

現在，你一定想知道這有什么幫助。考慮一個查詢集，它返回大量具有大量內存的對象進行緩存，但只能使用一次，在這種情況下，你應該使用iterator()。

例如，在下面的代碼中，所有記錄將從數據庫中獲取，然后加載到內存中，然后我們將遍歷每條記錄：

queryset = Product.objects.all()
for each in queryset:
    do_something(each)

而如果我們使用iterator()，Django 將保持 SQL 連接打開并讀取每條記錄，并 do_something() 在讀取下一條記錄之前調用：

queryset = Product.objects.all().iterator()
for each in queryset:
    do_something(each)

使用持久性數據庫連接

Django 為每個請求創建一個新的數據庫連接，并在請求完成后關閉它。這種行為是由引起的CONN_MAX_AGE，它的默認值為 0。但是應該設置多長時間呢？這取決于你網站上的流量；音量越高，維持連接所需的秒數就越多。通常建議從較低的數字開始，例如 60。

你需要將額外的選項包裝在中 OPTIONS，如留檔中詳細說明：

DATABASES = {
  'default': {
       'ENGINE': 'django.db.backends.mysql',
       'NAME': 'dashboard',
       'USER': 'root',
       'PASSWORD': 'root',
       'HOST': '127.0.0.1',
       'PORT': '3306',
       'OPTIONS': {
            'CONN_MAX_AGE': '60',
       }
  }
}

使用查詢表達式

查詢表達式定義了可以在更新、創建、過濾、排序、注釋或聚合操作中使用的值或計算。Django 中常用的內置查詢表達式是 F 表達式。讓我們看看它是如何工作的并且很有用。

在 Django Queryset API 中，F()表達式用于直接引用模型字段值。它允許你引用模型字段值并對它們執行數據庫操作，而無需從數據庫中獲取它們并進入 Python 內存。相反，Django 使用該F()對象來生成定義所需數據庫活動的 SQL 短語。

例如，假設我們想將所有產品的價格提高 20%，那么代碼將如下所示：

products = Product.objects.all()
for product in products:
    product.price *= 1.2
    product.save()

但是，如果我們使用F()，我們可以在單個查詢中執行此操作，如下所示：

from django.db.models import F

Product.objects.update(price=F('price') * 1.2)

使用 select_related() 和 prefetch_related()

Django 通過最小化數據庫請求的數量來提供優化查詢集select_related()的prefetch_related()參數。

根據官方 Django 文檔：

select_related() “遵循”外鍵關系，在執行查詢時選擇其他相關對象數據。

prefetch_related() 對每個關系進行單獨的查找，并在 Python 中進行“加入”。

select_related()

我們select_related()在要選擇的項目是單個對象時使用，這意味著 forward ForeignKey、OneToOne和 backOneToOne字段。

你可以使用select_related()創建單個查詢，該查詢返回單個實例的所有相關對象，用于一對多和一對一連接。執行查詢時，select_related()從外鍵關系中檢索任何額外的相關對象數據。

select_related()通過生成 SQL 連接并在SELECT表達式中包含相關對象的列來工作。因此，select_related()在同一數據庫查詢中返回相關項目。

雖然select_related()會產生更復雜的查詢，但獲取的數據會被緩存，因此處理獲取的數據不需要任何額外的數據庫請求。

語法看起來像這樣：

queryset = Tweet.objects.select_related('owner').all()

prefetch_related()

相反，prefetch_related()用于多對多和多對一連接。它生成一個查詢，其中包括查詢中給出的所有模型和過濾器。

語法看起來像這樣：

Book.objects.prefetch_related('author').get(id=1).author.first_name

使用bulk_create()和bulk_update()

bulk_create() 是一種通過一次查詢將提供的對象列表創建到數據庫中的方法。類似地，bulk_update() 是一種使用一個查詢更新提供的模型實例上的給定字段的方法。

例如，如果我們有一個如下所示的帖子模型：

class Post(models.Model):
    title = models.CharField(max_length=300, unique=True)
    time = models.DateTimeField(auto_now_add=True)
    def __str__(self):
        return self.title

現在，假設我們要在這個模型中添加多條數據記錄，那么我們可以bulk_create()這樣使用：

#articles
articles  = [Post(title="Hello python"), Post(title="Hello django"), Post(title="Hello bulk")]

#insert data
Post.objects.bulk_create(articles)

輸出如下所示：

>>> Post.objects.all()

<QuerySet [<Post: Hello python>, <Post: Hello django>, <Post: Hello bulk>]>

如果我們想更新數據，那么我們可以bulk_update()這樣使用：

update_queries = []

a = Post.objects.get(id=14)
b = Post.objects.get(id=15)
c = Post.objects.get(id=16)

#set update value
a.title="Hello python updated"
b.title="Hello django updated"
c.title="Hello bulk updated"

#append
update_queries.extend((a, b, c))

Post.objects.bulk_update(update_queries, ['title'])