好看的言情小说,耳根,好看的课外书

主頁 > 知識庫 > python使用多線程備份數據庫的步驟

python使用多線程備份數據庫的步驟

一、為什么要用線程池

1.多線程比單線程運行要快很多，比如在我工作中，每臺服務器至少8個庫以上，用單線程備份太慢了。

2.不是越多線程就會越好，而是根據服務器的資源來合理定義worker線程，否則會造成服務器嚴重負載，影響到線上業(yè)務。

3.備份數據庫都是消耗IO操作，用多線程比多進程稍微會更有優(yōu)勢。

從Python3.2開始，標準庫為我們提供了 concurrent.futures 模塊，它提供了 ThreadPoolExecutor (線程池)和ProcessPoolExecutor (進程池)兩個類。
相比 threading 等模塊，該模塊通過 submit 返回的是一個 future 對象，它是一個未來可期的對象，通過它可以獲悉線程的狀態(tài)主線程(或進程)中可以獲取某一個線程(進程)執(zhí)行的狀態(tài)或者某一個任務執(zhí)行的狀態(tài)及返回值：
主線程可以獲取某一個線程（或者任務的）的狀態(tài)，以及返回值。
當一個線程完成的時候，主線程能夠立即知道。
讓多線程和多進程的編碼接口一致。

二、線程池練習

演示例子1:使用submit方法

from concurrent.futures import ThreadPoolExecutor
import time
 
def test_thread(sec):
    time.sleep(sec)
    print(f"sleep {sec} done")
    return sec
 
with ThreadPoolExecutor(max_workers=4) as t:  # 創(chuàng)建一個最大容納數量為4的線程池
    task1 = t.submit(test_thread, 1)
    task2 = t.submit(test_thread, 2)  # 通過submit提交執(zhí)行的函數到線程池中
    task3 = t.submit(test_thread, 3)
 
    print(f"task1: {task1.done()}")  # 通過done來判斷線程是否完成
    print(f"task2: {task2.done()}")
    print(f"task3: {task3.done()}")
 
    time.sleep(2.5)
    print(f"task1: {task1.done()}")
    print(f"task2: {task2.done()}")
    print(f"task3: {task3.done()}")
    print(task1.result())  # 通過result來獲取返回值

結果輸出:

task1: False
task2: False
task3: False
sleep 1 done
sleep 2 done
task1: True
task2: True
task3: False
1
sleep 3 done

使用 with 語句，通過 ThreadPoolExecutor 構造實例，同時傳入 max_workers 參數來設置線程池中最多能同時運行的線程數目。
使用 submit 函數來提交線程需要執(zhí)行的任務到線程池中，并返回該任務的句柄（類似于文件、畫圖），注意 submit() 不是阻塞的，而是立即返回。
通過使用 done() 方法判斷該任務是否結束。上面的例子可以看出，提交任務后立即判斷任務狀態(tài)，顯示3個任務都未完成。在延時2.5后，task1 和 task2 執(zhí)行完畢，task3 仍在執(zhí)行中。

演示例子2:使用map方法

import time
from concurrent.futures import ThreadPoolExecutor
 
def spider(page):
    time.sleep(page)
    return page
 
start = time.time()
executor = ThreadPoolExecutor(max_workers=4)
 
i = 1
for result in executor.map(spider, [2, 3, 1, 4]):
    print("task{}:{}".format(i, result))
    i += 1

結果輸出:

task1:2
task2:3
task3:1
task4:4

from concurrent.futures import ThreadPoolExecutor有兩種方式，一種是submit()函數，另一種是map()函數，兩者的主要區(qū)別在于：
1.map可以保證輸出的順序, submit輸出的順序是亂的
2.如果你要提交的任務的函數是一樣的，就可以簡化成map。但是假如提交的任務函數是不一樣的，或者執(zhí)行的過程之可能出現(xiàn)異常（使用map執(zhí)行過程中發(fā)現(xiàn)問題會直接拋出錯誤）就要用到submit()
3.submit和map的參數是不同的，submit每次都需要提交一個目標函數和對應的參數，map只需要提交一次目標函數，目標函數的參數放在一個迭代器（列表，字典）里就可以。

三、線上數據庫測試

環(huán)境:centos6，數據庫版本5.7，數據備份2個1.7G、一個800M、一個200M

第一種:shell腳本for的方式備份4個數據庫

#!/bin/bash
backup_path="/data/backup/"
myuser="root"
mypwd="123456"
db_name="test_1000"
current_time=$(date +%Y%m%d%H%M%S)
for i in $(seq 4);do
    /usr/local/mysql/bin/mysqldump -u${myuser} -p${mypwd} --single-transaction --master-data=2 --set-gtid-purged=off "${db_name}${i}" | gzip > ${backup_path}/"${db_name}${i}"_${current_t
ime}.sql.gz
done

查看執(zhí)行時間　　

mysqldump: [Warning] Using a password on the command line interface can be insecure.
mysqldump: [Warning] Using a password on the command line interface can be insecure.
mysqldump: [Warning] Using a password on the command line interface can be insecure.
mysqldump: [Warning] Using a password on the command line interface can be insecure.
 
real    4m28.421s
user    3m50.360s
sys     0m5.962s

第二種方式:多線程備份