主从复制1062错误的解决方法
? ?周末的時候,突然收到報警的短信,是一臺slave服務器sql_thread不為YES,唉,還能不能愉快的過周末啊。上服務器一看是,是主鍵沖突導致從庫中斷,也是Last_SQL_Errno: 1062錯誤,我們常用的方法是跳過錯誤,比如SET GLOBAL SQL_SLAVE_SKIP_COUNTER =1或者直接slave-skip-errors=1062,這樣確實解決了問題,恢復了復制。但是久而久之主從數據相差就很大了。對于復制正常以后,我們還需要使用數據效驗,用pt-table-checksum校驗數據的完整性,以及pt-table-sync同步數據。
以下是報錯時的截圖:
?
錯誤分析:當發生這樣的錯誤時,可以在master庫上的xxxx庫下對應的表,用desc查看一個表結構,找出主鍵對應的列名,然后把對應的記錄找出來
master的記錄是:
mysql> select * from xxxx.xxxx where id=120383; +--------+----------+----------+------------+-------------+----------+------------+---------------------+------+------+------+------+------+------+ | id | log_type | log_user | log_server | log_channel | log_data | log_result | log_time | f1 | f2 | f3 | f4 | f5 | f6 | +--------+----------+----------+------------+-------------+----------+------------+---------------------+------+------+------+------+------+------+ | 120383 | 8 | 0 | 411 | 2 | 0 | 0 | 2015-01-10 03:34:00 | | | | | | | +--------+----------+----------+------------+-------------+----------+------------+---------------------+------+------+------+------+------+------+ 1 row in set (0.00 sec)mysql>slave庫上的記錄是:
mysql> select * from xxxx.xxxx where id=120383; +--------+----------+----------+------------+-------------+----------+------------+---------------------+------+------+------+------+------+------+ | id | log_type | log_user | log_server | log_channel | log_data | log_result | log_time | f1 | f2 | f3 | f4 | f5 | f6 | +--------+----------+----------+------------+-------------+----------+------------+---------------------+------+------+------+------+------+------+ | 120383 | 8 | 0 | 411 | 2 | 0 | 1 | 2015-01-10 03:34:00 | | | | | | | +--------+----------+----------+------------+-------------+----------+------------+---------------------+------+------+------+------+------+------+ 1 row in set (0.00 sec)mysql>可以看到slave的記錄與主庫不一樣,當然以主庫的記錄為準啦,所以要在slave庫上把主鍵沖突的記錄刪除掉,如果一兩條,手動刪除倒沒什么問題,但比較多的時候,手動刪除的效率是灰常慢的,下面寫了個小腳本:
#!/bin/bash #Delete duplicate records primary key conflict #Write by xuanzhi 2015-01-12mysql=/usr/local/mysql-5.1.66-3310/bin/mysql sock=/data/mysql-slave-3310/mysql.sock passwd=123456while true doSQL_THREAD=`$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | egrep 'Slave_SQL_Running' | awk '{print $2}'`LAST_ERROR=`$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | egrep Last_Errno | awk '{print $2}'`duplicate=`$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | grep Last_Error | awk '/Duplicate entry/{print $5}' | awk -F "'" '{print $2}'`DATABASE=`$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | grep Last_Error | awk '{print $13}' | awk -F "'" '{print $2}'`TABLE=`$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | grep Last_Error | awk -F ":" '{print $4}' | awk -F "(" '{print $1}' | awk '{print $NF}'`$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | grep HA_ERR_FOUND_DUPP_KEYif [ $? -eq 1 ]thenif [ "$SQL_THREAD" == No ] && [ "$LAST_ERROR" == 1062 ]thenFILED=`$mysql -uroot -p$passwd -S $sock -Nse "desc $DATABASE.$TABLE" | grep PRI | awk '{print $1}'`$mysql -uroot -p$passwd -S $sock -e "delete from $DATABASE.$TABLE where $FILED=$duplicate"$mysql -uroot -p$passwd -S $sock -e "start slave sql_thread"elseecho "====================== ok ========================"$mysql -uroot -p$passwd -S $sock -e 'show slave status\G' | egrep 'Slave_.*_Running'echo "====================== ok ========================"breakfifi done如果slave是完全跟上master了,運行該腳本,會循環刪除,但如果從庫還沒跟上主庫,當slave讀取中繼日志,還有主鍵沖突,又會出現主從中斷的,這時可能要結合任務計劃crontal來執行刪除操作了(該腳本還有可以優化和完善的地方,如果有更好的想法,請分享下)。
??
參考資料:http://www.cnblogs.com/gomysql/p/3734087.html
?
| 作者:陸炫志 出處:xuanzhi的博客 http://www.cnblogs.com/xuanzhi201111 您的支持是對博主最大的鼓勵,感謝您的認真閱讀。本文版權歸作者所有,歡迎轉載,但請保留該聲明。 |
轉載于:https://www.cnblogs.com/xuanzhi201111/p/4218739.html
總結
以上是生活随笔為你收集整理的主从复制1062错误的解决方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C printf()函数转换说明符
- 下一篇: 个人网站的建立