網站首頁 編程語言 正文
概述:前段時間在跟其他公司DBA交流時談到了mysql跟PG之間在多表關聯查詢上的一些區別,相比之下mysql只有一種表連接類型:嵌套循環連接(nested-loop),不支持排序-合并連接(sort-merge join)與散列連接(hash join),而PG是都支持的,而且mysql是往簡單化方向去設計的,如果多個表關聯查詢(超過3張表)效率上是比不上PG的。
摘要:
不超過3層是為了效率。更通用 ,更好為了分布式做準備。
下面也對mysql多表關聯這個特性簡單探討下~
MySQL多表關聯查詢效率高點還是多次單表查詢效率高?
A,B兩個表數據規模十幾萬,數據規模都不大,單機MySQL夠用了,在單機的基礎上要關聯兩表的數據,先說一個極端情況,A,B兩個表都沒有索引,并且關聯是笛卡爾積,那關聯結果會爆炸式增長,可能到億級別,這個時候網絡IO成了瓶頸,這個時候兩次十萬行結果集的拉去可能遠小于1次億級別的結果集的拉取,那么將關聯合并拉到service層做更快。
但實際業務中一般不會有這么蠢的行為,一般關聯會有連接條件,并且連接條件上會有索引,一般是有一個結果集比較小,拿到這個結果集去另一張表去關聯出其它信息,如果放到service層去做,最快的方式是,先查A表,得到一個小的結果集,一次rpc,再根據結果集,拼湊出B表的查詢條件,去B表查到一個結果集,再一次rpc,再把結果集拉回service層,再一次rpc,然后service層做合并,3次rpc,如果用數據庫的join,關聯結果拉回來,一次rpc,幫你省了兩次rpc,當然數據庫上做關聯更快,對應到數據庫就是一次blk nested loop join,這是業務常用情況。
但是確實大多數業務都會考慮把這種合并操作放到service層,一般是有以下幾方面考慮:
第一:單機數據庫計算資源很貴,數據庫同時要服務寫和讀,都需要消耗CPU,為了能讓數據庫的吞吐變得更高,而業務又不在乎那幾百微妙到毫秒級的延時差距,業務會把更多計算放到service層做,畢竟計算資源很好水平擴展,數據庫很難啊,所以大多數業務會把純計算操作放到service層做,而將數據庫當成一種帶事務能力的kv系統來使用,這是一種重業務,輕DB的架構思路
第二:很多復雜的業務可能會由于發展的歷史原因,一般不會只用一種數據庫,一般會在多個數據庫上加一層中間件,多個數據庫之間就沒辦法join了,自然業務會抽象出一個service層,降低對數據庫的耦合。
第三:對于一些大型公司由于數據規模龐大,不得不對數據庫進行分庫分表,對于分庫分表的應用,使用join也受到了很多限制,除非業務能夠很好的根據sharding key明確要join的兩個表在同一個物理庫中。而中間件一般對跨庫join都支持不好。
舉一個很常見的業務例子,在分庫分表中,要同步更新兩個表,這兩個表位于不同的物理庫中,為了保證數據一致性,一種做法是通過分布式事務中間件將兩個更新操作放到一個事務中,但這樣的操作一般要加全局鎖,性能很捉急,而有些業務能夠容忍短暫的數據不一致,怎么做?讓它們分別更新唄,但是會存在數據寫失敗的問題,那就起個定時任務,掃描下A表有沒有失敗的行,然后看看B表是不是也沒寫成功,然后對這兩條關聯記錄做訂正,這個時候同樣沒法用join去實現,只能將數據拉到service層應用自己來合并了。。。
到這里答案就很清楚了~
對關聯查詢進行分解
很多高性能的應用都會對關聯查詢進行分解。
簡單地,可以對每個表進行一次單表查詢,然后將結果在應用程序中進行關聯。例如,下面這個查詢:
select * from tag join tag_post on tag_post.tag_id=tag.id join post on tag_post.post_id=post.id where tag.tag='mysql';
可以分解成下面這些查詢來代替:
Select * from tag where tag='mysql'; Select * from tag_post where tag_id=1234; Select * from post where id in(123,456,567,9989,8909);
為什么會這樣做呢?原本一條查詢,這里卻變成了多條查詢,返回結果又是一模一樣。
事實上,用分解關聯查詢的方式重構查詢具有如下優勢:
讓緩存的效率更高。
許多應用程序可以方便地緩存單表查詢對應的結果對象。另外對于MySQL的查詢緩存來說,如果關聯中的某個表發生了變化,那么就無法使用查詢緩存了,而拆分后,如果某個表很少改變,那么基于該表的查詢就可以重復利用查詢緩存結果了。
將查詢分解后,執行單個查詢可以減少鎖的競爭。
在應用層做關聯,可以更容易對數據庫進行拆分,更容易做到高性能和可擴展。
查詢本身效率也可能會有所提升
可以減少冗余記錄的查詢。
更進一步,這樣做相當于在應用中實現了哈希關聯,而不是使用MySQL的嵌套環關聯,某些場景哈希關聯的效率更高很多。
解釋: RPC(Remote Procedure Call):遠程過程調用,它是一種通過網絡從遠程計算機程序上請求服務,而不需要了解底層網絡技術的思想
原文鏈接:https://blog.csdn.net/NumberOneStudent/article/details/102776289
相關推薦
- 2022-09-08 Python元組定義及集合的使用_python
- 2022-02-22 Oracle10G序列名因標識符長度太大導致無法創建
- 2022-08-30 MongoDB集合的增刪改查管理_MongoDB
- 2022-05-27 C++?超詳細分析數據結構中的時間復雜度_C 語言
- 2022-05-25 Python可變參數*args和**kwargs_python
- 2022-04-10 C#實現計算器功能(winform版)_C#教程
- 2022-06-01 關于nginx?反向代理?URL替換方案_nginx
- 2022-12-22 C語言中pow函數使用方法、注意事項以及常見報錯原因_C 語言
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支