網站首頁 編程語言 正文
目的:設計一個應用GUI用于對比兩個Excel文件
思路
1.參數
- 同一個excel文件兩個sheet頁其中一個ODS(老數據),一個DWH(新數據)
- 生成對比文件
- 設計兩個主鍵 輸入主鍵1 輸入主鍵2
(默認新舊文件列名一致)
2.效果
- 生成的文件
- 數據量一樣、取每個字段不一致的數據前10
- 數據量不一樣、取兩邊不一樣的數據前10、排除不一樣的數據、每個字段不一致的數據前10
3.實現
- 循環對比組合列(主鍵+對比列)
- pandas處理差異數據、openpyxl 處理生成的sheet的數據格式. (先生成數據,然后調整格式)
配置
import pandas as pd from openpyxl import load_workbook #選擇文件路徑 path=r"C:\Users\小管同學\Desktop\Migration_Data_Compari\對比文件.xls" #input("選擇文件路徑:") TargetPath=r"C:\Users\小管同學\Desktop\Migration_Data_Comparison_Tool\目標文件\對比結果.xlsx" DATA_ODS=pd.read_excel(r"C:\Users\小管同學\Desktop\Migration_Data_Comparison_Tool\對比文件.xls",sheet_name="ODS") DATA_DWH=pd.read_excel(r"C:\Users\小管同學\Desktop\Migration_Data_Comparison_Tool\對比文件.xls",sheet_name="DWH") #選擇主鍵 Primarykey="員工編號"#input("選擇主鍵1:") Primarykey # 員工編號
一、數據量
輸出表格1–數據量
def write_to_excel_DataVolume(Data,TargetPath): # cor_df 為要保存的 dataframe writer = pd.ExcelWriter(TargetPath, engine='xlsxwriter') # 這里用 Data.to_excel(writer,sheet_name='Sheet1', encoding='utf8', header=False, startcol=0, startrow=2) # 把dataframe的數據從第2行開始 workbook = writer.book format1 = workbook.add_format({ # 先把樣式打包,然后之后賦值即可 'bold': True, # 字體加粗 'text_wrap': True, # 是否自動換行 'valign': 'bottom', #垂直對齊方式 'align': 'center', # 水平對齊方式 'fg_color': '#C5D9F1', # 單元格背景顏色 'border': 1,# 邊框 }) writer_sheet = writer.sheets['Sheet1'] # 設置寬度 writer_sheet.set_column("A:I", 16) writer_sheet.set_column('C:C',30) writer_sheet.merge_range(0,0,0,2,'對比結果',format1) writer_sheet.merge_range(4,2,4,0,'數據量差異',format1) writer_sheet.write(1,0,'',format1) writer_sheet.write(1,1,'ODS',format1) writer_sheet.write(1,2,'DWH',format1) writer.save() writer.close() DataFrame_DataVolume=pd.DataFrame([[DATA_ODS.shape[0]],[DATA_DWH.shape[0]]]).T DataFrame_DataVolume.columns =["ODS","DWH"] DataFrame_DataVolume.index=["數據量"] DataFrame_DataVolume #writeFileDataVolume(DataFrame_DataVolume,TargetPath) write_to_excel_DataVolume(DataFrame_DataVolume,TargetPath)
輸出表格2–數據量差異合同
if DATA_ODS.shape[0]==DATA_DWH.shape[0]: pass else: DATA_ODS_Primarykey=pd.DataFrame(DATA_ODS[Primarykey]) DATA_DWH_Primarykey=pd.DataFrame(DATA_DWH[Primarykey]) df_union = pd.concat([DATA_ODS_Primarykey,DATA_DWH_Primarykey]) # 實現1 df_diff_ODS = df_union.append(DATA_ODS_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False) df_diff_DWH = df_union.append(DATA_DWH_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False) #DWH多的合同 df_diff_ODS #DWH少的合同 df_diff_DWH df_diff_DWH_Data=[] df_diff_ODS_Data=[] for i in df_diff_ODS.head(10).values.tolist(): for n in i: df_diff_ODS_Data.append(n) for i in df_diff_DWH.head(10).values.tolist(): df_diff_DWH_Data.append(n) while True: if len(df_diff_DWH_Data)>len(df_diff_ODS_Data): df_diff_ODS_Data.append("-") elif len(df_diff_DWH_Data)< len(df_diff_ODS_Data): df_diff_DWH_Data.append("-") elif len(df_diff_DWH_Data)== len(df_diff_ODS_Data): break DataFrame_DataVolume_Count_result=pd.DataFrame(df_diff_DWH_Data,df_diff_ODS_Data).reset_index() DataFrame_DataVolume_Count_result.columns=['DWH多的合同','DWH少的的合同'] DataFrame_DataVolume_Count_result=DataFrame_DataVolume_Count_result.reset_index() DataFrame_DataVolume_Count_result.columns=['序號','DWH多的合同','DWH少的的合同'] DataFrame_DataVolume_Count_result from openpyxl import load_workbook def write_to_excel_Count_result(Data,TargetPath): df_Old = pd.DataFrame(pd.read_excel(TargetPath)) #讀取原數據文件和表 writer = pd.ExcelWriter(TargetPath,engine='openpyxl') book=load_workbook(TargetPath) writer.book = book writer.sheets = dict((ws.title, ws) for ws in book.worksheets) df_rows = df_Old.shape[0] #獲取原數據的行數 Data.to_excel(writer,startrow=df_rows+1, index=False,startcol=0,header=True)#將數據寫入excel中的aa表,從第一個空行開始寫 writer.save()#保存 write_to_excel_Count_result(DataFrame_DataVolume_Count_result,TargetPath)
原文鏈接:https://blog.csdn.net/weixin_44553044/article/details/124003598
相關推薦
- 2022-07-04 PyCharm如何配置SSH和SFTP連接遠程服務器_python
- 2023-05-23 Numpy數組轉置的實現_python
- 2022-09-29 基于Python3編寫一個GUI翻譯器_python
- 2022-05-13 windwos11 小愛音箱鏈接上但是沒有聲音
- 2022-10-28 Django執行python?manage.py?makemigrations報錯的解決方案分享_p
- 2022-07-19 Linux cat more grep head tail cut uniq sort tr命令詳解
- 2023-05-26 C#?using()的使用方法_C#教程
- 2022-08-12 Python3.8安裝tensorflow的簡單方法步驟_python
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支