網(wǎng)站首頁 編程語言 正文
將一個CSV格式的文件分割成兩個CSV文件
本項目可以按照比例將一個csv文件分割成兩個csv文件,效果是:在C:\algo_file文件夾下,將該文件夾下的data.csv文件分成train.csv和vali.csv
完整代碼:
定義split_csv函數(shù)
import csv
import os
def split_csv(path, total_len, per):
# 如果train.csv和vali.csv存在就刪除
if os.path.exists('C:\\algo_file\\train.csv'):
os.remove('C:\\algo_file\\train.csv')
if os.path.exists('C:\\algo_file\\vali.csv'):
os.remove('C:\\algo_file\\vali.csv')
with open(path, 'r', newline='') as file:
csvreader = csv.reader(file)
i = 0
for row in csvreader:
if i < round(total_len * per/100):
# train.csv存放路徑
csv_path = os.path.join("C:\\algo_file", 'train.csv')
print(csv_path)
# 不存在此文件的時候,就創(chuàng)建
if not os.path.exists(csv_path):
with open(csv_path, 'w', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
# 存在的時候就往里面添加
else:
with open(csv_path, 'a', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
elif (i >= round(total_len * per/100)) and (i < total_len):
# vali.csv存放路徑
csv_path = os.path.join("C:\\algo_file", 'vali.csv')
print(csv_path)
# 不存在此文件的時候,就創(chuàng)建
if not os.path.exists(csv_path):
with open(csv_path, 'w', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
# 存在的時候就往里面添加
else:
with open(csv_path, 'a', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
else:
break
print("訓練集和驗證集分離成功")
return
調(diào)用上述函數(shù)
if __name__ == '__main__':
? ? path = 'C:\\algo_file\\data.csv'
? ? total_len = len(open(path, 'r').readlines())# csv文件行數(shù)
? ? per = 80 # 分割比例%
? ? split_csv(path, total_len, per)
按照訓練集占80%(驗證集20%)比例,對C:\algo_file文件夾下的data.csv進行分割,在該文件下得到train.csv 和 vali.csv。
最后
本項目只是以C:\algo_file文件夾為例,實際上data.csv所在路徑,train.csv所在路徑,vali.csv所在路徑包括文件名都可以更改。?
將CSV文件以某列為條件分類切割
項目中有一個數(shù)據(jù)文件數(shù)量龐大,一個文件中按照年月日分成幾十萬條數(shù)據(jù),想試試能不能用python把它簡單切割一下,按照日期分類切成小的csv文件。
于是在網(wǎng)上找了很多資料,結合自己的一些修改,整理了一下,方便以后再用。
大概步驟
1、讀取文件
2、找出需要分類的列
3、將此列中重復的內(nèi)容刪除,每類剩余一條
4、把該列所有符合某一類的內(nèi)容存入一個csv文件中
上代碼?
import pandas as pd
# 讀取文件數(shù)據(jù)
df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
# 刪除date列中的重復項,也就是說剩下的date都是已經(jīng)分好的類別
date_cate = df.drop_duplicates(subset=['date'])
print(date_cate.date)
print(range(len(date_cate))) # date中的所有類,也就是文件數(shù)
for name in date_cate.date:
print(name)
# 當date為某一個類時,存入一個小的csv文件中,文件名為類名
df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")
header=[0] #代表第一行為表頭不計入其中,可根據(jù)表格修改。
!!!!!!(2)!!!!!!遍歷文件夾中所有的文件然后進行切割,沒啥用,自己做個存檔而已 ↓↓↓↓↓?
import pandas as pd
import os
j = 347
for info in os.listdir('D:\\接收的文件\year_02'):
domain = os.path.abspath(r'D:\\接收的文件\year_02') # 獲取文件夾的路徑
info = os.path.join(domain, info) # 將路徑與文件名結合起來就是每個文件的完整路徑
# 讀取文件數(shù)據(jù)
df = pd.read_csv(info, sep=',', engine='python', header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
grouped = df.groupby('date')
# delete duplicated data
ind_frame = df.drop_duplicates(subset=['date'])
# print(ind_frame.date)
# print(range(len(ind_frame)))
for name in ind_frame.date:
# print(name)
j += 1
print("已經(jīng)掃描到第" + '{}'.format(j)+'個文件')
df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")
原文鏈接:https://blog.csdn.net/xiecheng1995/article/details/92431204
相關推薦
- 2022-06-15 python?OpenCV?圖像通道數(shù)判斷_python
- 2023-04-24 FFmpeg實戰(zhàn)之分離出PCM數(shù)據(jù)_C 語言
- 2022-03-24 詳析C#的協(xié)變和逆變_C#教程
- 2022-05-24 C#中Dispose和Finalize方法使用介紹_C#教程
- 2022-10-30 系統(tǒng)應用根據(jù)Uri授予權限方法詳解_Android
- 2022-06-19 C#文件非占用讀取與幫助類FileHelper_C#教程
- 2022-12-15 conda創(chuàng)建環(huán)境過程出現(xiàn)"Solving?environment:?failed"報錯的詳細解決方
- 2022-07-03 DatePicker動態(tài)設置picker-options 中的disabledDate屬性操作;
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細win安裝深度學習環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結構-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支