網站首頁編程語言正文

Python中八種數據導入方法總結_python

作者：云朵君 ? 更新時間： 2022-12-06 編程語言

兩種獲取help的方法

很多時候對一些函數方法不是很了解，此時Python提供了一些幫助信息，以快速使用Python對象。

使用Numpy中的info方法

np.info(np.ndarray.dtype)

Python內置函數

help(pd.read_csv)

一、文本文件

1、純文本文件

filename?=?'demo.txt'
file?=?open(filename,?mode='r')?#?打開文件進行讀取
text?=?file.read()?#?讀取文件的內容
print(file.closed)?#?檢查文件是否關閉
file.close()?#?關閉文件
print(text)

使用上下文管理器?--?with

with?open('demo.txt',?'r')?as?file:
????print(file.readline())?#?一行一行讀取
????print(file.readline())
????print(file.readline())

2、表格數據：Flat文件

使用 Numpy 讀取 Flat 文件

Numpy?內置函數處理數據的速度是?C?語言級別的。

Flat?文件是一種包含沒有相對關系結構的記錄的文件。（支持Excel、CSV和Tab分割符文件）

1.具有一種數據類型的文件

用于分隔值的字符串跳過前兩行。在第一列和第三列讀取結果數組的類型。

filename?=?'mnist.txt'
data?=?np.loadtxt(filename,
??????????????????delimiter=',',
??????????????????skiprows=2,
??????????????????usecols=[0,2],
??????????????????dtype=str)

2.具有混合數據類型的文件

兩個硬的要求：

跳過表頭信息
區分橫縱坐標

filename?=?'titanic.csv'
data?=?np.genfromtxt(filename,
?????????????????????delimiter=',',
?????????????????????names=True,
?????????????????????dtype=None)

使用 Pandas 讀取Flat文件

filename?=?'demo.csv'?
data?=?pd.read_csv(filename,?
???????????????????nrows=5,????????#?要讀取的文件的行數
???????????????????header=None,????#?作為列名的行號
???????????????????sep='\t',???????#?分隔符使用
???????????????????comment='#',????#?分隔注釋的字符
???????????????????na_values=[""])?#?可以識別為NA/NaN的字符串

二、Excel 電子表格

Pandas中的ExcelFile()是pandas中對excel表格文件進行讀取相關操作非常方便快捷的類，尤其是在對含有多個sheet的excel文件進行操控時非常方便。

file?=?'demo.xlsx'
data?=?pd.ExcelFile(file)
df_sheet2?=?data.parse(sheet_name='1960-1966',
???????????????????????skiprows=[0],
???????????????????????names=['Country',
??????????????????????????????'AAM:?War(2002)'])
df_sheet1?=?pd.read_excel(data,
??????????????????????????sheet_name=0,
??????????????????????????parse_cols=[0],
??????????????????????????skiprows=[0],
??????????????????????????names=['Country'])

使用sheet_names屬性獲取要讀取工作表的名稱。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統。其保存的文件即sas是統計分析文件。

from?sas7bdat?import?SAS7BDAT
with?SAS7BDAT('demo.sas7bdat')?as?file:
??df_sas?=?file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。其保存的文件后綴名為.dta的Stata文件。

data?=?pd.read_stata('demo.dta')

五、Pickled 文件

python中幾乎所有的數據類型（列表，字典，集合，類等）都可以用pickle來序列化。python的pickle模塊實現了基本的數據序列和反序列化。通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去，永久存儲；通過pickle模塊的反序列化操作，我們能夠從文件中創建上一次程序保存的對象。

import?pickle
with?open('pickled_demo.pkl',?'rb')?as?file:
???pickled_data?=?pickle.load(file)?#?下載被打開被讀取到的數據

與其相對應的操作是寫入方法pickle.dump()?。

六、HDF5 文件

HDF5文件是一種常見的跨平臺數據儲存文件，可以存儲不同類型的圖像和數碼數據，并且可以在不同類型的機器上傳輸，同時還有統一處理這種文件格式的函數庫。

HDF5 文件一般以?.h5?或者?.hdf5?作為后綴名，需要專門的軟件才能打開預覽文件的內容。

import?h5py
filename?=?'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data?=?h5py.File(filename,?'r')

七、Matlab 文件

其由matlab將其工作區間里的數據存儲的后綴為.mat的文件。

import?scipy.io
filename?=?'workspace.mat'
mat?=?scipy.io.loadmat(filename)

八、關系型數據庫

from?sqlalchemy?import?create_engine
engine?=?create_engine('sqlite://Northwind.sqlite')

使用table_names()方法獲取一個表名列表

table_names?=?engine.table_names()

1、直接查詢關系型數據庫

con?=?engine.connect()
rs?=?con.execute("SELECT?*?FROM?Orders")
df?=?pd.DataFrame(rs.fetchall())
df.columns?=?rs.keys()
con.close()

使用上下文管理器?--?with

with?engine.connect()?as?con:
????rs?=?con.execute("SELECT?OrderID?FROM?Orders")
????df?=?pd.DataFrame(rs.fetchmany(size=5))
????df.columns?=?rs.keys()

2、使用Pandas查詢關系型數據庫

df?=?pd.read_sql_query("SELECT?*?FROM?Orders",?engine)

數據探索

數據導入后會對數據進行初步探索，如查看數據類型，數據大小、長度等一些基本信息。這里簡單總結一些。

1、NumPy Arrays

data_array.dtype??#?數組元素的數據類型
data_array.shape??#?陣列尺寸
len(data_array)???#?數組的長度

2、Pandas DataFrames

df.head()??#?返回DataFrames前幾行（默認5行）
df.tail()??#?返回DataFrames最后幾行（默認5行）
df.index???#?返回DataFrames索引
df.columns?#?返回DataFrames列名
df.info()??#?返回DataFrames基本信息
data_array?=?data.values?#?將DataFrames轉換為NumPy數組

原文鏈接：https://mp.weixin.qq.com/s/c0pOteUclVSPXTpj_UzDjQ

上一篇：C#實現跑馬燈效果的示例代碼_C#教程
下一篇：Pthread并發編程之線程基本元素和狀態的剖析_C 語言

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

Python中八種數據導入方法總結_python

目錄

兩種獲取help的方法

使用Numpy中的info方法

Python內置函數

一、文本文件

1、純文本文件

2、表格數據：Flat文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

五、Pickled 文件

六、HDF5 文件

七、Matlab 文件

八、關系型數據庫

1、直接查詢關系型數據庫

2、使用Pandas查詢關系型數據庫

數據探索

1、NumPy Arrays

2、Pandas DataFrames

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

Python中八種數據導入方法總結_python

目錄

兩種獲取help的方法

使用Numpy中的info方法

Python內置函數

一、文本文件

1、純文本文件

2、表格數據：Flat文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

五、Pickled 文件

六、HDF5 文件

七、Matlab 文件

八、關系型數據庫

1、直接查詢關系型數據庫

2、使用Pandas查詢關系型數據庫

數據探索

1、NumPy Arrays

2、Pandas DataFrames

相關推薦

網站首頁編程語言正文