網(wǎng)站首頁 編程語言 正文
說到機(jī)器學(xué)習(xí),大家首先想到的可能就是Python和算法了,其實(shí)光有Python和算法是不夠的,數(shù)據(jù)才是進(jìn)行機(jī)器學(xué)習(xí)的前提。
大多數(shù)的數(shù)據(jù)都會存儲在文件中,要想通過Python調(diào)用算法對數(shù)據(jù)進(jìn)行相關(guān)學(xué)習(xí),首先就要將數(shù)據(jù)讀入程序中,本文介紹兩種加載數(shù)據(jù)的方式,在之后的算法介紹中,將頻繁使用這兩種方式將數(shù)據(jù)加載到程序。
下面我們將以Logistic Regression模型加載數(shù)據(jù)為例,分別對兩種不同的加載數(shù)據(jù)的方式進(jìn)行介紹。
一、利用open()函數(shù)進(jìn)行加載
def load_file(file_name):
'''
利用open()函數(shù)加載文件
:param file_name: 文件名
:return: 特征矩陣、標(biāo)簽矩陣
'''
f = open(file_name) # 打開訓(xùn)練數(shù)據(jù)集所在的文檔
feature = [] # 存放特征的列表
label = [] #存放標(biāo)簽的列表
for row in f.readlines():
f_tmp = [] # 存放特征的中間列表
l_tmp = [] # 存放標(biāo)簽的中間列表
number = row.strip().split("\t") # 按照\t分割每行的元素,得到每行特征和標(biāo)簽
f_tmp.append(1) # 設(shè)置偏置項(xiàng)
for i in range(len(number) - 1):
f_tmp.append(float(number[i]))
l_tmp.append(float(number[-1]))
feature.append(f_tmp)
label.append(l_tmp)
f.close() # 關(guān)閉文件,很重要的操作
return np.mat(feature), np.mat(label)
二、利用Pandas庫中的read_csv()方法進(jìn)行加載
def load_file_pd(path, file_name):
'''
利用pandas庫加載文件
:param path: 文件路徑
:param file_name: 文件名稱
:return: 特征矩陣、標(biāo)簽矩陣
'''
feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
feature.columns = ["a", "b"]
feature = feature.reindex(columns=list('cab'), fill_value=1)
label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
return feature.values, label.values
三、示例
我們可以使用上述的兩種方法加載部分?jǐn)?shù)據(jù)進(jìn)行測試,數(shù)據(jù)內(nèi)容如下:
數(shù)據(jù)分為三列,前兩列是特征,最后一列是標(biāo)簽。
加載數(shù)據(jù)代碼如下:
'''
兩種方式加載文件
'''
import pandas as pd
import numpy as np
def load_file(file_name):
'''
利用open()函數(shù)加載文件
:param file_name: 文件名
:return: 特征矩陣、標(biāo)簽矩陣
'''
f = open(file_name) # 打開訓(xùn)練數(shù)據(jù)集所在的文檔
feature = [] # 存放特征的列表
label = [] #存放標(biāo)簽的列表
for row in f.readlines():
f_tmp = [] # 存放特征的中間列表
l_tmp = [] # 存放標(biāo)簽的中間列表
number = row.strip().split("\t") # 按照\t分割每行的元素,得到每行特征和標(biāo)簽
f_tmp.append(1) # 設(shè)置偏置項(xiàng)
for i in range(len(number) - 1):
f_tmp.append(float(number[i]))
l_tmp.append(float(number[-1]))
feature.append(f_tmp)
label.append(l_tmp)
f.close() # 關(guān)閉文件,很重要的操作
return np.mat(feature), np.mat(label)
def load_file_pd(path, file_name):
'''
利用pandas庫加載文件
:param path: 文件路徑
:param file_name: 文件名稱
:return: 特征矩陣、標(biāo)簽矩陣
'''
feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
feature.columns = ["a", "b"]
feature = feature.reindex(columns=list('cab'), fill_value=1)
label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
return feature.values, label.values
if __name__ == "__main__":
path = "C://Users//Machenike//Desktop//xzw//"
feature, label = load_file(path + "test.txt")
feature_pd, label_pd = load_file_pd(path, "test.txt")
print(feature)
print(feature_pd)
print(label)
print(label_pd)
測試結(jié)果:
[[ 1. ? ? ? ? ?1.43481273 ?4.54377111]
?[ 1. ? ? ? ? ?5.80444603 ?7.72222239]
?[ 1. ? ? ? ? ?2.89737803 ?4.84582798]
?[ 1. ? ? ? ? ?3.48896827 ?9.42538199]
?[ 1. ? ? ? ? ?7.98990181 ?9.38748992]
?[ 1. ? ? ? ? ?6.07911968 ?7.81580716]
?[ 1. ? ? ? ? ?8.54988938 ?9.83106546]
?[ 1. ? ? ? ? ?1.86253147 ?3.64519173]
?[ 1. ? ? ? ? ?5.09264649 ?7.16456405]
?[ 1. ? ? ? ? ?0.64048734 ?2.96504627]
?[ 1. ? ? ? ? ?0.44568267 ?7.27017831]]
[[ 1. ? ? ? ? ?1.43481273 ?4.54377111]
?[ 1. ? ? ? ? ?5.80444603 ?7.72222239]
?[ 1. ? ? ? ? ?2.89737803 ?4.84582798]
?[ 1. ? ? ? ? ?3.48896827 ?9.42538199]
?[ 1. ? ? ? ? ?7.98990181 ?9.38748992]
?[ 1. ? ? ? ? ?6.07911968 ?7.81580716]
?[ 1. ? ? ? ? ?8.54988938 ?9.83106546]
?[ 1. ? ? ? ? ?1.86253147 ?3.64519173]
?[ 1. ? ? ? ? ?5.09264649 ?7.16456405]
?[ 1. ? ? ? ? ?0.64048734 ?2.96504627]
?[ 1. ? ? ? ? ?0.44568267 ?7.27017831]]
[[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]
?[ 0.]]
[[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]
?[0]]
從測試結(jié)果來看可知兩種加載數(shù)據(jù)的方法得到的數(shù)據(jù)結(jié)果是一樣的,故兩種方法均適用于加載數(shù)據(jù)。
注意:
此處是以Logistic Regression模型加載數(shù)據(jù)為例,數(shù)據(jù)與數(shù)據(jù)本身或許會有差異,但加載數(shù)據(jù)的方式都是大同小異的,要靈活變通。
原文鏈接:https://blog.csdn.net/gdkyxy2013/article/details/81979214
相關(guān)推薦
- 2022-12-21 redis?setIfAbsent返回null的問題及解決_Redis
- 2022-04-09 Eclipse 中Deployment Assembly 無法正常顯示
- 2023-03-21 C++中如何將operator==定義為類的成員函數(shù)_C 語言
- 2022-05-05 Nginx配置ssl實(shí)現(xiàn)https的全過程記錄_nginx
- 2023-01-05 python使用jpype導(dǎo)入多個(gè)Jar的異常問題及解決_python
- 2022-06-12 批處理命令批量復(fù)制文件并重命名的實(shí)現(xiàn)_DOS/BAT
- 2022-12-04 Python?棧實(shí)現(xiàn)的幾種方式及優(yōu)劣詳解_python
- 2023-07-08 SparkMD5獲取不同圖片的md5顯示相同,解決辦法
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯(cuò)誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實(shí)現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊(duì)列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支