網(wǎng)站首頁 編程語言 正文
pandas遍歷每行并累加進(jìn)行條件過濾
?本次記錄主要實(shí)現(xiàn)對每行進(jìn)行排序,并保留前80%以前的偏好。
思路:
將每行的概率進(jìn)行排序,然后累加,累加值小于等于0.8的偏好保留,獲得一個(gè)累加過濾的dataframe,然后映射回原始數(shù)據(jù)中,保留每行的偏好。接下來是代碼的實(shí)現(xiàn)
a = [[0.2, 0.35, 0.45], [0.1,0.2, 0.7], [0.3, 0.5, 0.2]]
data = pd.DataFrame(a, index=['user1','user2','user3'], columns=["a", "b", "c"])
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
sum_df.append(new_df)
sum_df = pd.DataFrame(sum_df)
print(sum_df)
這是累加之后每個(gè)用戶保留的前80%偏好的類型,接下來如何將這個(gè)特征映射回去,將累加后的dataframe通過空值將其轉(zhuǎn)化為0-1dataframe,再和原數(shù)據(jù)集一一對應(yīng)相乘,就可以映射回去了,代碼如下
d = (sum_df.notnull())*1
print(d)
final_df = d*data #將保留地特征映射到原始數(shù)據(jù)中
print(final_df)
本節(jié)內(nèi)容目標(biāo)明確,實(shí)現(xiàn)了每個(gè)用戶的前80%偏好,不知道正在看的小伙伴有沒有懂?可以一起討論哦!
接下來,考慮優(yōu)化這個(gè)實(shí)現(xiàn)的代碼,前面的思路是通過兩個(gè)dataframe相乘實(shí)現(xiàn)的,當(dāng)數(shù)據(jù)集非常大的時(shí)候,效率很低,于是不用list,利用字典的形式實(shí)現(xiàn)
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
origin = row.to_dict() #原始每個(gè)用戶值
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
name = new_df.name #user
tmp = new_df.to_dict()
for key in tmp.keys(): # 原始值映射
tmp[key] = origin[key]
tmp['user'] = name
sum_df.append(tmp)
sum_df = pd.DataFrame(sum_df).set_index('user').fillna(0)
print(sum_df)
通過字典映射效率很高,新測有效!
python DataFrame遍歷
在數(shù)據(jù)分析的過程中,往往需要用到DataFrame的類型,因?yàn)檫@個(gè)類型就像EXCEL表格一樣,便于我們個(gè)中連接、計(jì)算、統(tǒng)計(jì)等操作。在數(shù)據(jù)分析的過程中,避免不了的要對數(shù)據(jù)進(jìn)行遍歷,那么,DataFrame如何遍歷呢?之前,小白每次使用時(shí)都是Google或百度,想想,還是總結(jié)一下~
小白經(jīng)常用到的有三種方式,如下:
首先,先讀入一個(gè)DataFrame
import pandas as pd
#讀入數(shù)據(jù)
df = pd.read_table('d:/Users/chen_lib/Desktop/tmp.csv',sep=',', header='infer')
df.head()
?
-----------------result------------------
? ? ? ? mas ?effectdate?? ? num
0?? ?371379?? ?2019-07-15?? ?361
1?? ?344985?? ?2019-07-13?? ?77
2?? ?425090?? ?2019-07-01?? ?105
3?? ?344983?? ?2019-02-19?? ?339
4?? ?432430?? ?2019-02-21?? ?162
1.DataFrame.iterrows()? ? ? ?
將DataFrame的每一行迭代為{索引,Series}對,對DataFrame的列,用row['cols']讀取元素
for index, row in df.iterrows():
? ? print(index,row['mas'],row['num'])?
??
?
------------result---------------
0 371379 361
1 344985 77
2 425090 105
3 344983 339
4 432430 162
從結(jié)果可以看出,第一列就是對應(yīng)的index,也就是索引,從0開始,第二第三列是自定義輸出的列,這樣就完成了對DataFrame的遍歷。
2.DataFrame.itertuples()
將DataFrame的每一行迭代為元祖,可以通過row['cols']對元素進(jìn)行訪問,方法一效率高。
for row in df.itertuples():
? ? print(getattr(row, 'mas'), getattr(row, 'num')) # 輸出每一行
?
?
-------------result-----------------
371379 361
344985 77
425090 105
344983 339
432430 162
從結(jié)果可以看出,這種方法是沒有index的,直接輸出每一行的結(jié)果。
3.DataFrame.iteritems()
這種方法和上面兩種不同,這個(gè)是按列遍歷,將DataFrame的每一列迭代為(列名, Series)對,可以通過row['cols']對元素進(jìn)行訪問。
for index, row in df.iteritems():
? ? print(index,row[0],row[1],row[2])
?
?
-------------result------------------
masterhotelid 371379 344985 425090
effectdate 2019-07-15 2019-07-13 2019-07-01
quantity 361 77 105
從結(jié)果可以看出,index輸出的是列名,row是用來讀取第幾行的數(shù)據(jù),結(jié)果是按列展示?
原文鏈接:https://blog.csdn.net/mao15827639402/article/details/104053980
相關(guān)推薦
- 2022-07-28 C語言實(shí)現(xiàn)會員計(jì)費(fèi)系統(tǒng)_C 語言
- 2022-02-25 C語言函數(shù)棧幀的創(chuàng)建和銷毀介紹_C 語言
- 2022-10-02 React函數(shù)組件和類組件的區(qū)別及說明_React
- 2023-12-18 IllegalArgumentException異常產(chǎn)生原因及解決方案
- 2022-12-10 c++如何保存vector到文件_C 語言
- 2022-10-03 利用正則表達(dá)式校驗(yàn)金額最多保留兩位小數(shù)實(shí)例代碼_正則表達(dá)式
- 2024-01-28 spring自動配置的原理
- 2022-08-15 使用volatile保證多線程之間實(shí)例變量的可見性
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯(cuò)誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實(shí)現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊(duì)列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支