日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

dataframe sample 采样,抽样

發(fā)布時間:2023/11/28 生活经验 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 dataframe sample 采样,抽样 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

20220324

https://blog.csdn.net/DSTJWJW/article/details/90667570
不重復(fù)隨機抽樣

20211223

# 讀取數(shù)據(jù)集
test_data_all = pd.read_csv(PATH+'data_format1/test_format1.csv',chunksize=200000)for i,j in enumerate(test_data_all):if i == 0:test_data = jtrain_data_all = pd.read_csv(PATH+'data_format1/train_format1.csv',chunksize=1000000)for i,j in enumerate(train_data_all):if i == 0:train_data = j
抽樣讀取數(shù)據(jù)def read_csv(file_name, num_rows):return pd.read_csv(file_name, nrows=num_rows)居然可以直接抽樣讀取

20211010

無論是什么平臺,用戶的活躍度分布都是一個長尾分布,越活躍的用戶對應(yīng)的人數(shù)越少,但是其所占的行為越多。這種情況下,如果不考慮用戶活躍度去篩選正負(fù)樣本,難免活躍用戶所占的權(quán)重就會增大,此時有效的解決辦法是針對每個用戶提取相同的正負(fù)樣本。

采樣要注意保持和原來的分布一樣?

pandas.DataFrame.sample 隨機選取若干行


1?? ?數(shù)據(jù)切片選取
1.1?? ?pandas.DataFrame.sample 隨機選取若干行
1.1.1?? ? 功能說明
???????????? 有時候我們只需要數(shù)據(jù)集中的一部分,并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進行隨機的抽樣。pandas中自帶有抽樣的方法。

功能相似:numpy.random.choice
??? Generates a random sample from a given 1-D numpy array.

1.1.2?? ? 使用說明
1.?? ?函數(shù)名及功能
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]

2.?? ?輸入?yún)?shù)說明

參數(shù)名稱參數(shù)說明舉例說明
n要抽取的行數(shù)

df.sample(n=3,random_state=1)
提取3行數(shù)據(jù)列表
注意,使用random_state,以確保可重復(fù)性的例子。

frac

抽取行的比例
例如frac=0.8,就是抽取其中80%。

df.sample(frac=0.8, replace=True, random_state=1)
replace

是否為有放回抽樣,
True:有放回抽樣
False:未放回抽樣

True:取行數(shù)據(jù)后,可以重復(fù)放回后再取
False:取行數(shù)據(jù)后不放回,下次取其它行數(shù)據(jù)
注意:當(dāng)N>總數(shù)據(jù)容量,replace設(shè)置為值時有效

?

weights

字符索引或概率數(shù)組

axis=0:為行字符索引或概率數(shù)組
axis=1:為列字符索引或概率數(shù)組

?
random_state

int: 隨機數(shù)發(fā)生器種子
或numpy.random.RandomState

random_state=None,取得數(shù)據(jù)不重復(fù)
random_state=1,可以取得重復(fù)數(shù)據(jù)

?

axis

選擇抽取數(shù)據(jù)的行還是列
axis=0:抽取行
axis=1:抽取列

也就是說axis=1時,在列中隨機抽取n列,在axis=0時,在行中隨機抽取n行。

3.?? ?返回值說明
返回選擇的N行元素的DataFrame對象。

總結(jié)

以上是生活随笔為你收集整理的dataframe sample 采样,抽样的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。