五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

記一次知名地信企業(yè)投標數據清洗

2022-12-22 15:49 作者:八八不愛叭叭  | 我要投稿

記一次知名地信企業(yè)投標數據清洗

最近整理了一下業(yè)內測繪地信知名廠商的招投標數據

圖片

數據來源一般為天眼查和企查查,天眼查會員可以直接導出excel表格格式的企業(yè)投標數據;企查查每天導出只能有500條,多了要收費,針對企查查數據的獲取方式我選擇的是爬蟲爬取

圖片

總體來說獲取數據并不是很難,難點在于數據清洗。兩種數據都很“臟”,重復項過多,數據空值很多等等。這里以天眼查導出的數據為例

圖片

在中標金額和供應商,省份等不同字段存在不同程度的空缺,還存在未中標數據等情況。針對對金額空值問題,存在未中標數據等問題采用excel中的篩選功能對其進行剔除

圖片

對省份,招采人字段存在空值的問題采用excel篩選功能進行篩選,然后百度搜索查找進行人工填充,一般企查查可以直接搜索招投標數據,但也存在找不到的情況,這是無法避免的

圖片

接下來是進行數據去重,數據去重操作采用pandas進行數據處理,篩選原則為僅保留第一次出現的 “時間”和”中標金額“相同】的行

圖片

代碼如下

import?pandas?as?pd?

#導入數據
lujing?=?'C:/Users/【天眼查】招投標數據-北京超圖軟件股份有限公司.xlsx'
demo?=?pd.read_excel(lujing)
demo.head()

#顯示未進行去重前行數
demo.shape

#對["采購人","中標金額"]字段相同的數據去重,并覆蓋原數據
demo.drop_duplicates(subset=["采購人","中標金額"],keep="first",inplace=True)

#顯示進行去重后的行數
demo.shape

#保存文件到新的表格中
demo.to_excel('超圖軟件.xlsx')

關于這部分去重代碼的講解可以查看下面的文章

https://blog.csdn.net/weixin_44943394/article/details/103930179

感謝【公眾號:數據處理與分析】 的號主青青 和 熱心群友 對我的指導



記一次知名地信企業(yè)投標數據清洗的評論 (共 條)

分享到微博請遵守國家法律
军事| 抚州市| 屯门区| 普洱| 营山县| 孟津县| 肇庆市| 镇康县| 桐乡市| 河北省| 乌海市| 会宁县| 岳西县| 苏尼特左旗| 林西县| 清水县| 漠河县| 肇源县| 甘孜| 鸡东县| 海林市| 个旧市| 阜南县| 稻城县| 宜川县| 冕宁县| 神农架林区| 进贤县| 尼勒克县| 江安县| 清河县| 平邑县| 自贡市| 甘南县| 衡东县| 三原县| 崇礼县| 黔西| 会理县| 临夏市| 旬阳县|