日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

三十一、电子商务分析与服务推荐

發布時間:2024/9/16 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 三十一、电子商务分析与服务推荐 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 數據預處理

1.2 數據預處理的流程

本案例在原始數據的探索分析的基礎上,發現與分析目標無關或模型需要處理的數據,針對此類數據進行處理。其中涉及的數據處理方式有:

  • 數據清洗
  • 數據變換
  • 屬性歸約

2. 數據清洗

2.1 數據清洗規則

  • 從探索分析的過程中發現與分析目標無關的數據,歸納總結其數據滿足如下規則:中間頁面的網址、咨詢發布成功頁面、律師登錄助手的頁面等。將其整理成刪除數據規則,下表給出了信息的結果。律師用戶占了所有記錄的22%左右,其他數據占比很小,大概5%左右。

  • 經過上述清洗后的記錄中仍然存在大量的目錄網頁(可理解為用戶瀏覽信息的路徑),在進入推薦系統時,這些信息的作用不大,反而會影響推薦的結果。因此需要進一步篩選以html為后綴的網頁。

  • 根據分析目標以及探索結果可知,咨詢與知識是其主要業務來源,故篩選咨詢與知識相關的記錄,將此部分數據作為模型分析需要的數據。

數據清洗操作的實現

import pandas as pd from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:222850@127.0.0.1:3306/7law?charset=utf8') sql = pd.read_sql('all_gzdata', engine, chunksize = 10000) for i in sql:d = i[['realIP', 'fullURL']] #只要網址列d = d[d['fullURL'].str.contains('\.html')].copy() #只要含有.html的網址#保存到數據庫的cleaned_gzdata表中(如果表不存在則自動創建)d.to_sql('cleaned_gzdata', engine, index = False, if_exists = 'append')

3 數據變換

3.1 用戶翻頁處理

  • 因此,針對這些網頁需要還原其原始數據類型,處理方式為首先是被翻頁的網址,然后對翻頁的網址進行還原,最后針對每個用戶訪問的頁面進行重操作。

3.2 用戶翻頁處理的實現

import pandas as pd from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:222850@127.0.0.1:3306/7law?charset=utf8') sql = pd.read_sql('cleaned_gzdata', engine, chunksize = 10000) for i in sql: #逐塊變換并去重d = i.copy()d['fullURL'] = d['fullURL'].str.replace('_\d{0,2}.html', '.html') #將下劃線后面部分去掉,規范為標準網址d = d.drop_duplicates() #刪除重復記錄d.to_sql('changed_gzdata', engine, index = False, if_exists = 'append') #保存

3.3 網址分類

  • 由于在探索階段發現有部分網頁的所屬類別是錯誤的,需對其數據進行網頁分類,且分析目標是分析咨詢類別與知識類別,因此需對這些網址進行手動分類,其分類的規則為包含”ask”、”askzt”關鍵字的記錄人為歸類至咨詢類別,對網址包含“知識”、“faguizt”關鍵字的網址歸類為知識類別。

3.4 網址分類的實現

import pandas as pd from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:222850@127.0.0.1:3306/7law?charset=utf8') sql = pd.read_sql('changed_gzdata', engine, chunksize=10000)for i in sql:d = i.copy()d['type_l'] = d['fullURL']d['type_l_1'] = Noned['type_l_2'] = Noned['type_l'][d['fullURL'].str.contains('(ask)|(askzt)')] = 'zixun'd['type_l'][d['fullURL'].str.contains('(info)|(zhishiku)')] = 'zhishi'd['type_l'][d['fullURL'].str.contains('(faguizt)|(lifadongtai)')] = 'fagui'd['type_l'][d['fullURL'].str.contains('(fayuan)|(gongan)|(jianyu)|(gongzhengchu)')] = 'jigou'd['type_l'][d['fullURL'].str.contains('interview')] = 'fangtan'd['type_l'][d['fullURL'].str.contains('d\d+(_\d)?(_p\d+)?\.html')] = 'zhengce'd['type_l'][d['fullURL'].str.contains('baike')] = 'baike'd['type_l'][d['type_l'].str.len() > 15] = 'etc'd[['type_l_1', 'type_l_2']] = d['fullURL'].str.extract('http://www.lawtime.cn/(info|zhishiku)/(?P<type_l_1>[A-Za-z]+)/(?P<type_l_2>[A-Za-z]+)/\d+\.html',expand=False).iloc[:, 1:]d.to_sql('splited_gzdata', engine, index=False, if_exists='append')

屬性歸約

6 完整代碼

6.1 代碼目錄結構

6.2 完整代碼

1. sql_clean_save.py

import pandas as pd from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:222850@127.0.0.1:3306/7law?charset=utf8') sql = pd.read_sql('all_gzdata', engine, chunksize = 10000) for i in sql:d = i[['realIP', 'fullURL']] #只要網址列d = d[d['fullURL'].str.contains('\.html')].copy() #只要含有.html的網址#保存到數據庫的cleaned_gzdata表中(如果表不存在則自動創建)d.to_sql('cleaned_gzdata', engine, index = False, if_exists = 'append')

2. sql_data_change.py

import pandas as pd from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:222850@127.0.0.1:3306/7law?charset=utf8') sql = pd.read_sql('cleaned_gzdata', engine, chunksize = 10000) for i in sql: #逐塊變換并去重d = i.copy()d['fullURL'] = d['fullURL'].str.replace('_\d{0,2}.html', '.html') #將下劃線后面部分去掉,規范為標準網址d = d.drop_duplicates() #刪除重復記錄d.to_sql('changed_gzdata', engine, index = False, if_exists = 'append') #保存

3. sql_data_split.py

import pandas as pd from sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:222850@127.0.0.1:3306/7law?charset=utf8') sql = pd.read_sql('changed_gzdata', engine, chunksize=10000)for i in sql:d = i.copy()d['type_l'] = d['fullURL']d['type_l_1'] = Noned['type_l_2'] = Noned['type_l'][d['fullURL'].str.contains('(ask)|(askzt)')] = 'zixun'd['type_l'][d['fullURL'].str.contains('(info)|(zhishiku)')] = 'zhishi'd['type_l'][d['fullURL'].str.contains('(faguizt)|(lifadongtai)')] = 'fagui'd['type_l'][d['fullURL'].str.contains('(fayuan)|(gongan)|(jianyu)|(gongzhengchu)')] = 'jigou'd['type_l'][d['fullURL'].str.contains('interview')] = 'fangtan'd['type_l'][d['fullURL'].str.contains('d\d+(_\d)?(_p\d+)?\.html')] = 'zhengce'd['type_l'][d['fullURL'].str.contains('baike')] = 'baike'd['type_l'][d['type_l'].str.len() > 15] = 'etc'd[['type_l_1', 'type_l_2']] = d['fullURL'].str.extract('http://www.lawtime.cn/(info|zhishiku)/(?P<type_l_1>[A-Za-z]+)/(?P<type_l_2>[A-Za-z]+)/\d+\.html',expand=False).iloc[:, 1:]d.to_sql('splited_gzdata', engine, index=False, if_exists='append') 1>[A-Za-z]+)/(?P<type_l_2>[A-Za-z]+)/\d+\.html',expand=False).iloc[:, 1:]d.to_sql('splited_gzdata', engine, index=False, if_exists='append')

總結

以上是生活随笔為你收集整理的三十一、电子商务分析与服务推荐的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 波多野结衣a级片 | 亚洲综合五月天 | 麻豆啪啪 | 又欲又污又肉又黄短文 | 欧美资源 | 香蕉视频一区 | 中国女人特级毛片 | 精品国产91 | 黄色av免费在线看 | 久久久久久人妻一区二区三区 | 国产日本亚洲 | 国产美女视频一区 | 激情视频一区二区三区 | 亚洲专区欧美专区 | 国产精品老熟女一区二区 | 久久久久久久9 | 日本黄色录像 | 欧美中文字幕一区 | 欧美成人高清视频 | 一级片美女 | 嫩草影院国产 | 亚洲国产欧美另类 | 亚洲aaa级| 在线亚洲免费 | 日韩三级一区二区三区 | 成年人激情网 | 丰满少妇理论片 | 我们俩电影网mp4动漫官网 | 婷婷激情四射 | 日美女逼逼 | 污视频免费在线观看 | 亚洲午夜网站 | 日韩激情网站 | 日本亚洲一区二区 | 伊人久久视频 | 一区二区三区xxx | 蜜臀av一区 | 男女性生活视频网站 | 91学生片黄 | 国产91区 | 秋霞av在线 | 黄色污污网站 | 国产精品6 | 韩国一区二区三区在线观看 | 亚洲精品无amm毛片 国内一区二区三区 | 91av不卡 | 91a视频 | 51啪影院| 亚洲国产精品成人va在线观看 | 波多野结衣绝顶大高潮 | 黄视频国产 | 日韩av电影网站 | 五月婷婷六月合 | 福利资源导航 | 国产精品腿扒开做爽爽爽挤奶网站 | 免费a级片在线观看 | 能看毛片的网站 | 97在线视频免费观看 | 久久精品99国产国产精 | 婷婷综合网站 | 美女爆乳18禁www久久久久久 | 一本一道久久综合狠狠老精东影业 | xx性欧美肥妇精品久久久久久 | 日韩中文av在线 | 人人精品久久 | 日韩免费片 | 国产永久免费视频 | 亚洲精品污一区二区三区 | 青青青视频在线播放 | 欧美一区二区在线 | 日韩精选av | 在线视频h | 性开放淫合集 | 深夜福利国产 | 国产综合一区二区 | 成人1区2区3区 | 人人妻人人爽欧美成人一区 | 上床视频在线观看 | 久久久久久一区二区三区 | 免费在线观看网址入口 | www日韩欧美 | 欧美性大战久久久久久 | 91小视频在线观看 | 日韩综合精品 | 日韩一区二区三区视频 | 天天操天天干天天爱 | 亚洲精品一区二区三区不卡 | av黄在线| 欧美xxxx日本和非洲 | 精品人妻无码一区 | 污导航在线观看 | 国产极品美女高潮无套嗷嗷叫酒店 | 午夜av免费 | 老男人av| 欧美日韩一二三四 | 久久久久极品 | 日本一区不卡在线观看 | 麻豆视频一区二区三区 | 黑人操少妇 |