日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python网络数据采集2-wikipedia

發布時間:2025/4/16 python 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python网络数据采集2-wikipedia 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python網絡數據采集2-wikipedia

隨機鏈接跳轉

獲取維基百科的詞條超鏈接,并隨機跳轉。可能側邊欄和低欄會有其他鏈接。這不是我們想要的,所以定位到正文。正文在id為bodyContent的div標簽里。

import random import re import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}start_url = '/wiki/Wiki'def get_links(url):r = requests.get('https://en.wikipedia.org' + url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# /wiki/some_wordslink_list = soup.find('div', id='bodyContent').find_all('a', href=re.compile(r'^/wiki/[^/]*$'))return link_listlinks = get_links(start_url) while len(links) > 0:# 隨機選擇一個鏈接link = random.choice(links).get('href')print(link)# 新的詞條覆蓋了原來的超鏈接,一直搜尋links = get_links(link) /wiki/Personal_wiki /wiki/Database_management_system /wiki/Netezza /wiki/C%2B%2B /wiki/C%2B%2B#Standardization /wiki/ISO_9984 /wiki/Georgian_script ...

從首頁開始,將首頁的所有詞條放入集合中(去重),再遍歷集合,從集合中的鏈接遞歸搜索。

import re import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}pages = set()def get_links(url):global pagesr = requests.get('https://en.wikipedia.org' + url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# /wiki/some_wordslink_list = soup.find('div', id='bodyContent').find_all('a', href=re.compile(r'^/wiki/[^:/]*$'))for link in link_list:if link['href'] not in pages:new_page = link['href']pages.add(new_page)print(new_page)get_links(new_page)if __name__ == '__main__':# 空字符串表示,url為wiki主頁https://en.wikipedia.orgget_links('')

獲取詞條的標題、正文

標題在h1標簽中,正文在id為mw-content-text的div標簽中。

import re import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}pages = set()def get_links(url):global pagesr = requests.get('https://en.wikipedia.org' + url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# /wiki/some_wordstry:print(soup.h1.string)# 只打印第一段print(soup.find(id='mw-content-text').find('p').text)except AttributeError:print('頁面缺少一些屬性。')link_list = soup.find('div', id='bodyContent').find_all('a', href=re.compile(r'^/wiki/[^:/]*$'))for link in link_list:if link['href'] not in pages:new_page = link['href']pages.add(new_page)print('----------\n' + new_page)get_links(new_page)if __name__ == '__main__':# 空字符串表示,url為wiki主頁https://en.wikipedia.orgget_links('') Main Page Noye's Fludde is a one-act opera written largely for young amateur performers, created by the British composer Benjamin Britten. First performed in 1958 at the annual Aldeburgh Festival, it is based on the 15th-century Chester "mystery" play which recounts the biblical story of Noah, the flood and the ark. Britten had written numerous works for mixed ... -------- /wiki/Wikipedia Wikipedia Wikipedia (/?w?k??pi?di?/?(?listen) or /?w?ki?pi?di?/?(?listen) WIK-i-PEE-dee-?) is a free online encyclopedia with the aim to allow anyone to edit articles.[3] Wikipedia is the largest and most popular general reference work on the Internet[4][5][6] and is ranked among the ten most popular websites.[7] Wikipedia is owned by the nonprofit Wikimedia Foundation.[8][9][10] -------- /wiki/Main_Page ...

尋找外鏈

從https://www.oreilly.com開始不斷尋找外鏈,如果某個頁面沒有外鏈,則進入該頁面的某個內鏈,再重新找外鏈。感覺這個例子不是很好,因為從其他外鏈又可能回到初始頁面。

import re import random import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}def get_random_external_link(start_page):r = requests.get(start_page, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# 返回分割地址的第一個元素,一般是主頁的地址ex_links = get_external_links(soup, split_address(start_page)[0])# 如果該頁面沒有外鏈,則獲取內鏈,再從內鏈里隨機選取一個,遞歸,直到獲取到外鏈為止。if len(ex_links) == 0:internal_links = get_internal_links(soup, split_address(start_page)[0])return get_random_external_link(random.choice(internal_links))else:return random.choice(ex_links)def get_internal_links(bs, include_url):internal_links = []# 找出所有以為'/'開頭的鏈接,此為內鏈in_links = bs.find_all('a', href=re.compile(r'^/|' + include_url))for link in in_links:if link['href'] not in internal_links:internal_links.append(link['href'])return internal_linksdef get_external_links(bs, exclude_url):external_links = []# 找出所有以http、https開頭的鏈接,且不含內鏈字符的,此為外鏈,(?!...)表示不包含ex_links = bs.find_all('a', href=re.compile(r'^(https|http)((?!' + exclude_url + ').)*$'))for link in ex_links:if link['href'] not in external_links:external_links.append(link['href'])return external_linksdef split_address(address):address_parts = []if address.split(':')[0] == 'http':address_parts = address.replace('http://', '').split('/')elif address.split(':')[0] == 'https':address_parts = address.replace('https://', '').split('/')return address_parts# 只搜索外鏈 def follow_external_only(url):external_link = get_random_external_link(url)print(external_link)follow_external_only(external_link)all_ex_links = set() all_in_links = set()# 獲得所有外鏈和內鏈,并打印了外鏈 def get_all_external_links(url):r = requests.get(url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')internal_links = get_internal_links(soup, split_address(url)[0])external_links = get_external_links(soup, split_address(url)[0])for link in external_links:if link not in all_ex_links:all_ex_links.add(link)print(link)for link in internal_links:if link not in all_in_links:all_in_links.add(link)get_all_external_links(link)if __name__ == '__main__':# follow_external_only('https://www.oreilly.com')get_all_external_links('https://www.oreilly.com') https://www.safaribooksonline.com/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170601+nav http://shop.oreilly.com/ http://members.oreilly.com https://www.safaribooksonline.com/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170505+homepage+get+started+now https://www.safaribooksonline.com/accounts/login/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170203+homepage+sign+in https://www.safaribooksonline.com/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170710+homepage+get+started+now https://www.safaribooksonline.com/public/free-trial/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170710+homepage+start+free+trial https://www.safaribooksonline.com/accounts/login/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170710+homepage+sign+in ...

上面的代碼經常會出錯,可能是正則表達式匹配的原因,也有可能是網絡原因。


by @sunhaiyu

2017.7.14

轉載于:https://www.cnblogs.com/sun-haiyu/p/7181771.html

總結

以上是生活随笔為你收集整理的Python网络数据采集2-wikipedia的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 成年人视频免费在线观看 | 亚洲xx网站 | 亚洲高清在线视频 | 91精品在线观看视频 | 国产午夜精品一区二区 | 亚洲女同av| 精品国产一区二区三区久久久蜜月 | 97精品国产97久久久久久粉红 | 大屁股白浆一区二区 | 15p亚洲| 91视频观看| 欧美日韩人妻精品一区 | 综合久久91 | 国产精品第12页 | 午夜影院在线免费观看 | 超碰97免费在线 | 久久精品视频免费看 | 成人人伦一区二区三区 | 少妇又色又紧又爽又刺激视频 | 玖玖爱在线观看 | 一区二区三区四区国产 | 国产黄色视| 亚洲经典一区 | www.久久久久 | 国产精品久久精品 | 亚洲精品2| 91婷婷在线 | 日韩不卡一区二区 | 亚洲AV成人午夜无码精品久久 | 亚洲AV无码乱码国产精品色欲 | 俄罗斯美女一级爱片 | 中文字幕xxx| 超碰香蕉 | 成人免费视频一区二区三区 | 精品免费视频 | 日本一区二区高清视频 | 久久久久久婷 | 人妻熟女一区二区aⅴ水野 91在线观看视频 | 夜夜添无码一区二区三区 | 婷婷免费视频 | 日本高清www免费视频 | 天天操操操 | 欧美欧美欧美欧美 | 欧美片在线观看 | 欧美亚洲| 国产精品网站视频 | 国产精品久久久久久久无码 | 精品午夜久久久 | 视频精品一区二区 | 免费在线观看a级片 | 黄色一级片免费看 | 日日干狠狠干 | 伊人久久免费 | 中文字幕乱码人妻无码久久95 | 伊人伊人伊人 | 久草电影在线 | 欧洲黄色录像 | 看污片网站 | 一卡二卡三卡四卡五卡 | 欧美极品在线观看 | 加勒比精品 | 午夜时刻免费入口 | 亚洲毛片一区二区 | 欧美影视一区二区三区 | 秋霞黄色网 | 小泽玛丽亚在线观看 | 99久久99久久精品国产片桃花 | 99热国产在线观看 | 国内精品久久久久久久久 | www.久久精品视频 | 日本网站黄色 | 日韩不卡av| 欧洲黄色网| 日韩高清在线播放 | 国内精品偷拍 | 一道本在线观看 | 日本免费网站在线观看 | 高h在线观看 | 亚洲最大成人综合网 | 四虎永久在线精品 | 超碰免费公开在线 | 久久精品无码Av中文字幕 | 天天射网站 | 免费毛片基地 | 成人试看120秒体验区 | 国产一区二区在线电影 | 国产原创在线观看 | 一区二区精品视频在线观看 | 操久久久 | 人人艹人人爱 | 欧美在线一级视频 | 欧美精产国品一二三区 | 五月天综合网站 | 日韩精品在线免费看 | 一级特级黄色片 | 欧美日韩三级在线观看 | 误杀1电影免费观看高清完整版 | 亚洲剧情av | 国产高潮流白浆喷水视频 |