最近迷上了爬虫技术
python 爬虫,目前我还在进一步学习阶段,有志同道合的兄弟们,可以一起探讨。
import requests
import os
from lxml import etree
if __name__ == "__main__":
parse = etree.HTMLParser(encoding="utf-8")
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(HTML, like Gecko) Chrome/98.0.4758.81 Safari/537.36'
}
url = "https://域名/index_4.html"
page_text = requests.get(url=url, headers=headers)
# 通用处理中文乱码的解决方案
# img_name = img_name.encode('iso-8859-1').decode('gbk')
page_text.encoding = page_text.apparent_encoding
page_text = page_text.text
tree = etree.HTML(page_text, parser=parse)
li_list = tree.xpath('//ul[@ class = "clearfix"]/li')
if not os.path.exists('文件夹'):
os.mkdir('文件夹')
for li in li_list:
img_name = li.xpath('./a/img/@alt')[0] '.jpg'
img_src = "https://域名/" li.xpath('./a/img/@src')[0]
img_data = requests.get(url=img_src, headers=headers).content
with open('文件夹/' img_name, 'wb') as fp:
fp.write(img_data)
print(img_name)
测试结果:
AI视野:百度推出“灵境矩阵”;阿里通义千问正式开放;美图秀秀推出AI滤镜
🤖📈💻💡大模型动态百度推出文心大模型插件开发平台“灵境矩阵”百度发布面向开发者的文心大模型插件开发平台“灵境矩阵”,提供生产赋能、分发贯通、商业共生三大核心能力。该平台将帮助开发者快速打造优质的插件产品,为他们提供流量分发通路,以及更多的推广资源和渠道,实现商业价值的拓展。要点:1、平台提供低成本的平台接入能力和生产力工具,帮助开发者快速打造出优质的插件产品。站长网2023-09-13 15:31:010000AMD 赢得重大合同:与 Oracle 和 IBM 两家主要云提供商合作加速人工智能发展
站长之家(ChinaZ.com)10月24日消息:尽管AMD与其竞争对手英伟达相比在人工智能(AI)领域的资本运作上尚未显著突破,但最近的报道显示,该公司将与云服务领先提供商签下重要合同。站长网2023-10-24 23:28:050000MyShell AI开发高质量语音合成工具MeloTTS 支持中英混合发音
MeloTTS是由MyShellAI开发的一个高质量的多语言文本到语音(TTS)库。这个库支持英语、西班牙语、法语、中文、日语和韩语等多种语言,使其在全球范围内具有广泛的应用价值。项目地址:https://top.aibase.com/tool/melotts站长网2024-02-27 11:10:360002Protect AI 完成 3500 万美元 A 轮融资 旨在加强 AI/ML 系统安全
站长网2023-07-27 11:06:130000Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
【新智元导读】今天,Meta重磅发布了Habitat3.0,经它训练的AI智能体,学会了找人,还能帮人打扫房间。社交智能机器人,进入下一个里程碑!今天开始,人类离帮忙做家务的机器人,又近了一步!Meta宣布推出Habitat3.0,目的是开发出社会化的AI智能体,这意味着社交智能机器人已经进入新的里程碑阶段。站长网2023-10-21 14:37:490000