刚学了 python 的基本语法，本人想爬淘宝的列表页到商品详情页，容易实现吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3129 天前的主题，其中的信息可能已经有所发展或是发生改变。

菜鸟求指点

列表页

Python

语法

菜鸟

14 条回复 • 2015-11-09 09:41:55 +08:00

xiamingchong

2015-09-23 19:58:02 +08:00

容易

imbo

2015-09-24 07:34:51 +08:00

@xiamingchong 有 ip 限制吗

TimePPT

2015-09-24 19:04:33 +08:00

@imbo 理论上网络建站的人都会做反爬机制，否则无数人无数爬虫爬不得把站拖垮了。越是大站越会。简单的限 UA ，稍微高级点的限 IP.

所以好的爬虫一定是多 IP 并行爬取且会调整请求间隔。让你的爬虫爬取的动作越接近真实用户就越有可能成功爬取。

imbo

2015-09-25 13:09:53 +08:00

@TimePPT 您爬过淘宝吗，我想做一些类目商品采集

ClutchBear

2015-09-25 15:26:44 +08:00

用 firefox 的 firebug 查看元素,找到类似有 json 数据的链接,
复制拷贝到地址栏就是淘宝商品列表的 json 格式的数据,
直接分析就行.

类似这样,可以得到商品名称, 页面链接, 价格和店铺链接

Reed

2015-09-28 18:45:40 +08:00

爬起来挺容易的，难的是快点爬，越快越好。
我爬过豆瓣，那么问题来了， IP 被封怎么办，好，上代理
接着问题来了，代理质量太低，而且还是会被封，好，开线程
接着问题又来了，速度还是起不来，后来我就爬了好像不到 2K 本书就放弃了。

leetao102

2015-09-29 00:19:51 +08:00

@ClutchBear 小事一把。。我这里报错 sslv3

<img node-type="image" style="position: absolute; left: 0px; top: 141px;" src="

" width="450" height="292" class=" ">

ClutchBear

2015-09-29 10:21:43 +08:00

@leetao102 mac10.10 报错 ssl3 的话,
我也被困扰了很久
最后在 stack overflow 上找到解决办法了.

根据 stackoverflow 大神的帖子,我试了很多方式,最终找到一个解决这个错误的方法.
在 python 中加入以下语句即可.

import requests.packages.urllib3.util.ssl_
requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS = 'ALL'

我写的解决办法的链接: http://playbear.github.io/2015/09/25/taobao-ssl3-error/

alexinit

2015-09-29 14:59:33 +08:00

其实挺简单的,

leetao102

2015-09-29 22:35:49 +08:00

@ClutchBear 太帅啦。。原来作者就是你啊。。

leetao102

2015-09-30 00:33:05 +08:00

@ClutchBear 请问一下淘宝这个 url ： https://s.taobao.com/search?date-key=sort&data-value=price-desc&ajax=true& 我在 freebug 里面没有找到？您贴个图吗？谢谢

ClutchBear

2015-09-30 12:20:16 +08:00

@leetao102 点网络,再点保持,然后不同排序试几次,比如按价格销量什么的.
就能找到了.

leetao102

2015-10-01 02:07:52 +08:00

@ClutchBear 简单易懂...

您也去做点视频吧。。讲讲吧。。

xiamingchong

2015-11-09 09:41:55 +08:00

@imbo 除了 ip 限制，别的限制都可以伪装