V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LionXen
V2EX  ›  程序员

很想这种类型的网站能采集吗?该如何采集

  •  
  •   LionXen · 2014-02-15 16:25:37 +08:00 · 5571 次点击
    这是一个创建于 3728 天前的主题,其中的信息可能已经有所发展或是发生改变。
    http://www.tomtop.com

    URL是没有连号的ID,如何能根据分类来进行分类采集。

    系统是zencart ,求思路
    35 条回复    2016-08-10 14:58:26 +08:00
    caoyue
        1
    caoyue  
       2014-02-15 16:50:56 +08:00   ❤️ 1
    既然分类全都列出来了,直接按列表采集啊
    vaneoooo
        2
    vaneoooo  
       2014-02-15 16:52:22 +08:00   ❤️ 1
    列表页不是还有1 2 3 4的翻页嘛

    找到商品的url规则,在列表页去采就是
    yakczh
        3
    yakczh  
       2014-02-15 17:12:20 +08:00   ❤️ 2
    有url就能采
    YouXia
        4
    YouXia  
       2014-02-15 17:41:18 +08:00   ❤️ 1
    有Product Tags了,之后链接里producttags-(A-Z0-9)-1...
    54dev
        5
    54dev  
       2014-02-15 17:44:26 +08:00   ❤️ 1
    54dev
        6
    54dev  
       2014-02-15 17:47:55 +08:00   ❤️ 1
    tenacy
        7
    tenacy  
       2014-02-15 17:54:32 +08:00   ❤️ 1
    采集数据到自己网站上然后销售发货?
    54dev
        8
    54dev  
       2014-02-15 18:00:39 +08:00   ❤️ 1
    @tenacy 这个网站里有dropship。
    LionXen
        9
    LionXen  
    OP
       2014-02-15 18:23:54 +08:00
    @tenacy
    1005gel
        10
    1005gel  
       2014-02-15 18:35:43 +08:00
    额 找找有没有手机客户端 抓包更方便
    好奇怎么销售发货。
    evansun
        11
    evansun  
       2014-02-15 18:59:25 +08:00
    外贸零售,用paypal收款,发国际小包(中国邮政小包,香港邮政小包,或者新加坡邮政小包)。
    yaotian
        12
    yaotian  
       2014-02-16 07:22:26 +08:00 via iPhone
    @evansun 运费那么贵,哪能有多少差价
    tenacy
        13
    tenacy  
       2014-02-16 10:12:29 +08:00
    @yaotian 他直接下单给tomtop就可以了。是不是这样,楼主?然后赚产品的差价?
    evansun
        14
    evansun  
       2014-02-16 10:23:04 +08:00
    可以这样,订单多了也可以自己去采购货回来,自己发货,利润就高一点。
    yaotian
        15
    yaotian  
       2014-02-16 12:52:41 +08:00
    @tenacy
    @evansun

    如果最后直接下单到tomtop, 用户为什么不直接到tomtop上下单?是假设用户不知道?
    LionXen
        16
    LionXen  
    OP
       2014-02-16 19:00:08 +08:00
    @yaotian 自己发
    yaotian
        17
    yaotian  
       2014-02-16 21:53:16 +08:00
    @54dev 好奇你是如何找到这个链接的,多谢
    yaotian
        18
    yaotian  
       2014-02-16 22:16:58 +08:00
    @LionXen 刚看了一下,原来是个国人做的网站,就是说这些是国内的产品,销售给老外的。
    54dev
        19
    54dev  
       2014-02-16 23:28:06 +08:00
    @yaotian 这是magento的cms特征,用过就知道。如果采集的话,直接sitemap就可以了,这个站产品详情页的面包屑上显示了完整的分类路径.
    tenacy
        20
    tenacy  
       2014-02-20 14:06:06 +08:00
    @LionXen 求更新
    tenacy
        21
    tenacy  
       2014-02-23 09:56:52 +08:00
    @54dev
    @LionXen
    还有各位大侠。
    我在zencart后台看whoisonline总是看到几个IP,什么也不做,停留时间很长,而且经常来。不知道是怎么回事?而且IP类似这种,208.50.101.154,208.50.101.153;不会是来刷广告的渣吧?
    54dev
        22
    54dev  
       2014-02-23 13:39:15 +08:00
    @tenacy 看网站日志里的header里的user-agent和referer,是不是蜘蛛。
    tenacy
        23
    tenacy  
       2014-02-25 14:18:05 +08:00
    @54dev 在zencart后台EXCLUDE SPIDERS没有用吗?
    54dev
        24
    54dev  
       2014-02-25 14:53:39 +08:00
    @tenacy 你是怎么设置的呢
    evansun
        25
    evansun  
       2014-02-27 09:12:45 +08:00
    @yaotian 用户肯定是不知道,都是在搜索引擎里面搜的,谁排在前面,谁才能获取订单。技术人员对货源和物流方面不擅长,所以就做做分销了。
    tenacy
        26
    tenacy  
       2014-03-01 10:01:33 +08:00
    @54dev zencart后台的tools-whoisonline-exclude spider:yer|no.
    再请教一个adwords再营销问题。网上看到的资料,比如要创建一个“产品页”的受众列表,那么就要把代码放在所有的产品页面上?那么针对所有访问网站的用户是不是放在tpl_main_page.php或者footer就可以?我想创建一个针对所有访问过网站用户的再营销列表。请教了。
    54dev
        27
    54dev  
       2014-03-07 15:24:23 +08:00
    @tenacy 后台的那个工具有用,但不排除其他的蜘蛛,zc的代码里不知道屏蔽了哪些。
    这种统计和分析性的代码放在footer里就行了。如果你单单只统计产品页,就放在产品详情页的模板里。
    tenacy
        28
    tenacy  
       2014-03-07 21:44:25 +08:00
    @54dev 谢谢!
    tenacy
        29
    tenacy  
       2014-03-18 14:32:47 +08:00
    @54dev 怎么屏蔽国内IP?
    54dev
        30
    54dev  
       2014-03-18 14:41:26 +08:00
    如果是apache可以通过.htaccess http://www.ipdeny.com/ipblocks/data/countries/cn.zone 这里有ip列表
    keven
        31
    keven  
       2014-03-23 19:50:57 +08:00
    这种没有规律的最佳的方式是通过模拟人工翻页采集,可以试试八爪鱼采集器,这个软件以模拟人的各种操作,免费的
    tenacy
        32
    tenacy  
       2014-06-03 18:34:42 +08:00
    @54dev 又来请教了。一个以色列客户发截图给我,paypal can't process this transaction because of a problem with the seller's website。可是当天早上5,6点的时候有客户成功下单过。可能是什么问题呢
    54dev
        33
    54dev  
       2014-06-03 23:05:32 +08:00
    @tenacy 什么收款,paypal?让用户检查 一下地址的问题。然后问他下订单走到哪一步,后台有没有保存他这个订单。
    oceantree
        34
    oceantree  
       2016-08-10 14:58:09 +08:00
    可以试下用这个平台写爬虫,然后就可以采集了
    oceantree
        35
    oceantree  
       2016-08-10 14:58:26 +08:00
    http://www.shenjianshou.cn/
    神箭手云爬虫开发平台
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2307 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 03:30 · PVG 11:30 · LAX 20:30 · JFK 23:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.