V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
laoyuan
V2EX  ›  分享创造

每一行php代码都是自己敲出来的购物比价站,jiabibi.com

  •  
  •   laoyuan ·
    laoyuan · 2013-01-17 10:57:09 +08:00 · 9271 次点击
    这是一个创建于 4108 天前的主题,其中的信息可能已经有所发展或是发生改变。
    http://www.jiabibi.com 购物价必比!
     
    包括爬虫,包括极其山寨的mysql全文检索、品牌识别商品归并算法,全部一行一行敲出来!不知对象为何物,没写过类,只会写函数!!刚入门的时候架apache架了三个晚上才成功,没有任何人指点,所以,just do it, 你也可以!
     
    呵呵,放一个还没公开的页面:
    http://www.jiabibi.com/jianlou/
    暂是我不打算做用户系统,说白了我不打算在用户黏度上下多少功夫,只要能提供有价值的服务,用户买东西之前能想起来上这网站来看一眼,就足够了!
    第 1 条附言  ·  2015-10-30 08:53:30 +08:00
    这个网站已经废了。。
    55 条回复    1970-01-01 08:00:00 +08:00
    talentsnail
        1
    talentsnail  
       2013-01-17 11:03:12 +08:00
    同样没有基础的孩子也在巧代码,不过执行力比你差多了,好多简单的功能各种拖延,还在进行中。
    lusin
        2
    lusin  
       2013-01-17 11:08:20 +08:00
    请问什么写的呢,做到这个程度(包括数据收集)用了大概多长时间
    lusin
        3
    lusin  
       2013-01-17 11:14:44 +08:00
    @lusin 糊涂了,是PHP全部一行 一行敲的

    请问下数据收集用什么配置一天大概能完成多少呢
    n00b1
        4
    n00b1  
       2013-01-17 11:17:43 +08:00
    没基础在敲的算我一个,赞lz执行力
    anyforever
        5
    anyforever  
       2013-01-17 11:17:45 +08:00
    做的不错。
    laoyuan
        6
    laoyuan  
    OP
       2013-01-17 11:22:04 +08:00
    @lusin
    就是家里的开发机,10M家用光纤。也是php写的,不会多线程就多开几个页面一起跑,初始数据收集一家商城差不多四五天吧,现在可以保证48小时内全部价格更新一次。
    Bob
        7
    Bob  
       2013-01-17 11:27:10 +08:00
    你这个没有采集淘宝商城的吧 会写函数不错哇 写出来的代码我都看不懂 面壁去了
    lusin
        8
    lusin  
       2013-01-17 11:27:18 +08:00
    @laoyuan 挺好的,建议楼主数据慢慢往出放,一下子放百万级的数据出来搜索引擎应该是接受不了的
    laoyuan
        9
    laoyuan  
    OP
       2013-01-17 11:28:36 +08:00   ❤️ 1
    数据收集不用什么配置,如果不保存数据直接 update 到线上的话,树莓派也搞得掂!
    n00b1
        10
    n00b1  
       2013-01-17 11:39:49 +08:00
    lz非攻城狮吗?不知道你的爬虫咋学的呢?有分享下学习经验吗?感谢~
    laoyuan
        11
    laoyuan  
    OP
       2013-01-17 11:44:58 +08:00
    @Bob
    淘宝商城那么多东西怎么采得过来啊!!

    爬虫就是Curl,纯山寨货!
    manoon
        12
    manoon  
       2013-01-17 13:06:15 +08:00 via Android
    谢谢lz给我们这些有拖延症的人带来了动力
    thedevil7
        13
    thedevil7  
       2013-01-17 13:18:10 +08:00
    没人吐槽这个域名么... jia BIBI
    liliang13
        14
    liliang13  
       2013-01-17 13:23:24 +08:00
    @thedevil7

    大家都不邪恶,我们也不要邪恶了 _-_
    iTea
        15
    iTea  
       2013-01-17 13:32:16 +08:00
    楼主真乃神人也!~
    liuxurong
        16
    liuxurong  
       2013-01-17 13:35:05 +08:00
    标题是.... 土炮练成记?

    不过这种执行力强的人不敢小看,1年后或许就会成高手
    xiongbo
        17
    xiongbo  
       2013-01-17 13:38:37 +08:00
    向楼主致敬
    laoyuan
        18
    laoyuan  
    OP
       2013-01-17 14:44:22 +08:00
    绝对土炮,到现在没见过正式的 PHPer 编的 PHP 是啥样子-_-!!
    我早期写的全是用空格来缩进的,一次用两个,现在用tab,不过我也不知道应该用哪种!
    cougar
        19
    cougar  
       2013-01-17 16:08:00 +08:00
    赞楼主。。。
    tedd
        20
    tedd  
       2013-01-17 16:16:23 +08:00
    楼主有博客记录历程啥的吗?一定很精彩
    lusin
        21
    lusin  
       2013-01-17 17:38:21 +08:00
    laoyuan
        22
    laoyuan  
    OP
       2013-01-17 19:36:08 +08:00
    没有博客,很久以前写过,感觉越写越装B!

    商品的归并有一定的算法,最后人工审核,不可能完全靠程序完成匹配,否则尼玛成人工智能了。这个工作每天都在进行,因为人工审核的速度有限。
    cooiky
        23
    cooiky  
       2013-01-17 19:58:49 +08:00
    每天自动发文章?这个是怎么手工发的?
    看了下价格历史数据,好像去去年十一开始的?
    laoyuan
        24
    laoyuan  
    OP
       2013-01-17 21:40:10 +08:00
    文章当然是人工发的。

    感觉有黑客光顾。。。刚才我登FTP,结果提示我人多登不上,我ftp最多在线人数设的3人。。。
    lusin
        25
    lusin  
       2013-01-17 23:02:25 +08:00
    @laoyuan 网上找到这方面的资料比较少,可以请教下算法的大概思路吗?(或者楼主是从什么途径学习的呢?)

    还以这个http://www.jiabibi.com/product/1000700196/链接中产品为例,“Midea美的面包机EHS15AP-PW(电脑版/15分钟断电记忆/13小时精准预约/您身边的面点专家)"标题这么长,主要关键字就是:美的、EHS15AP-PW这两个,如何去匹配呢?
    laoyuan
        26
    laoyuan  
    OP
       2013-01-18 05:03:32 +08:00   ❤️ 3
    这个主要靠经验,说成算法相当有装B嫌疑。我并不赁于分享这些经验,因为只要你做,做进去,一定也可以解决。
    首先识别品牌,这些电商中三分之二的商品本身就有品牌这项结构化数据,利用这些数据可以构建一个品牌库,剩下三分之一没有品牌的,标题从品牌库里过一遍,strpos(),看品牌是否存在于标题中,如果只匹配到一个品牌,那就是它了,两个以上人工选一下。
    确定品牌后就轻松了,美的商品数在所有品牌中排前50,总共也就区区五六百款,把京东的作为标准,亚马逊易购之流通通在京东里过一遍。这时候可以匹配型号,连续的字母数字-/用 preg_match_all 提出来(EHS15AP-PW),具有独特性?好,它就是型号,和京东有型号的比对下,型号一致价钱又差不多的那就是同一款。提不出型号的,最起码我能提出来品种,几千个标题统计下词频,从高到低列出来人工筛选下,剔掉系列、不锈钢、电脑版等描述词,剩下的就是电磁炉、热水器、豆浆机。。。手上又有了品种库。确定品种后更轻松了,一个品种顶多几十款,想怎么玩怎么玩~
    gjk1992
        27
    gjk1992  
       2013-01-18 11:04:07 +08:00 via Android
    看过我之前的帖子么,我也研究比价算法,求交流合作,大三学生
    sohoer
        28
    sohoer  
       2013-01-18 11:25:25 +08:00
    www.shishibi.com 时时比 实时比,我打算每小时更新

    装B一下
    laoyuan
        29
    laoyuan  
    OP
       2013-01-18 15:08:04 +08:00
    @sohoer 打算做浏览器插件?还木上线?
    sohoer
        30
    sohoer  
       2013-01-18 15:23:53 +08:00
    才刚刚解决抓取,慢慢来,不过我是JAVA平台,有很多第三方库,不需要什么都自己造应该会快很多

    你48小时更新一次没竞争力啊,现在有很多比价的一般一天也会更新几次
    laoyuan
        31
    laoyuan  
    OP
       2013-01-18 15:58:04 +08:00
    嗯嗯,加网线~~
    laoyuan
        32
    laoyuan  
    OP
       2013-01-18 16:28:20 +08:00
    搞JAVA的,NLP么?洋枪对土炮,燃!战!
    gjk1992
        33
    gjk1992  
       2013-01-18 21:40:50 +08:00
    @laoyuan 加QQ 188869727 想交流下 我大三学生,想学习下
    zsdsz
        34
    zsdsz  
       2013-01-19 00:35:40 +08:00 via Android
    @lusin 最简单的方法 用广告联盟的开放平台 一堆数据给你用
    laoyuan
        35
    laoyuan  
    OP
       2013-01-19 11:09:14 +08:00
    LS,这是在中国。。。。
    zsdsz
        36
    zsdsz  
       2013-01-19 12:04:05 +08:00 via Android
    @laoyuan 亿起发 和59秒有 你看看
    gjk1992
        37
    gjk1992  
       2013-01-19 13:18:48 +08:00 via Android
    @zsdsz 那个就是普通的搜索,没有比价功能。更没有价格变化趋势
    cooiky
        38
    cooiky  
       2013-01-20 13:27:57 +08:00
    价格那个图片识别是用的什么库?
    laoyuan
        39
    laoyuan  
    OP
       2013-01-20 22:03:48 +08:00
    我相信没有任何一个做比价的网站是从图片识别价格的。
    lala
        40
    lala  
       2013-01-21 04:28:27 +08:00
    刚开始能做到这程度已经是非常的impressive了,这个idea是可以赚钱的,而且有相当的可能性。。。。
    chemhack
        41
    chemhack  
       2013-01-21 08:24:18 +08:00
    @laoyuan 那价格从哪来的啊
    shiny
        42
    shiny  
       2013-01-21 10:40:24 +08:00
    @laoyuan 可以透露下价格从哪来吗…… 难道是从etao来的……
    laoyuan
        43
    laoyuan  
    OP
       2013-01-21 10:48:56 +08:00
    当然是一手数据,直接从电商网站取啊
    lusin
        44
    lusin  
       2013-01-21 11:09:29 +08:00
    @laoyuan 你好,还想请教个问题

    爬虫采集过程中断后,如何标记,以便下次采集呢?(来源方的内容可能是动态的)
    laoyuan
        45
    laoyuan  
    OP
       2013-01-21 14:27:34 +08:00
    实在不行就从头开始呗。。。对于动态列表性质的我一般把列表页html保存到本地,然后5天或10天更新一次,当然这东西不存也无所谓,就在数据库里建个表呗,抓过的把时间update一下。
    shiny
        46
    shiny  
       2013-01-21 14:46:43 +08:00
    非常感谢 @laoyuan 的分享。
    另外京东价格的获取,想了下,写了个简单的python版本演示,分享给:
    @cooiky
    @chemhack

    http://gist.github.com/4584041
    laoyuan
        47
    laoyuan  
    OP
       2013-01-22 19:13:41 +08:00
    LS上硬货了,虽然我不是用这种方法,不过条条大路通罗马~
    laoyuan
        48
    laoyuan  
    OP
       2013-01-24 09:12:49 +08:00
    再次出现ftp连接满的情况(限3连接),查了下日志,原来不是黑客,有机器对21端口暴破而已,同时3个线程验证密码,就给占满了,换个端口立刻清静~
    firsthym
        49
    firsthym  
       2013-01-24 17:45:04 +08:00
    把你的比价网站放到了我的电商搜索里面(最后一个标签“比价网站”): http://cse.so/q/50fe555617f923f8c3000017/Nexus

    希望保持更新~加油!
    laoyuan
        50
    laoyuan  
    OP
       2013-01-25 00:05:14 +08:00
    @firsthym 保持更新请放心,绝对有信心~~
    reverland
        51
    reverland  
       2013-02-16 18:34:59 +08:00
    赞楼主,写什么类,楼主那是用php函数式编程
    bigdude
        52
    bigdude  
       2013-05-17 21:40:51 +08:00
    赞楼主的执行力,比价这个idea我也有,自己也敲敲打打研究了不少了,可是成品还没有,都不想为自己的懒惰开脱了。看看楼主,真是惭愧
    wheatcuican
        53
    wheatcuican  
       2013-12-02 17:18:08 +08:00
    楼主,缺书网也是你的么?
    laoyuan
        54
    laoyuan  
    OP
       2013-12-06 10:40:52 +08:00
    @wheatcuican 多明显啊,看我ID就知道了,现在主要就是做缺书网,感觉做百货比价还需要酝酿酝酿,有计划的推进,现在缺书网是想到啥做啥
    wheatcuican
        55
    wheatcuican  
       2013-12-06 13:07:10 +08:00
    @laoyuan 缺书网蛮好的,挺实用。有一个小建议:可以定期推荐一本书。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2815 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 00:22 · PVG 08:22 · LAX 17:22 · JFK 20:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.