V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  murmur  ›  全部回复第 1173 页 / 共 1182 页
回复总数  23626
1 ... 1165  1166  1167  1168  1169  1170  1171  1172  1173  1174 ... 1182  
2016-04-19 07:58:11 +08:00
回复了 kyrre 创建的主题 程序员 有没有好用的打标签库?能带有点自然语言处理的最好
根据书名分类?我认为做不到,因为信息是在太少了,分词都分不出来,何况还有标题党
比如轮回的拉格朗日 讲什么的 数学?
2016-04-18 22:01:42 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
@SlipStupig 这页我就没看到 md5 和 sha
2016-04-18 21:46:47 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
@SlipStupig 问题 bloomfilter 是 hash 到位点上的。。撞起来不要太容易
2016-04-18 16:54:51 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
另外补充一下,新浪新闻那个不适合作为考点,这种新闻网站他是希望你去爬的,只要别过分,因为有竞争,所以收录的越多越全越好,如果这个问题放到 3 年前答,爬新闻类网站首选他的 RSS ,可惜现在 RSS 用的越来越少,死链一是多二是更新不及时
一声叹息
但是新浪微博不一样,这个东西压根就没想让你爬,他自己有自己的搜索引擎,我们以前做监控的时候,就是用他的站内搜索,新浪微博和新闻不一样,没有固定的信息源,也就是说你不知道一个重要的东西是啥时候冒出来的,所以只能监控重要关键词
新浪微博还一个很恶心一点就是移动端(官方客户端)的乱序时间线,他会随机打乱时间,把以前很老的数据挖出来当新的,貌似 pc 端还是正常的,这个真的没法理解为什么要这么做
以前可以爬微博的移动端,还有一部分人选择盗用 weico 什么的 key 来用,比爬页面容易很多,但是现在第三方微博客户端越来越少,能盗用的 key 也不多了,何况现在应该没什么客户端直接把 key 加密在 app 里吧,应该都是服务端中转一次
2016-04-18 16:47:19 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
B 新浪网本身肯定是防爬虫的,那么常见防爬虫的方式有哪些?
这个问题,新浪微博是冻结账号,必须手机解封,而且一个手机每天只能解封 5 个账号,这也是我读研的时候爬微博碰到的问题
验证码什么都弱爆了,真的
2016-04-18 16:46:04 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
@mornlight 碰撞就碰撞呗,那又怎么样,又不是搜索引擎有漏掉必须手动补上的情况,新浪微博产生的数据在日千万级别,还是我上学刚开始的数据,现在早都日亿了,比起 bloomfilter ,你没爬到的数据能有多少能估计到么。。
2016-04-18 11:42:24 +08:00
回复了 hyperdak 创建的主题 云计算 发个帖求助下,阿里云服务器被勒索
阿里云不是每周都有自动镜像吗 回滚一个就好了
2016-04-18 08:09:20 +08:00
回复了 maxsec 创建的主题 Sublime Text 我想把 sublime text 3 改造成 PHPStorm 一样的 IDE 需要哪些插件?
提开 IDE 慢的,你能慢几次,我可以开着一天不关
难道你真把 IDE 当记事本用,改配置文件也起 IDE ?
2016-04-17 21:23:18 +08:00
回复了 onice 创建的主题 程序员 现在 Java 和安卓不行了?求证
需求的是 3 年以上的 现在没经验的需求没那么多了
2016-04-17 12:51:11 +08:00
回复了 gdtv 创建的主题 问与答 公网远程控制,除了 TeamViewer,还有什么可信的软件吗?
@gdtv 可以 加了好友可以设置用密码确认不需要点
2016-04-17 12:14:37 +08:00
回复了 gdtv 创建的主题 问与答 公网远程控制,除了 TeamViewer,还有什么可信的软件吗?
QQ 小号 感觉穿内网和防火墙能力比 teamviewer 还强
2016-04-17 12:07:25 +08:00
回复了 lichen228 创建的主题 职场话题 离职前连续高强度加班,领导看见会怎么想?
我还以为连续加班挖坑给下一代。。
2016-04-17 00:18:25 +08:00
回复了 daodao 创建的主题 互联网 阿里钉钉向两位造谣者分别索赔 1000 万元
判不了多少钱 最多几万块钱而已(猜?) 毕竟别人及时删除微博了(道歉了么?)
但是问题是,他如果请律师应诉就很麻烦了
2016-04-17 00:15:38 +08:00
回复了 jsq2627 创建的主题 奇思妙想 你喜欢一门编程语言,究竟喜欢它的什么?
php
世界上最好的语言 喜欢还需要理由么
项目完成一半时被学长告知 X5 内核支持 flex-box 属性,写完后测试发现并不支持,只能回滚重写
另外各位前端大神,微信不支持 flex 布局,两种降级写法都不支持?我是比较好奇这个
中南民族大学 /计科 /大二结束后辍学
你连大学都没能读完,有什么能力证明你比别人强呢
1 ... 1165  1166  1167  1168  1169  1170  1171  1172  1173  1174 ... 1182  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1300 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 4400ms · UTC 23:09 · PVG 07:09 · LAX 16:09 · JFK 19:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.