首页   注册   登录
 ic2y 最近的时间轴更新
ic2y

ic2y

V2EX 第 178168 号会员,加入于 2016-06-19 22:07:07 +08:00
今日活跃度排名 11722
ic2y 最近回复了
100 万条词组,首先向量化,例如 yellow wall,可以标记为 [1,2] 1 表示 yellow,2 表示 wall

以此类推,little cat,可以标记为 [1, 3] 3 表示 cat 。

100 万条 向量化的词组,就是 100 万条 整形数组的序列,把这个序列变成 一个字典前缀树。

Node{
int value;
Map<Interget,Node> childs;
}

这棵树,在 100 万的量级,应该不大。都是整形的。保存在内存中。

遇到 a little cat is sleeping behind 就向量化,变成 23 45 18 1 4 之类的数字,

从 23 开始,依次从字典前缀树的 root,开始匹配,是否能匹配到叶子节点。如果匹配到,就输出。

否则,继续匹配 45 、18 等。
@12101111 @tms @Osk

问题已经解决了。是 Hyper-v 的动态内存的问题。关闭了 Hyper-v 的动态内存,Centos 的内存消耗就变正常。

刚开始,解决问题的思路偏了,一直以为有什么恶意脚本。但是始终找不到进程。

猜测的最终原因:应该是 Hyper-v 与 Centos7 的适配有问题,Hyper-v 的动态内存我设定最小 2G,最大 6G,中间应该有 4G 没有真的分配,被宿主机挪走了。但是 Centos 就显示 4G+真正的使用的内存。就变成 80%的内存使用率了。
@patrickyoung 完整的 dmesg 的地址 https://pastebin.com/3Zn2LtGN
@patrickyoung 更新过了。我第一把发上去,就发现乱了。后续 死活打不开 V2EX 了。好像网站断断续续被攻击。
80 天前
回复了 yuk1no 创建的主题 问与答 一道面试题给我整懵了,求指导
上面的第二句打错了。是合规的 pair 会有漏洞之鱼。 过滤器说是合规的,其实只是碰撞了。
80 天前
回复了 yuk1no 创建的主题 问与答 一道面试题给我整懵了,求指导
一个用户可能有多个订单,但是一个订单只能属于 1 个用户。 而且订单是百亿级,还每天增量更新。那么感觉常规数据库应该满足不了这个需求。

具体的存储,可以考虑用 HBase,用 用户 id+订单 id,作为 rowkey 进行信息存储。

1.查看 用户 id-订单 id 组合是否有效时。如果内存全量建模存储,应该是资源要求蛮高的。可以考虑用布隆过滤器。因为属于用户 1 的订单 111,永远都属于用户 1,具有不变性。所以布隆过滤器,适合这种场景,可以一直叠加。 通过第一层过滤,快速过滤出来不能 vaild 的 pair 。

2.鉴于布隆过滤器的误报的特点。不合规的 pair 会有漏网之鱼,但是到这一层数量会很少了。组装这些 pair,做成 TreeSet,找到 rowkey 的上界和下界,然后使用 HBase 的 OnlyRawKey 的 Scanner 的 Filter,只扫描 rowkey 。因为 rowkey 本来是 b 树的,线性扫描的时候,判断 rowkey 是否在 TreeSet 里。
82 天前
回复了 djyde 创建的主题 程序员 离开阿里巴巴
@djyde
我也是刚从阿里离开不久,跟你离开的原因有一点像。
1.面向 KPI 编程是很不好的,大家都在考虑如何才能增加 GMV,但是混乱的代码呢?缺少的文档呢?匆忙上线的代码后续的维护呢?
2.内耗不小,沟通不畅,钉钉虽然让沟通异步化了,但是沟通成本也不低,很多人看了不回,@不回,只能打电话。
3.感觉身心疲惫,不单是加班和大促的疲惫,还有心累。那种看起来很忙,但是没有达到自己预期成长的疲惫。
不对,是分母来了
分子来了
那为什么不用 fseek
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2617 人在线   最高记录 5168   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 08:55 · PVG 16:55 · LAX 01:55 · JFK 04:55
♥ Do have faith in what you're doing.