这里有人开头条号（今日头条）吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2548 天前的主题，其中的信息可能已经有所发展或是发生改变。

每次上传视频都会被系统提示说这个视频已经有重复，通知是上传 10 分钟以后才发出来，所以估计是逐帧比较对齐？

有什么办法可以骗过这个自动重复检测系统？比如写个脚本随即改动像素数据...

有经验的指导一下

上传

重复

条号

脚本

35 条回复 • 2017-05-02 16:28:46 +08:00

gelilaohuang

2017-04-28 12:51:19 +08:00 via Android

根据我做了半年的经验，没发现漏洞可寻…要么早点发要么自己加上各种字幕背景乐以及混合剪辑

wangleineo

2017-04-28 12:53:09 +08:00

@gelilaohuang 加上字幕就可以了嘛？大部分图像还是一样的，识别不出来？

xy19009188

2017-04-28 12:54:37 +08:00 via Android

加入片头啥的就行了，也可以加水印

gelilaohuang

2017-04-28 12:59:04 +08:00 via Android

@wangleineo 为保发出去的每一条都不会重复我会把原视频做很多改动，比如加上下黑边栏，或者部分不重要的剪掉或者加速，一般外国的比较多，所以就手动加上翻译…很久没搞了…折腾时间回报少

lonelygo

2017-04-28 12:59:44 +08:00

逐帧比较计算资源代价太大，抽帧可能性比较大，而且有可能前面抽帧多，后面抽帧少（前面如果相似度高，就没有必要往后了）所以，这个逻辑应该成立。
加字幕，水印，片头，估计可破

gelilaohuang

2017-04-28 13:05:38 +08:00 via Android

@lonelygo let it be?

ZE3kr

2017-04-28 13:09:27 +08:00 via iPhone

也许就是逐帧比较，YouTube 有类似的做法（但只是将所有的视频与部分版权视频比较）： https://support.google.com/youtube/answer/2797370?hl=zh-Hans 降低分辨率后做的比较

menc

2017-04-28 13:13:38 +08:00

别想了，我就是头条的，视频消重是机器学习算法做的，你这么搞没有用的。

menc

2017-04-28 13:16:46 +08:00

给你几篇参考资料看一下：
CNN 网络直接学习二进制特征
Learning to Hash Paper, Code and Dataset： http://cs.nju.edu.cn/lwj/L2H.html
Learning to Hash for Big Data: A Tutorial

台湾中央研究院资讯科学研究所 Kevin (Ke-Yun) Lin 林可昀有多个开源项目：
Kevin Lin, Jiwen Lu, Chu-Song Chen, Jie Zhou. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR, 2016.
代码是基于 Caffe 的： https://github.com/kevinlin311tw/cvpr16-deepbit

Huei-Fang Yang, Kevin Lin, Chu-Song Chen. Supervised Semantics-Preserving Hash via Deep Convolutional Neural Networks, TPAMI under revision.
SSDH 代码是基于 Caffe 的： https://github.com/kevinlin311tw/Caffe-DeepBinaryCode

K. Lin, H.-F. Yang, J.-H. Hsiao, C.-S. Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR Workshop (CVPRW) on Deep Learning in Computer Vision, DeepVision 2015.
代码是基于 Caffe 的： https://github.com/kevinlin311tw/caffe-cvprw15
Slide： http://www.csie.ntu.edu.tw/~r01944012/deepworkshop-slide.pdf

卷积层特征聚合为全局特征
A Babenko, V Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015.
特征简称为 sum-pooled convolutional features (SPoC descriptors)

G. Tolias, R. Sicre, and H. Jegou. Particular object retrieval with integral max-pooling of CNN activations. ICLR 2016.
特征简称为 R-MAC：Regional Maximum Activation of Convolutions
Matlab/MEX 代码： http://cmp.felk.cvut.cz/~toliageo/soft.html

Yannis Kalantidis, Clayton Mellina, Simon Osindero. Cross-dimensional Weighting for Aggregated Deep Convolutional Features. arxiv 2015.
特征简称为 CroW
代码为 Python： https://github.com/yahoo/crow
在 Paris、Oxford 和 Holidays 三个小规模图片搜索数据集上，CroW 的 mAP （ mean Average Precision ）均高于 SPoC 和 R-MAC 等算法。

sadscv

2017-04-28 13:20:36 +08:00

哈哈顶楼上，顺便附上知乎关于 youtube 视频查重的问题讨论的链接
https://www.zhihu.com/question/54131172

wangleineo

2017-04-28 13:21:56 +08:00

@menc 我就知道会有头条的在 V2。一个问题是我发的视频还是比较冷门的，在头条里面用各种关键字都找不到，你们是不是把站外的视频（ youku 之类的）也索引了？

另外机器学习也不是不能骗： http://www.popsci.com/byzantine-science-deceiving-artificial-intelligence

menc

2017-04-28 13:24:15 +08:00

@sadscv UTB 的长视频很多，因此 UTB 对模型性能要求特别高，在精度和性能之间要做 trade off，实际上如果按照 paper 精做的话，黑框什么的是没发过版权系统的，好在头条短视频多，体量也不如 UTB 大，可以把模型做的比较精细

menc

2017-04-28 13:28:17 +08:00

@wangleineo
没有索引站外视频，但是有版权方打预防针说我们哪些视频是不允许上的，因此也可能涉及到版权问题。
这篇 paper 当年非常火，基本是人人都知道的。然而实操性不强，因为用户是黑盒的，拿不到模型的信息。
如果你真有能力 train 一个 anti model 来欺骗这个模型，何苦还需要在头条号发视频呢你说是么:-)

wangleineo

2017-04-28 13:37:47 +08:00

@menc 模型做那么精细，肯定会有不少 false positive 吧？（很怀疑我的视频就是）有统计过吗？你们的策略是，宁可错杀三千，也不放过一个？

wangleineo

2017-04-28 13:40:58 +08:00

@menc 另外，好像头条的政策是是即使有重复，也可以发出来，只是系统不推荐了，是这样吗？还是说压根就没人看得见？

menc

2017-04-28 13:44:43 +08:00

@wangleineo 有几种状态的，只有最被版权方重视的那些视频（热门电视剧什么的）会最苛刻处理。
几种状态不知道能不能说，暂且不说了吧。

menc

2017-04-28 13:45:14 +08:00

@wangleineo 我记得误杀可以提人工的

wangleineo

2017-04-28 13:49:32 +08:00

@menc 谢谢，我试试。

WhiteT

2017-04-28 13:52:22 +08:00

除了相似度非常高的，其他还是会人工 check 一遍，并不是『宁可错杀三千，也不放过一个』

wangleineo

2017-04-28 13:58:47 +08:00

@WhiteT 哦，这就好解释了，视频上有 Youku 的水印，明显不是原创，所以。。。

不过即使被算法过滤过，每个可疑视频都人工过一遍这个工作量不小啊。真是做到极致，NB ！

bukip

2017-04-28 15:24:16 +08:00

@menc 收藏了。

那么我加个滤镜有用吗？

menc

2017-04-28 15:43:42 +08:00

@wangleineo 因为漏了真版权视频会收到律师函的，所以都要人工过一遍:-)

murmur

2017-04-28 15:54:01 +08:00

别人发的视频，你在转到头条上。。。等于。。你也有责任吧？

sobigfish

2017-04-28 16:43:25 +08:00

所以说 lz 不厌其烦发盗版视频到头条到底是为了什么？

wangleineo

2017-04-28 17:33:34 +08:00

@sobigfish 并不是盗版，有版权的东西不碰。只是 UGC 的视频，你可以理解成转载
http://www.toutiao.com/i6413504197278302722/

sobigfish

2017-04-28 18:42:37 +08:00

所以说大自然的搬运工？

wangleineo

2017-04-28 19:09:03 +08:00

@sobigfish 而且是二手搬运工

murmur

2017-04-28 19:20:45 +08:00

@wangleineo 所以用户上传的东西就没有版权了么？好正义凛然

lonelygo

2017-04-29 10:37:39 +08:00

@gelilaohuang 嗯？怎么？

kidult

2017-04-29 11:35:04 +08:00

这年头做垃圾搬运工也好有技术含量

ShiHou

2017-04-29 11:36:57 +08:00

@menc 这几篇是把 Conv 当特征提取器然后做 hash，都是基于单帧的，混弄起来很容易。头条现在还没有引进时间序列相关的算法么

wangleineo

2017-04-29 20:55:46 +08:00

不是垃圾，我都是精选的吉他演奏视频。要承认信息的聚合、筛选也是有价值的。

menc

2017-05-02 10:53:48 +08:00

@ShiHou
concat 一下效果其实不错的，就是不太适合生产场景，有些冗余。
视频的哈希和图片当然还是有区别的，也有一些额外的处理。

ShiHou

2017-05-02 13:19:06 +08:00

@menc 我试了一下. 这种方法很容易愚弄，可以加（基本）不影响视频质量的隐藏水印来避开查重。

目前还是一个比较简单的雏形，我中旬赶完会议后，会把代码整理下放出来。

menc

2017-05-02 16:28:46 +08:00

@ShiHou 期待，烦请在这个帖子下留言提醒一下，谢谢了