V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  LeeReamond  ›  全部回复第 41 页 / 共 86 页
回复总数  1707
1 ... 37  38  39  40  41  42  43  44  45  46 ... 86  
2022-04-19 11:18:40 +08:00
回复了 v2410117 创建的主题 随想 有多少人接受了自己平庸的?
我觉得普通也不代表平庸吧,人在定义自己或他人的社会属性的时候,普通往往跟人掌握的社会资源挂钩。所以往往社会看一个人,看他没钱也没资源,那就是广泛意义上属于普通的那一类。比如年轻人除非是 X 二代继承了资源,否则基本上都是没什么资源的,在社会整体看这些年轻人都很普通。但是这些人里也有一些是活的与众不同的,或者活的精彩的,说他们平庸又有失偏颇了。
2022-04-18 10:37:14 +08:00
回复了 LeeReamond 创建的主题 问与答 TF-IDF 提取大数量的文章关键字时如何解决算不动的问题?
@LeeReamond 实用就是比如我是百度贴吧的维护者,然后我想给每个帖子一楼加个自动摘要之类的。。像简单能学到的 tfidf 似乎完全应付不了百度贴吧的数据量
2022-04-18 10:36:25 +08:00
回复了 LeeReamond 创建的主题 问与答 TF-IDF 提取大数量的文章关键字时如何解决算不动的问题?
@paopjian 有什么其他效果好的 /常见的摘要算法推荐吗?想做点生产能实用的到的东西。。tfidf 其实只是想当个 helloworld 跑,概念和实现啥的都挺简单的,没想到真的跑起来发现完全跑不动。。
2022-04-18 09:27:14 +08:00
回复了 seaswalker 创建的主题 程序员 Windows Java / Python 性能确实拉跨
并不很理解,同样的代码生成的字节码几乎一样,而字节码解释为机器码又几乎一样,一样在 cpu 上跑为啥会慢。。。WSL2 不比原生慢就不错了,还能快 30%我觉得可能是你测试有问题,毕竟听起来你测的是纯计算而不是 IO ,涉及到系统内核 IO 的话倒是由于系统实现不同确实有很大区别。
2022-04-18 09:22:16 +08:00
回复了 LeeReamond 创建的主题 问与答 TF-IDF 提取大数量的文章关键字时如何解决算不动的问题?
@murmur 不是很懂,主要 tf-idf 有个整体词频,我不输入所有贴的话怎么得到总体词频呢。你的意思是取样算出来的和整体也差不多?不过也不知道咋取样啊,比如我导入 A 板块的帖子,那用这个板块产生的词频算 B 板块的 tf 是不是就不太对了
2022-04-18 09:07:08 +08:00
回复了 LeeReamond 创建的主题 问与答 TF-IDF 提取大数量的文章关键字时如何解决算不动的问题?
@murmur 我筛除了大部分没有实体含义的词性。最后得到的词有三万多个。。所以按 100 万帖子算的话,整个 tfidf 的矩阵大小就是 100 万*三万,太难顶了
2022-04-17 17:29:48 +08:00
回复了 Licsber 创建的主题 Python 如何配合 multiprocessing 使用 hashlib 来计算多种摘要?
hashlib 是通过 ffi 调用实现的,不需要多进程,直接使用多线程即可释放 GIL ,你说不能释放 GIL 我感觉是你哪里错了。
2022-04-17 17:01:23 +08:00
回复了 maloneleo88 创建的主题 Python Django 部署上线——踩坑 3 天
@seakingii 到本地可调式为止,静态编译也需要安装相关依赖,这与动态语言依赖无任何区别,只会更加麻烦。你说自身提供服务可以省去 nginx ,那你开心就好,按照你的理论 uswgi 也可以省去 nginx ,甚至不需要 uwsgi 也可以省去 nginx ,甚至 mysql 也可以省了,用 sqlite 不就行了。顺带一提谢谢你的回复,block 了。
2022-04-17 03:20:28 +08:00
回复了 maloneleo88 创建的主题 Python Django 部署上线——踩坑 3 天
@seakingii exe 也无法规避 mysql 和 nginx ,你在说啥
个人体验上,你使用不良的设计,或者追求极限要求(比如就是不适用 string ,就要通篇&str ),那在 rust 里就容易吃瘪。反之则可以体会到 rust 相对于 c++的快感。往往越到底层奇技淫巧越少,实现也就是按部就班的实现。
2022-04-16 17:18:52 +08:00
回复了 LeeReamond 创建的主题 问与答 联动主页 base64 存图片贴,图床挂马的原理是啥?
@misdake 确实,我只考虑了图床需求,没考虑其他网站接受图片上传可能有各种各样的需求,感觉有点被原贴关于储存方式的讨论带跑偏了。仔细看了你的帖子似乎是 nginx+phpfpm 相关的漏洞,随着现代 nginx 被当做反代使用方式增多和 php 使用减少本身发生这个特定漏洞的情况应该很少了,所以在 2022 年的角度考虑可能就是维护图片解码库的朋友注意一些就不会有啥问题。。
2022-04-16 16:45:04 +08:00
回复了 LeeReamond 创建的主题 问与答 联动主页 base64 存图片贴,图床挂马的原理是啥?
@misdake 所以什么操作会引发执行脚本?解码缓冲区溢出倒是确实见过,以前 PIL 就发生过类似情况,不过为啥要解码,就算校验文件类型稍微读读文件头也就完事了。。
2022-04-16 15:12:15 +08:00
回复了 maobukui 创建的主题 Python 关于 Python 「多进程」「异步」
“效率虽然已经很高,但是仍然没有发挥多核优势”,建议重新理解 IO 密集任务的含义。IO 密集场景指的是最终性能表现受限于你的基础设施(软件基础设施,硬件基础设施),你的信息收发模块按照它的设定逻辑,总共只能处理那么多的任务,你 CPU 跑的再快,塞再多任务它也处理不了,有什么用呢?

你可以看到一些 TCP 通信框架跑分,用 C 语言写的框架每秒可以做到几十万次并发,但是 C 语言每秒可以修改 1 亿次三级缓存状态,所以为什么 CPU 跑的比单机通信跑分可以高好几个数量级,单机通信跑分最高还是只有几十万?
2022-04-16 14:59:20 +08:00
回复了 LeeReamond 创建的主题 问与答 Github 如何查看所有与我相关的项目的 Issue?
@0o0O0o0O0o
@Tink 在这个链接里看到了,按钮藏得够深。这个是我的项目里只要有人创建 issue 就能看到吗,还是需要我回复那个 issue 之后才能看到
2022-04-16 05:37:32 +08:00
回复了 LeeReamond 创建的主题 问与答 Github 如何查看所有与我相关的项目的 Issue?
@Tink 点进去只有一些依赖更新通知,没有 issue
2022-04-16 03:59:31 +08:00
回复了 isno 创建的主题 程序员 ¥ 2890 人民币,买了 5 台腾讯轻量云服务器
@iqoo
@isno 那就非常牛逼了,嘲笑变成羡慕了。30M 其实完全堪用了,百兆倒也未必有必要。只不过国内 3M 公网带宽那种实在是太黑
2022-04-15 22:09:18 +08:00
回复了 isno 创建的主题 程序员 ¥ 2890 人民币,买了 5 台腾讯轻量云服务器
5 台机器,总计公网带宽 15M ?
2022-04-15 15:05:58 +08:00
回复了 investguider 创建的主题 Redis 2022 年 Redis 最新面试题
@investguider 其实这么对比之下看 redis 还是挺简单单纯的东西,一共没多少内容
2022-04-15 14:45:44 +08:00
回复了 investguider 创建的主题 Redis 2022 年 Redis 最新面试题
LZ 这个项目怎么构建的,是基于 github 的开源吗?我想用 git 的 star 保存,不想存在浏览器收藏夹里,应该怎么办
@mjawp 公众号推书最大的问题是平时根本也不用微信...


@levelworm 修仙四万年我印象里讲的是一个科技时代背景下的修仙故事,加上大势力斗争啥的,印象里跳着看过。。感觉这种的用神经网络提取应该有效果吧,毕竟普通修仙文里你提取不到那些现代科学技术相关的词汇,不就顺利选出特征了。
1 ... 37  38  39  40  41  42  43  44  45  46 ... 86  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5429 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 49ms · UTC 01:35 · PVG 09:35 · LAX 18:35 · JFK 21:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.