V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  suuuch  ›  全部回复第 3 页 / 共 14 页
回复总数  263
1  2  3  4  5  6  7  8  9  10 ... 14  
我也发表下个人的看法:
在某种意义上来说,各种技术方案、编程语言,都是在应对人。计算机本身并不关心这些二进制的是什么,换言之任何技术方案、编程语言、术语、岗位都是在解决人的问题。

纯粹从技术上去考虑这些,确实是没什么区别的,每种方案都可以完成目标。区别在于这些方案对应的其它成本,比如机器成本,人力成本,时间成本这些显性成本。还有一些隐性成本,比如沟通成本之类的。

数据仓库这些东西,确实就是 收集数据 -> 整理数据 -> 输出数据,这个链路。更抽象点的就是数据的输入和输出。
抽象到这里的时候,所有的程序、系统都可以抽象的理解为 数据的输入和输出。



至于提到的其它问题:

“什么是数据库,什么是数据仓库”:数据库是对应软件系统,数据仓库是一种概念上的,并不对应到具体软件上。

“数据仓库有什么优势”:数据仓库的优势取决于对比系统,业务系统要求高并发,数据仓库要求高吞吐量。

“ELT 和 ETL 的区别”:这两者的区别在于数据处理数据速度和数据传输速度之间的关系,决定采用哪种方案看场景。


“数据治理的好处”:数据治理也是特定场景下的,互联网里面确实不多。传统企业里面多,有些传统企业里面的系统有 dephi ,c#,java 诸多版本,整个建设周期可能比程序员的生命周期都长,各种奇奇怪怪的数据和定义,这种背景下数据治理的好处才能被切身体会出来。
54 天前
回复了 FerrisChan 创建的主题 职场话题 转安卓 还是继续 pc 开发
试试转游戏呢?
65 天前
回复了 wt0210 创建的主题 NVIDIA 现在买 4090 是个好时机吗
@L13 前段时间收到推送的,我刚搜了下,发现找不到了。。。
66 天前
回复了 wt0210 创建的主题 NVIDIA 现在买 4090 是个好时机吗
1. 玩游戏得话,4060ti 差不多大部分游戏可玩。

2. 跑模型得话,B 站上有人买三张 4060ti 跑模型,看参数性能是大于 4090 的。。折衷下,买两张 4060ti 看看行不行。
69 天前
回复了 Hole 创建的主题 职场话题 怎么从领导的角度看问题?
一般情况下,我的领导在休假期间找我的原因只有一个,更大的老板在找他,他需要我解释一些细节的东西。
在事业单位这种,对财务和流程相关的事情都是优先级特别特别高的,要慎之又慎,这个很容易让人抓住小辫子,这个事情说大了可以往捅到上级部门,小了说内部审计找麻烦都可以。
原因非常简单:未按流程走账目,私企很容易过,国企可不行,一定要去找更上一级报备一下才可以。。
我们这审计曾因为项目提前结束把我们领导拉过去谈话。。


原始帖子我也看了,但是给的信息太少了。。。像有些领导可能一两年之间,就一次或者两次这种在休假期间找你的情况,我不会认为领导有什么问题。。假如是频繁的小题大做,休假或放假各种要求工作的频率比较高,才能说明这个领导有问题。。
74 天前
回复了 thawne 创建的主题 NAS NAS 求推荐
群晖吧,买之前觉得贵,买之后觉得挺好用的。

要高性能的话,就自己再组个台式机跑其它的。
@FlyingBackscratc 安装 hive 的前置条件是安装好 hdfs ,据我所知是没办法直接 docker 部署的。
hadoop 是个计算框架,里面东西很多,一般都是集群安装。
里面最主要包含 MapReduce 和 HDFS 。
HDFS 是分布式文件系统,MR 是计算框架。
HIVE 是一个类 SQL 的查询引擎,查询 HDFS 里面的数据。底层计算引擎默认是 MR 的,可以改成 tez ,spark 之类的计算引擎。
SPRARK 是计算引擎,用的 RDD 概念实现的。


性能的话,粗暴点估算,3 台 CPU *2 , 内存 128G *2 的服务器,算是起始配置。低于这个配置,找列存储数据库做 OLAP 系统即可。比如 clickhouse ,greenplum 之类的,数据同步 直接 kettle 就行。
还有其它一些基于 PostgreSQL 的数据库,在 OLAP 领域都不错。

没必要纠结。。上了 hadoop 涉及的到程序本身的性能和运维人员的能力要求都会高很多,并不是那么容易直接上去的。
@ironboxplus 这个方案我试过,网络延迟是挑战。我用的 talscale 没成功,能看到机器,但是无法联通。我就继续使用我之前用的 zerotier 了
89 天前
回复了 xiaomayi000 创建的主题 NAS N100 还是 NUC9?
外置硬盘,你们是怎么挂的?
89 天前
回复了 xiaomayi000 创建的主题 NAS N100 还是 NUC9?
绿联的成品 NAS 好像在 2000
100 天前
回复了 danielxuforever 创建的主题 PostgreSQL Postgres 在中国还能起来么?
这是 aws 里面对比 pg 和 mysql 的文章。https://aws.amazon.com/cn/compare/the-difference-between-mysql-vs-postgresql/

然后对于 pg 和 mysql 来说,我在部分场景下,有发现老版本的 mysql 不严谨的地方,比如说数据类型太多,pg 的数据类型很单一很明确,减少了混淆的可能。例如 pg 的 text 和 mysql 的各种 text 的区别。。

再就是数据库字符集的问题,pg 默认是 utf8 ,mysql 里面的则需要自己改成 utf8 ,而且 utf8 还分了好几个类别。。。
100 天前
回复了 danielxuforever 创建的主题 PostgreSQL Postgres 在中国还能起来么?
pg 用的更多一些,pg 能做的 mysql 也基本上能做,除去细分场景下的特殊要求。这俩区别不会很大。。
也就是不考虑细分需求的话,肯定选团队熟悉的东西。。。
这样结果就是 mysql 短期超越很难,但是长期来说不好说。pg 这些年更新了不少新功能,性能上也表现的不错。
个人对 pg 是持乐观态度。
我算算我自己的。
wps: 2021 年付费 截止时间是 2026 年,总共花费 459.9
百度云:今年刚续费 198
阿里云 VPS:99
RN vps: $15 + $49
B 站:148
网易:淘宝 88 会员送的
梯子:168 一年
icloud 50G:72 一年
GPT: 白嫖 3.5 , 然后 azure 里面申请了一个 gpt4 的 api ,按量付费,用了半年,按量付费,大概花了 20 刀,还没去算。
IDE: Pycharm (2018 版本) + sublime text 免费 + vscode
数据库:pycharm 的 连接,至于备份,都是自己敲命令。或者自己写简单脚本。
xshell : 白嫖的免费版
copilot: 淘宝买的 40 多
@chinesestudio 服务器噪音太大了,还是考虑迷你主机吧。
SQLite 的话,换 SSD ,会有一点提升。

文本检索上 ES 是标准方案,但是光是 ES 集群就够整的了。

用 PostgreSQL 然后设计一下数据结构,和索引,应该是可以的。。(不知道数据长什么样,不做任何保证
146 天前
回复了 zhoudaiyu 创建的主题 Kubernetes 有个 K8s 跨集群通信的需求想请教下各位
这个场景上,对开发人员侵入小,就会让运维和平台人员的侵入比较大。。

感觉上是一个取舍,目前我不知道有什么两全其美的办法,如果有的话,麻烦告诉我一下~
146 天前
回复了 zhoudaiyu 创建的主题 Kubernetes 有个 K8s 跨集群通信的需求想请教下各位
我们用的就是 api six ,这个优点是和 k8s 的集成度比较好。
146 天前
回复了 zhoudaiyu 创建的主题 Kubernetes 有个 K8s 跨集群通信的需求想请教下各位
这个确实比较麻烦。。我这里的方案使用 API 网关直接替代掉 IP 访问。。缺点是侵入性比较大,各系统都要做调整。
1  2  3  4  5  6  7  8  9  10 ... 14  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2325 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 09:10 · PVG 17:10 · LAX 02:10 · JFK 05:10
Developed with CodeLauncher
♥ Do have faith in what you're doing.