V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  noparking188  ›  全部回复第 3 页 / 共 58 页
回复总数  1148
1  2  3  4  5  6  7  8  9  10 ... 58  
试试直接 PySpark 单机跑,API 接口和 pandas 差不多,记得用 3.3 及以上版本的,可以直接读批量 Excel
Python + SQL ,找数据开发和分析
167 天前
回复了 xifenglie40 创建的主题 程序员 开源免费可商用的 BI 框架,哪个最好?
ReDash 跨源 JOIN 是用 sqlite memory 模式实现的
167 天前
回复了 DualVectorFoil 创建的主题 数据库 新人学习求数据库管理系统推荐
《数据库系统概念》
《数据库系统内幕》
《数据库系统实现》
《数据库查询优化器的艺术》
167 天前
回复了 15342 创建的主题 程序员 大量数据同步一致性问题
2000 万数据量不多,看了下 starrocks 支持流处理 https://docs.starrocks.io/docs/integrations/streaming/
我熟悉的类似这种实时同步到 AP 数仓或者数据湖的方案,一般都 Kafka 队列,然后用个消费端根据 interval 和 buffer 及时往目标库分小批次的写。
你给的信息不多,es 的数据是业务数据?那就同时写 es 和 starrocks ,可以加个离线任务每天对比两边数据是否一致
问主管 binlog 同步哪去了,之前 经历过是用 binlog 同步 HDFS ,Presto 查,千亿数据量
169 天前
回复了 afeiche 创建的主题 数据库 数据量较大,数据库选型问题
我的经验是,不要分库分表,其他都好说
169 天前
回复了 afeiche 创建的主题 数据库 数据量较大,数据库选型问题
@nothingistrue #129 我真是程序员,我还是个 PingCAP Certified TiDB Professional ,不过没啥用,之前公司用我就简单学了下原理实现。https://i.imgur.com/krir4IG.png TiDB 是 Share Nothing ,底层存储是 TiKV ,基于 RocksDB 开发的,TiFlash 是借鉴 ClickHouse 开发的。
简单讲,TiDB 底层数据结构是 LSM-Tree ,MySQL 是 B+Tree ,二开不了。
再告诉你个好玩的,他们一开始打算用 HDFS 做底层纯属引擎,用 Java 吭哧吭哧写入半年,然后删库重写。
可惜上海没有
169 天前
回复了 afeiche 创建的主题 数据库 数据量较大,数据库选型问题
软考中高级 + 985 软工非全,咋样,英语学好
骑驴找马,佛系工作
175 天前
回复了 t202201 创建的主题 职场话题 Java 后端两年经验, offer 选择
@t202201 #6 感谢感谢
180 天前
回复了 t202201 创建的主题 职场话题 Java 后端两年经验, offer 选择
@t202201 #3 老哥能分享下,这些工作机会都是哪些行业啊
193 天前
回复了 w88975 创建的主题 职场话题 去越南工作安全吗?
我有朋友越南的,下周他来我这出差找我玩,我问问他
193 天前
回复了 chinesehuazhou 创建的主题 Python Python 潮流周刊第 31 期(摘要)
@chinesehuazhou #4 感谢感谢
195 天前
回复了 chinesehuazhou 创建的主题 Python Python 潮流周刊第 31 期(摘要)
@chinesehuazhou #2 非常感谢,我看站点的图片地址都是 img.pythoncat.top ,你是自己搭了个图床吗
196 天前
回复了 chinesehuazhou 创建的主题 Python Python 潮流周刊第 31 期(摘要)
请问,能不能分享下您的站点是咋建的,Astro 的主题,部署在哪个服务上还是自己买的服务器,很早之前就订阅了 RSS ,感觉这个站浏览很丝滑,体验不错。
这种专门做数据的公司我呆过两家,都是垂直领域行业 Top ,对方应该也是个半吊子,内部数据架构还在摸索。
比不了电商、社交平台那种面向 C 端每天都有海量数据产生,单表数据过 T 不得了,各种冗余全加一起能达到 PB 级,数据维度多、价值高、关系杂、时效性高。
看完 DDIA 这本书,然后各找一个 OLTP/OLAP 数据库,还有 MPP 引擎学习一下原理和底层设计,这样大概肚子里有点货能吹牛皮了。
都是从💩开始糊起来的,想一步到位找到近似最优架构以后不换,很难办啊,先把💩糊了产品撑起来,以后再慢慢搞。
个人的话就多多关注下 Data Infra 领域的技术动向了,以前有个很不错的 DBWeekly 可惜早不更新了,那些云厂商的各种解决方案挺值得参考的。
1  2  3  4  5  6  7  8  9  10 ... 58  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2515 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 50ms · UTC 14:26 · PVG 22:26 · LAX 07:26 · JFK 10:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.