V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kex0916  ›  全部回复第 1 页 / 共 3 页
回复总数  53
1  2  3  
2020-08-24 17:15:43 +08:00
回复了 ysn2233 创建的主题 Hadoop Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么?
把文件合并下,或者把读取文件过程拆分成多个任务跑,最后再 union 起来
可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种
2019-11-11 11:25:44 +08:00
回复了 ccfoucs 创建的主题 推广 双十一🐶东购物超强省钱方案来了,这样做直接返现!
邀请码:nlb4o8
2019-04-23 13:54:19 +08:00
回复了 KOSKERS 创建的主题 Scala 请教下关于用 Flume+kafka+Spark 实现实时监控错误日志报警的功能
2019-04-18 10:10:38 +08:00
回复了 blackcurrant 创建的主题 程序员 上百亿个键值对使用什么数据库好?
hbase
2019-03-06 11:34:50 +08:00
回复了 PingCAP 创建的主题 酷工作 这些「神秘」团队到底是做什么的?| PingCAP 招聘季
@qiuyesuifeng 我看官网上大数据岗位在北京,成都有岗位吗?
2019-02-27 15:51:41 +08:00
回复了 leechow 创建的主题 成都 成都招银网络科技云平台(云计算)开发社招
@leechow 好的,谢谢
2019-02-25 15:00:01 +08:00
回复了 leechow 创建的主题 成都 成都招银网络科技云平台(云计算)开发社招
老哥可以帮推大数据的吗
2019-02-20 15:20:50 +08:00
回复了 casillasyi 创建的主题 程序员 最近在准备弃了 Java ,入 Clojure 的坑
可以试试 scala 瑟
2019-02-02 15:35:22 +08:00
回复了 qqq8724 创建的主题 问与答 问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了
你要找应用真正停止的原因,是正常执行完还是遇到了错误
ERROR scheduler.LiveListenerBus: SparkListenerBus has already stopped! 这个应该是 SparkContext 停止引起的,java.io.IOException: Broken pipe 这个要看看调用栈
数据的话你可以重新跑这个任务吗,计算一下条数什么的比较一下
2019-02-02 13:57:31 +08:00
回复了 qqq8724 创建的主题 问与答 问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了
看样子是 task 提交被拒绝了,你有开启 spark task 推测执行吗,具体的原因要看一下 driver 的日志
如果被拒绝的原因是因为已经执行完成的话对数据没有影响,如果是因为已经标记失败的话那可能对数据有影响,如果 task 重试成功可能会重复,如果重试失败可能丢数据
2019-02-02 11:34:35 +08:00
回复了 qqq8724 创建的主题 问与答 问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了
你点有 failed 的 stages,应该能看到失败的原因,或者去查看 executor 的日志应该也能找到失败原因
数据准确性这块你是保存文本数据,写出操作不是幂等的话在出错的时候是保证不了有且仅有一次的
2019-01-10 18:54:03 +08:00
回复了 trafficMGR 创建的主题 Hadoop 自建 5 个节点的 Hadoop 集群,以及完成 MapReduce 作业
看看 NameNode DataNode,NodeManager 等日志,有没有通信警告什么的
2019-01-04 10:11:21 +08:00
回复了 cirton 创建的主题 Hadoop yarn 可以监控 hadoop 或者 spark 的服务吗?
yarn 是 hadoop 的资源管理调度器,可以监控在 yarn 上运行的任务,但是不能监控 hadoop 生态的其余的组件。
你说的这种集群监控可以使用 CM,或者 Ambari 这类工具。
2018-12-14 20:55:00 +08:00
回复了 qqq8724 创建的主题 问与答 新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件
@qqq8724 😀
2018-12-14 13:49:24 +08:00
回复了 qqq8724 创建的主题 问与答 新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件
要按照压缩包文件目录分层分区要在 driver 侧就能拿到目录结构然后划分 partitions,然后每个 partition 读取该目录下的数据,但是压缩文件默认一般都是不 splitable 的,每个 partition 读取的时候也得完全解开后读取该分区的指定目录,这样各个分区都会有重复的工作。我建议是:
driver 侧将 tar.gz 先解压到临时目录,多个压缩文件可以按文件路径下发 task 来分布式解压,得到解压后的临时目录后,自己重写 FileInputFormat 来划分 split 然后采用 newAPIhadoopRDD 或者自己实现 RDD,按照临时目录下的目录来划分分区,执行完后把临时目录删除。
至于你说的不解压直接读,只要读还是得解压吧,可能只是在内存中完成解压而没有写到磁盘上。
2018-11-29 17:28:31 +08:00
回复了 zhuzhezhe 创建的主题 生活 23 岁,得了癌症,人生无望
加油加油
不能保证每台机器上都能至少起一个 executor,最好还是放到 hdfs 这种分布式文件系统上
spark 读取的话可以自己实现分区切分的规则,也可以采用自己实现 FileInputFormat 将 isSplitable 设置成 false,然后使用 hadoop rdd api.
2018-10-09 17:34:49 +08:00
回复了 Nirlan 创建的主题 Hadoop 关于 Spark 读取预分区 Hbase 问题
@Nirlan ^_^
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3259 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 81ms · UTC 11:52 · PVG 19:52 · LAX 04:52 · JFK 07:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.