V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lynnworld
V2EX  ›  问与答

大量的文本文件处理用什么语言比较好?

  •  
  •   lynnworld · 2015-01-27 09:54:41 +08:00 · 7638 次点击
    这是一个创建于 3367 天前的主题,其中的信息可能已经有所发展或是发生改变。

    主要是从文本中提取信息,转换加工。。数据量挺大的,希望速度快,还要容错性高.

    第 1 条附言  ·  2015-01-27 12:02:27 +08:00
    涉及到解析xml之类的东西,目前是java做的,感觉越来越乱》
    28 条回复    2015-01-27 14:15:16 +08:00
    vulgur
        1
    vulgur  
       2015-01-27 10:26:14 +08:00
    人生苦短,我用Python
    lululau
        2
    lululau  
       2015-01-27 10:27:15 +08:00
    最好的文本处理工具是 Perl,没有之一
    roricon
        3
    roricon  
       2015-01-27 10:32:29 +08:00
    据说是Perl
    lingo233
        4
    lingo233  
       2015-01-27 10:33:12 +08:00
    awk?
    acgeo
        5
    acgeo  
       2015-01-27 10:38:47 +08:00
    C++搞定一切!

    C++吸星大法好!!

    C++能创造其他语言!!


    哈哈哈
    princelai
        6
    princelai  
       2015-01-27 10:39:32 +08:00
    perl,sed&awk不是专门干这个的嘛
    sleeperqp
        7
    sleeperqp  
       2015-01-27 10:41:30 +08:00
    sed或者awk把
    python也可以~~
    em70
        8
    em70  
       2015-01-27 10:41:37 +08:00 via Android
    awk效率惊人,可以用来提取,给其他语言进行二次分析
    loveuqian
        9
    loveuqian  
       2015-01-27 11:15:44 +08:00
    PHP大军还有30秒到达战场????
    lxrmido
        10
    lxrmido  
       2015-01-27 11:19:57 +08:00
    PHP是最好的语言
    tini9
        11
    tini9  
       2015-01-27 11:20:33 +08:00
    ruby就挺好
    czheo
        12
    czheo  
       2015-01-27 12:04:34 +08:00
    感觉乱不是语言的问题
    lu18887
        13
    lu18887  
       2015-01-27 12:12:19 +08:00
    楼上的不要把这帖子变成月经贴好么!
    tabris17
        14
    tabris17  
       2015-01-27 12:12:34 +08:00
    大多数支持正则的脚本都没问题,看你熟悉哪个了

    资格老点的就是perl了,但是python\ruby\php都没问题
    garfeildma
        15
    garfeildma  
       2015-01-27 12:14:05 +08:00
    xml解析可以scala啊,内建xml支持
    对ms不反感的话C#也挺好
    NeoAtlantis
        16
    NeoAtlantis  
       2015-01-27 12:17:27 +08:00
    xml解析,如果单个文件不算太大的话试试python的beautifulsoup。
    Dongdong36
        17
    Dongdong36  
       2015-01-27 12:47:58 +08:00
    1L +1
    zythum
        18
    zythum  
       2015-01-27 12:49:34 +08:00
    字符串处理效率高。无疑awk
    aa88kk
        19
    aa88kk  
       2015-01-27 12:52:48 +08:00
    数据量大,xml就别解析了, 太慢。直接正则提取。
    invite
        20
    invite  
       2015-01-27 12:53:45 +08:00
    很明显,应该用C。
    xdeng
        21
    xdeng  
       2015-01-27 13:01:22 +08:00 via iPhone
    c 谁用谁知道
    whoops
        22
    whoops  
       2015-01-27 13:05:06 +08:00
    sed or awk,海量数据处理时,比起perl来,速度快的不是一个数量级
    Her0
        23
    Her0  
       2015-01-27 13:05:54 +08:00
    Python, awk,sed
    yakczh
        24
    yakczh  
       2015-01-27 13:13:21 +08:00
    你提供个样本,需求结果的数据, 然后贴一下各种语言的代码,根据运行时间和代码长短,就知道哪种语言适合
    itfanr
        25
    itfanr  
       2015-01-27 13:25:30 +08:00
    python 没有之一
    Comdex
        26
    Comdex  
       2015-01-27 13:39:38 +08:00
    golang吧,运行效率可能比脚本语言好,但又容易入门
    proudzhu
        27
    proudzhu  
       2015-01-27 13:47:21 +08:00 via Android
    perl + 1
    ray1919
        28
    ray1919  
       2015-01-27 14:15:16 +08:00
    Perl为字符串而生,xml有现成包
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   961 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 21:02 · PVG 05:02 · LAX 14:02 · JFK 17:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.