首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
宝塔
V2EX  ›  分享创造

词频辅助阅读,一个想法的验证

  •  
  •   josherich · 33 天前 · 1351 次点击
    这是一个创建于 33 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://josherich.github.io/gradient-reader/

    分享一个验证想法的 demo,主要功能是根据词频在文字背后加入对应的灰度

    这里有几点可以探索的地方:

    • 词频词典的质量对效果影响很大

    • 词频辅助在多大程度上有助于阅读,或者说,有助于阅读某种类型的文字

    • 结合 name entity 和 POS tagger 是否有更好的效果

    第 1 条附言  ·  29 天前
    2019.10.18 增加了英语支持,英语词频词典来自 wikipedia 词频统计,去掉了词频小于 5 的长尾
    9 回复  |  直到 2019-10-18 15:22:55 +08:00
        1
    est   33 天前
    我打开就看到一个 textarea 一段文本。我漏掉了什么吗?
        2
    josherich   33 天前
    @est 是楼主失误了,网络这么慢还用异步载入字典,刚改成了同步,刷新一下就有了
        3
    grimpil   33 天前 via Android
    如果是根据情感分析给文字加上不同的背景色,会不会很花很辣眼
        4
    oisc   33 天前
    楼主想法很好,我这里给个拙劣的建议。我们一般说词语有 content word (内容词) 和 function word (功能词),按照 IDF 挑出来的词一般是内容词。但是中文作为一种表意的语言想要做到准确是需要功能词支撑的,词的粒度是不是太小了?
    可以参考一下英文的一些技术:
    曾经很火的 https://www.spritz.com demo: https://codepen.io/keithwyland/pen/JztfD

    另外有本书叫 《眼动追踪和中文阅读》,希望楼主能继续研究下去。
        5
    josherich   32 天前
    @grimpil 我也考虑过情感分析,但情感分析(正反面情绪)一是适用的文字类型很有限,比如影评,对话;二是其本身是否准确我也非常怀疑
        6
    josherich   32 天前
    @oisc 对,这里其实只用了全局词频,如果对文档词频平均,一些主题词会变淡。但有时主题词是需要的,可以帮助读者定位文本中关键的几个方位。
    你说的没错,这个工具的目标是突出语义层面上的比较和变化,从字到词,到短语句子,再到段落,我的感觉是不同层面需要结合起来运用。
    感谢推荐,我去看看
        7
    zhigang1992   31 天前
        8
    josherich   30 天前
    @zhigang1992 这个是用了英文中的词根 /词干 或者说 unique prefix 来加快阅读速度,中文没法这么标记。
    我的想法是用标记词频的方式,既可以突出重点词,也可以起到英文中空格的作用
        9
    killpigman   30 天前
    我看着颜色怎么都一样??
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2293 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 20ms · UTC 12:27 · PVG 20:27 · LAX 04:27 · JFK 07:27
    ♥ Do have faith in what you're doing.