回顾我Github开源与技术分享的那些事儿：实践开源是拥有产品想法的技术人最好的解压出口作者：老刘说NLP 来源：老刘说NLP 今天是2024年1月28日，星期日，北京，天气晴，我们来谈谈最近一直在思考的事情。那就是我们要做什么，当下做什么事情会更有长期性、更有意义，以及更能找到自己的位置。个人观点：实践开源是拥有产品想法的技术人

回顾我Github开源与技术分享的那些事儿：实践开源是拥有产品想法的技术人最好的解压出口

By AiBard123
January 30, 2024 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

今天是2024年1月28日，星期日，北京，天气晴，我们来谈谈最近一直在思考的事情。

那就是我们要做什么，当下做什么事情会更有长期性、更有意义，以及更能找到自己的位置。

个人观点：实践开源是拥有产品想法的技术人最好的解压渠道。 ‍‍‍‍‍

下面是关于开源，关于技术分享的一些胡言乱语，供大家一起思考 。

一、说说早期开源以及当今技术分享的一些事儿

先说开源，我在早年所做的一些开源的工作（github地址：https://github.com/liuhuanyong），做了一些归置和整理，一共包括近70项 ，几年下来，积累了5.5kfollowers，star数累计已有数十k 。

并在GitHub China User Ranking（github中国区） (地址：https://wangchujiang.com/github-rank/users.china.html）上排名第74位 。

地址：https://liuhuanyong.github.io

可以看到，开源项目所用的技术在6年前，还是基于规则以及RNN/CNN时代，这几年的技术发展的太多，这些技术已经逐步不见踪影。

但是，其对于一些主题的探索，如文本计算、语言资源、知识图谱、常识推理等，却又是亘古不变的，当初做开源是至今为止，最为充实的事情。‍‍‍‍‍‍‍‍‍

进入到2021年后，开始做一些技术分享上的事情 ，因为觉得说，授人以鱼不如授人以渔，渔是思想、是武器，更有受众 ，开始做社区，并陆续参加aidd、datafuntalk等进行知识图谱、大模型方向的演讲，也确实收到了一些很有趣的反馈，并且在演讲以及内容演绎上得到了很大的精神满足 。

例如，在AIDD-2023深圳上，获得top16最佳议题 (https://mp.weixin.qq.com/s/jyFFWaJwAMpapUxT0uA9tQ)。

又如，在Datafuntalk上的分享，获得2023中国数据智能影响力榜单-2023年度数据智能践行者 (https://mp.weixin.qq.com/s/y9HCPAcR6gFv2D5LmfvepA)，

我最近在想，在写技术博客这件事上，整理阅读他人的笔记也好，自己写文章也罢，其实都没有太多的感悟和实物上的精神收获，尤其是近一年读的太多，而真正在实际产物（例如开源工具、数据）上并没有太多的深刻思考。

相应的，在做技术分享上，也需要有更多的、源源不断的思考经验以及创意想法来支撑。

因此，回顾前几年的激情，回顾到开源，用代码的方式去根据设定的主题，去做一些实现、做一些探索，哪怕做一些demo，做一些小工具，反而更为有趣 。

我也在规划一些事情，这两年，逐步走向社区和笔头建设，所以，今年，还是要回归开源建设，从实现端做一些有趣的事儿，有一些产品、算法上的一些小想法， 实务化出来，与大家一道更好进步。

开源是一个能够更能促使人深度思考，并将思考实现出来的一个绝佳路径，大模型时代，给予两个更多的想法实现的可能，何不再试一试。

下面来看看过去陆续开源的一些项目，主要针对知识图谱以及文本计算展开：‍‍‍‍‍‍‍‍‍

二、常识推理、系统平台与知识问答项目11项

常识推理，包括开放通用实体与事件schema工程、认知图谱及其推理、基于因果事理的事件预测。

系统平台，包括实时事理知识库构建系统、语言政策领域知识图谱系统、自然语言处理综合平台。

知识问答，包括医疗知识图谱问答、武器装备知识图谱问答、基于知道数据的机器问答、法律罪名预测与机器问答、基于es的歌词接龙问答。

三、知识图谱与语言资源项目12项

知识图谱包括一些结构化的三元组数据集，包括抽象上下位知识图谱数据集、人物关系图谱数据集、因果搭配抽取数据集、产品知识图谱数据集。

‍

语言资源主要包括公开收集以及自行构造的自然语言处理资源，包括领域特征词汇知识库、中文历时语料库、中文语义知识库数据集、百度知道类问答数据集、历时热点事件数据集、中文开放语料数据集、基于word2vec的中文向量数据集、百科分类知识库数据集

四、语言工具与信息抽取项目20项

语言工具主要包括：中文反义词组件、中文字形拆解组件、基于HMM的问句纠错、基于HMM的拼音转汉字、基于共现、PCA、CBOW的词向量生成、基于HMM的拼音转汉字、手写的分词、词性标注、依存句法分析组件、基于HMM、最大切分的中文分词、基于CBOW的句子向量生成。

image

信息抽取主要包括：主谓宾事件三元组抽取、概念描述三元组抽取、基于boostrapping的人物关系抽取、基于HMM的问句纠错、法律条文知识抽取、医疗命名实体识别、基于百科数据的上下位抽取、基于 CHI、DF、 IG、MI的文本特征词提取、基于TFIDF、TextRank的关键词、摘要提取、基于MI的词语搭配抽取几类。

五、信息采集与文本生成项目8项

文本生成包括：序列到序列加注意力机制的文本生成、序列到序列的文本生成、基于seq2seq的中英翻译

信息采集包括：微博指数采集、阿里商品指数采集、基于HMM的问句矫正、百度指数采集、基于搜狗输入法的领域词收集等

六、文本计算项目11项

文本计算，主要指的是针对文本进行了一系列计算。包括基于Singlepass的增量快速文本聚类、基于孪生网络的句子相似度计算、自定义词云可视化、基于搜索引擎的事件监测、基于规则与向量化的句子相似度计算、中文文本蕴含推断、基于百科的词语消歧、基于lda与k-means的话题聚类、事件重要性判定与时间线生成、基于诗歌数据的诗人足迹挖掘以及基于关键信息的文本图谱化项目。

七、事理抽取与情感计算项目8项

事理抽取包括基于游记的顺承事件抽取、基于规则的因果事件抽取、基于规则的复合事件抽取三种。

情感计算主要包括篇章级情感分析、中文幽默情感计算、基于规则的主观性计算、基于SO-PMI的情感词扩展以及基于MLP, CNN, RNN的情感分类

总结

本文主要回顾了老刘在早年所做的一些开源的工作，做了一些归置和整理，一共包括近70项。

这两年，逐步走向社区、口头以及笔头建设，即日起，回归开源建设，从实现端再做一些有趣的事儿，与大家一道更好进步。

实践开源是拥有产品想法的技术人最好的解压出口。

参考文献

1、https://liuhuanyong.github.io

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具