篆体字作品 | 篆体字知识 | 加入收藏 篆体字转换器软件可转换多种篆体字在线预览 网页版 V2.0
篆体字转换器

当前位置:篆体字网 > 知识库 >

6亿人月收入仅1千

时间:2023-12-29 00:21:28 编辑:篆字君 来源:篆体字网

这两天超模君身边的圈子都炸了,大家全都在讨论一组惊人的数据:中国6亿人月收入仅1000元


这都2020年了,怎么还会有这么低的工资?
现在别说是一二线城市了,就算是三四线城市,一个月一千块的工资也招不到人吧?更何况,某乎、抖x这些社交平台不都是人均年薪百万,个个都是奔涌的后浪吗?
但是随着新闻热度的增加,一些我们平时留意不到的新闻也跟着上了热搜。原来不止年迈的环卫工人每个月到手一千多:
甚至连一些二三十岁的青壮年劳动力,一旦失去了加班的机会,一个月底薪也才一千块
可这些情况,除非我们特意去搜索,平时我们根本看不到。反而是,天天被“平均收入月入过万”、“猪肉佬一个月赚三万”这些消息刷屏......
仔细想想,这都是因为我们平时接收的信息都是被打包分类好的,只有最有热度、有话题性、令人向往的消息才会被我们看到。
想象一下,全球每天无时无刻不在产生新的资讯,这些资讯统统都会被上传到互联网中,如果不加以分类整理的话,那我们看到的东西就会显得杂乱无章。
可如果分类资讯都要依靠程序猿一条一条筛选,那全世界的程序猿都不用下班了!这样整天夜不归宿,得引发多少家庭矛盾啊!
这时候,聪明的程序猿就发明了一种新的算法,能够实现新闻快速智能分类。
原理非常简单,就是我们中学就已经学过的数学定理——余弦定理

用向量来表达


大家都知道,计算机本身是看不懂文字的。对这一点,程序猿也是非常苦恼。到底要怎样,才能将文本转化成计算机也能看得懂的语言呢?
直到有一天,有一个谷歌的程序猿脑袋里灵光一闪:如果能用一组数字来描述一个文本,那计算机不就看懂了?
但是这组数字不能随随便便写出来,一定要有一个规律。这时候,有程序猿就想到了向量。
要说向量是什么,科学定义就是:一个具有大小和方向且满足平行四边形法则的几何对象。它有好几种表达方式,其中一种就是,把向量放进坐标中用一组数字来表达的,也称坐标式。
这样一来,文本不就能用一组有规律的数字来表达了吗?
举个简单的例子,在平面里有向量a,b,就可以这样表达:
大家看上面的图,就能发现:向量a,b之间形成了一个夹角。
两个向量在接近或远离时,夹角也会随之变大变小。回忆以前学过的知识,就可以总结一下规律:夹角小时,向量就接近,说明两个文本相似;反之,夹角大时,向量就远离,说明两个文本差异大
那怎样用向量来翻译文本内容呢?这个问题耗死了谷歌程序猿不知道多少脑细胞!

把文本变成向量


在脑洞爆炸之后,谷歌程序猿终于想出了一个办法:将文本中的每一个词当做文本向量的一个维度。
那计算机怎么知道哪些是词语呢?比如我们中文博大精深,同一句话不同的断句就是不同的意思
所以,为了让计算机更好理解文本内容,程序猿把几乎所有的词元都储存起来,这样计算机就能做到分词,也就是断句。被分段的词统称为词元
比如,句子A:中国/有/6亿/人/月收入/仅/1000/元。这句话断句后就是8个词元。
分完词之后,接下来就是重点步骤:计算词元在文本中出现的频率,称为词频TF,公式:词元的个数/文本的总词数。
打个比方,一篇文本一共有1000个词元,其中不重复的有640个。那么用这640个词元的个数分别除以总文本词数1000,就能知道每一个词元的结果,最后就能写出这样的表达式:(0.001,0.023,...,0.017)
在这里,我们就会发现一个漏洞:通用词助词在文本中出现的频率往往比关键词的概率更高,但是它们对于确定文本主题的作用却比关键词元的小。
这怎么能一视同仁呢?所以程序猿给词元定了一个标准:IDF,也称为逆文本频率指数,它的公式为log(D/Dw),其中Dw是一个词元 w 出现过的文本数,D是全部文本数。
IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵.
简单来说就是,所有文本都有的词就不必拿出来计算了,就算一算关键词就好。如果一个词只在针对性文本中出现,那么我们就能轻易通过它锁定文本,它的权重就应该大。
IDF还有另一个用处:计算机可以通过截取“IDF”最高的词来确定向量起点!因为这个词通常就是文本主题,这样构建的向量空间才能够明确体现文本主题。这时候不就可以更精准计算出文本词元的坐标了吗?它就是'IF*IDF'的积
通过上面的四个步骤:分词、计算IF、IDF以及'IF*IDF'的积计算机也就建立了一个多维向量空间模型。就像,我们已经把英文文献里的单词都翻译成中文词语了,还标出了文本的主题和其它关键词,那我们也就能大致理解出文章的内容了。

用余弦定理分类新闻


翻译出文本向量之后,分类工作就可以开始了。通过二维平面的例子,大家都知道:夹角的大小就可以描述出文本向量的相关性
但是翻译出来的文本通常都是n维向量,比如有6400个词元的内容,就算全都是废话,最后至少也要建立一个上千维的空间模型。
要想直接画出这些向量的空间坐标,简直是天方夜谭!与其费力不讨好,不如直接用数学公式。
要描述两条相邻的边的关系,大家自然而然就能想到余弦定理了。
余弦值的区间是[-1,1],排除-1,0和1等特殊情况,余弦值的绝对值都可以直接转化成百分比,这种比例的表达式就十分直观了。
余弦公式大家以前都学过:用向量点乘的积除以向量模的积。公式参照如下:
根据余弦定理原则,可以得出:余弦值越接近零,夹角越大,相关性越小;数值越接近一,夹角越小,相关性越大。当数值等于一时,文本内容完全一致,那么其中一篇文本也没有参考价值
举个例子,就像我们用百度搜索时,下面总是出现几万甚至几百万的“相关结果”:

这些内容不就是计算机事先打包分类好的吗?一般来说越是前面的内容,就跟搜索关键词越相关。

这样一来,余弦定理和新闻分类,原本八竿子打不着的关系就变成革命友谊了

计算机就能够快速实现新闻分类的工作,无论识别、整理还是归类,都能做到精准高效。

写在最后


讲到这里,超模君总算是把新闻分类的方式给大家说明白了。有没有很神奇?
其实一开始,天才的程序猿们发明这个算法,只是为了更好的将新闻内容分类,降低人工成本!
可技术发展到了今天,大数据已经有能力把每个网友的兴趣爱好和阅读习惯都贴上标签,再根据这些标签“投其所好”。
可现在却演变成了:只有那些“光彩新奇”的信息才享受到了阳光,而更多的信息则被扫到了互联网最阴暗的角落里,这就是“幸存者偏差”。幸存者偏差(Survivor bias),另译为 “生存者偏差” 或 “存活者偏差”,是一种常见的逻辑谬误。指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
所以才会给网友造成一种错觉:很多人都很富有。
其实这也是媒体过分依赖推送系统造成的后果,有一些理智的网友就对这种模式非常不满:
正如这位网友所说,这样一来,无形之中,我们是不是在某种程度上失去了选择的自由呢?
技术是无罪的,错在谁呢?

Copyright:2021-2023 篆体字转换器 www.dddtedu.com All rights reserved.