6亿人月收入仅1千

时间:2023-12-29 00:21:28 编辑：篆字君来源：篆体字网

这两天超模君身边的圈子都炸了，大家全都在讨论一组惊人的数据：中国6亿人月收入仅1000元！

这都2020年了，怎么还会有这么低的工资？
现在别说是一二线城市了，就算是三四线城市，一个月一千块的工资也招不到人吧？更何况，某乎、抖x这些社交平台不都是人均年薪百万，个个都是奔涌的后浪吗？
但是随着新闻热度的增加，一些我们平时留意不到的新闻也跟着上了热搜。原来不止年迈的环卫工人每个月到手一千多：
甚至连一些二三十岁的青壮年劳动力，一旦失去了加班的机会，一个月底薪也才一千块：
可这些情况，除非我们特意去搜索，平时我们根本看不到。反而是，天天被“平均收入月入过万”、“猪肉佬一个月赚三万”这些消息刷屏......
仔细想想，这都是因为我们平时接收的信息都是被打包分类好的，只有最有热度、有话题性、令人向往的消息才会被我们看到。
想象一下，全球每天无时无刻不在产生新的资讯，这些资讯统统都会被上传到互联网中，如果不加以分类整理的话，那我们看到的东西就会显得杂乱无章。
可如果分类资讯都要依靠程序猿一条一条筛选，那全世界的程序猿都不用下班了！这样整天夜不归宿，得引发多少家庭矛盾啊！
这时候，聪明的程序猿就发明了一种新的算法，能够实现新闻快速智能分类。
原理非常简单，就是我们中学就已经学过的数学定理——余弦定理。

用向量来表达

大家都知道，计算机本身是看不懂文字的。对这一点，程序猿也是非常苦恼。到底要怎样，才能将文本转化成计算机也能看得懂的语言呢？
直到有一天，有一个谷歌的程序猿脑袋里灵光一闪：如果能用一组数字来描述一个文本，那计算机不就看懂了？
但是这组数字不能随随便便写出来，一定要有一个规律。这时候，有程序猿就想到了向量。
要说向量是什么，科学定义就是：一个具有大小和方向且满足平行四边形法则的几何对象。它有好几种表达方式，其中一种就是，把向量放进坐标中用一组数字来表达的，也称坐标式。
这样一来，文本不就能用一组有规律的数字来表达了吗？
举个简单的例子，在平面里有向量a,b，就可以这样表达：
大家看上面的图，就能发现：向量a,b之间形成了一个夹角。
两个向量在接近或远离时，夹角也会随之变大变小。回忆以前学过的知识，就可以总结一下规律：夹角小时，向量就接近，说明两个文本相似；反之，夹角大时，向量就远离，说明两个文本差异大。
那怎样用向量来翻译文本内容呢？这个问题耗死了谷歌程序猿不知道多少脑细胞！

把文本变成向量

在脑洞爆炸之后，谷歌程序猿终于想出了一个办法：将文本中的每一个词当做文本向量的一个维度。
那计算机怎么知道哪些是词语呢？比如我们中文博大精深，同一句话不同的断句就是不同的意思。
所以，为了让计算机更好理解文本内容，程序猿把几乎所有的词元都储存起来，这样计算机就能做到分词，也就是断句。被分段的词统称为词元。
比如，句子A：中国/有/6亿/人/月收入/仅/1000/元。这句话断句后就是8个词元。
分完词之后，接下来就是重点步骤：计算词元在文本中出现的频率，称为词频即TF，公式：词元的个数/文本的总词数。
打个比方，一篇文本一共有1000个词元，其中不重复的有640个。那么用这640个词元的个数分别除以总文本词数1000，就能知道每一个词元的结果，最后就能写出这样的表达式：（0.001,0.023,...,0.017）。
在这里，我们就会发现一个漏洞：通用词和助词在文本中出现的频率往往比关键词的概率更高，但是它们对于确定文本主题的作用却比关键词元的小。
这怎么能一视同仁呢？所以程序猿给词元定了一个标准：IDF，也称为逆文本频率指数，它的公式为ｌｏｇ（Ｄ／Ｄｗ），其中Ｄｗ是一个词元ｗ出现过的文本数，Ｄ是全部文本数。IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵.
简单来说就是，所有文本都有的词就不必拿出来计算了，就算一算关键词就好。如果一个词只在针对性文本中出现，那么我们就能轻易通过它锁定文本，它的权重就应该大。
IDF还有另一个用处：计算机可以通过截取“IDF”最高的词来确定向量起点！因为这个词通常就是文本主题，这样构建的向量空间才能够明确体现文本主题。这时候不就可以更精准计算出文本词元的坐标了吗？它就是'IF*IDF'的积。
通过上面的四个步骤：分词、计算IF、IDF以及'IF*IDF'的积，计算机也就建立了一个多维向量空间模型。就像，我们已经把英文文献里的单词都翻译成中文词语了，还标出了文本的主题和其它关键词，那我们也就能大致理解出文章的内容了。
用余弦定理分类新闻

翻译出文本向量之后，分类工作就可以开始了。通过二维平面的例子，大家都知道：夹角的大小就可以描述出文本向量的相关性。
但是翻译出来的文本通常都是n维向量，比如有6400个词元的内容，就算全都是废话，最后至少也要建立一个上千维的空间模型。
要想直接画出这些向量的空间坐标，简直是天方夜谭！与其费力不讨好，不如直接用数学公式。
要描述两条相邻的边的关系，大家自然而然就能想到余弦定理了。
余弦值的区间是[-1,1]，排除-1,0和1等特殊情况，余弦值的绝对值都可以直接转化成百分比，这种比例的表达式就十分直观了。
余弦公式大家以前都学过：用向量点乘的积除以向量模的积。公式参照如下：
根据余弦定理原则，可以得出：余弦值越接近零，夹角越大，相关性越小；数值越接近一，夹角越小，相关性越大。当数值等于一时，文本内容完全一致，那么其中一篇文本也没有参考价值。
举个例子，就像我们用百度搜索时，下面总是出现几万甚至几百万的“相关结果”：
这些内容不就是计算机事先打包分类好的吗？一般来说越是前面的内容，就跟搜索关键词越相关。
这样一来，余弦定理和新闻分类，原本八竿子打不着的关系就变成革命友谊了！
计算机就能够快速实现新闻分类的工作，无论识别、整理还是归类，都能做到精准高效。
写在最后

讲到这里，超模君总算是把新闻分类的方式给大家说明白了。有没有很神奇？
其实一开始，天才的程序猿们发明这个算法，只是为了更好的将新闻内容分类，降低人工成本！
可技术发展到了今天，大数据已经有能力把每个网友的兴趣爱好和阅读习惯都贴上标签，再根据这些标签“投其所好”。
可现在却演变成了：只有那些“光彩新奇”的信息才享受到了阳光，而更多的信息则被扫到了互联网最阴暗的角落里，这就是“幸存者偏差”。幸存者偏差（Survivor bias），另译为 “生存者偏差” 或 “存活者偏差”，是一种常见的逻辑谬误。指的是只能看到经过某种筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。
所以才会给网友造成一种错觉：很多人都很富有。
其实这也是媒体过分依赖推送系统造成的后果，有一些理智的网友就对这种模式非常不满：
正如这位网友所说，这样一来，无形之中，我们是不是在某种程度上失去了选择的自由呢？
技术是无罪的，错在谁呢？

最新文章

苹果手机怎么插卡

广东省高级技工学校

对标管理

牧童骑黄牛的下一句

第一医药商店

狗可以吃枣子吗

养蛊

物质财富

一万英尺是多少米

化妆品进货在哪里