这台机器写得比你好
当研究人员尝试机器学习时,通常是为了为人类创造有用的工具。从设计上讲,计算机弥补了我们天生的缺陷:它们不会感到疲倦或压力,尤其不会夸大其词。通常,它们都是关于确凿的事实和数字。但是挪威开发者拉斯·艾德尼斯采取了相反的方法,创造了一台学习机器,旨在通过掠夺人类的好奇心和轻信来欺骗他们——就像现在一些人类作家所做的那样。艾德尼斯制造了一个点击诱饵生成器。
点击诱饵——一个术语,指的是带有耸人听闻的标题但无法在其前提下传播的文章——如今在互联网上猖獗,因为越来越多的媒体机构大大夸大或夸大相对无关紧要的事件以吸引读者的眼球。大型、大胆的标题承诺列出会让你震惊、愉悦、激励或惊讶的项目(“你不会相信的……”)。
艾德内斯建立了一个神经网络,可以阅读大众在线媒体的200万头条新闻,包括Buzzfeed、Gawker、Jezebel、赫芬顿邮报和不值得(所有这些都被指控为点击诱饵)。
神经网络是解码输入之间关系的数学公式集群。因此,如果你让神经网络阅读200万点击诱饵标题(这个过程称为训练),它将分解哪些单词与其他单词相关。通过理解单词之间的关系,它能够以合理的确定性预测接下来会发生什么。
经过训练后,当网络被要求造句时,它会找到并输出一个单词,然后循环回来,再次进行整个思维过程,将第一个单词作为上下文。这种架构被称为循环神经网络(因为它循环),机器学习研究人员发现它非常适合需要按顺序或有时间因素发生的任务。
艾德内斯的神经网络在第一次训练后对世界了解不多。它会产生像这样的标题:“真正的步行加入他们回到法国莎拉·约克的飞机上”或“女演员前的经济课程——需要一个应用程序”。它们没有多大意义。然而,在对这些信息进行了几次传递后,该网络说,“约翰·麦凯恩警告最高法院支持计划生育改革。”
艾德内斯从数据中提取了其他几个例子,比如“罗姆尼阵营:‘我认为你是个糟糕的总统。’”
艾德内斯在一篇详细介绍该系统的博客文章中写道:“它好得令人怀疑——如果这是某个网站发布的真实标题,我也不会感到惊讶。”“但它不在数据集中,甚至不接近。”
显然,在“罗姆尼阵营”出现的17次中,它从未与总统职位相关。有一次提到“坏总统”这个短语,是由马尔科·卢比奥提出的。根据这些信息,艾德内斯写道,网络有某种形式的语义理解,可以理解政治关系。
为了进一步利用这个网络,他创建了Clickotron.com,每20分钟更新一个新的人工生成的故事。该网站会自动在维基共享资源中搜索相关的图片,并生成一些正文。为了区分小麦和谷壳,Clickotron.com有一个很像Reddit的保麦玩法。
“这给了我们无用新闻的无限来源,免费提供,”艾德内斯写道,“如果我在经济学课上没记错的话,这应该会把无用新闻的市场价值降至零,迫使其他无用新闻的生产者生产其他东西。”
这台机器写得比你好