?译者:AI研究会(明明知道,伊卡洛斯,请救救孩子)。
双语链接:根据数据科学学习英语的最佳网飞电影系列。
到2020年,网飞将有大约3712部电影和1845个电视节目。假设你在学英语,有很多东西可以选择,但是你可以用更少的时间完成。因此,我用我的数据科学技能分析了网飞第一批1500部影视剧的节日意向剧本。经过多次治疗,我找到了网飞最好的英语学习内容。这样做的目的是给你提供很多好的选择,让你可以找到自己喜欢的电影或者电视节目,这在学习英语方面也会有优势,而不是强迫你看自己不喜欢的电视节目,因为你的老师和兄弟都坚持认为这样会帮助我们学习英语。
去寻找。
关于网飞最好的电影和电视节目,我比较了台湾对话中使用的词汇。让我们来看看哪些是最好的电视节目和电影。
网飞最简短的电视节目。
网飞的美国和英国电视节目是为以英语为母语的人制作的。这就是为什么,假设英语不是你的母语,你可能会在理解某些场景中的对话时遇到一些困难。根据词汇的难易程度,我对网飞目录中的500个电视节目(网飞创作的223个节目)进行了排名。
003010因为词汇量少被认为是学习英语最好的电视节目之一。但是这部电视剧在网飞目录中只排到了第78位,也就是说还有77部电视剧和《老友记》、——一样好,甚至非常好!-你可以在网飞学英语,玩得开心。比如根据我的查询结果,电视剧《老友记》(排名第13)或《去他 * 的世界》(排名第40)在其剧集集合中的词汇量更短。
你可以在你脸上的方框里找到电视节目的名字。你会发现他们的排名和词汇掩盖率。十大电视节目在整个网飞系列榜单中拥有最简单的词汇。
假设你正在寻找适合你英语水平的电视节目,那么我有一个好消息要告诉你。我已经把所有的英语词汇等级(初级、中级和高级)都排好了。最右边的程序在每个级别使用更多的词汇。掩盖率越高,越能对电视剧中的情节有一个简要的了解。
网飞系列按词汇覆盖率排名。
每个年级代表1000个最常见的英语单词。所有电影都有各个级别的排名。1级代表“初级”,3级代表“中级”。集合的掩盖率越高,理解其词汇就越简单。
黄色代表Lvl 1。
红色代表Lvl 1 2。
蓝色代表Lvl 1 2 3。
这些是网飞目录中的电视节目。是的,你喜欢的一些电视节目不在网飞,但是不用担心,我同时分析了一些电视节目,比如《13 个缘由》或者《权力的游戏》。此外,网飞目录在您的国家可能略有不同。这就是为什么我只列出了一个在全球范围内最可用的网飞原创。
用权力的游戏学习英语:最佳剧集
以下是网飞十大英语学习项目。
妖灵(金)
爱情叫醒电话(早安电话)。
谈论鱼怪(潮间带)
容易的
黑色夏天(黑色夏天)。
夏季(夏季)。
婴儿
尖子生
血统
去他的世界(世界末日)。
网飞电影按单词掩蔽率排名。
假设你喜欢看电影,网飞也有优秀的电影学英语。我根据词汇难度对网飞最受期待的950部电影(173部网飞电影)进行了排名。最受欢迎的100部电影是《辛普森一家》 (30)、《蒙上你的眼 ??》 (84)和《蜘蛛侠 : 平行世界》 (81)。
通过下面的方框展示,看看哪些影片进入前100名。你还可以找到你喜欢的电影的排名和词汇隐藏率。
你可以找到适合你英语水平的电影。最右边的电影有更多的初级、中级和高端词汇。但这些是网飞目录中排名最高的电影。你不会在网飞找到像《当夸姣来敲门》、《哈利波特》和《阿凡达》这样的电影,但是假设你仍然想看这样的电影。请看看我的另一篇文章。我分析了3000部最受期待的电影。你可以在这里找到它。
网飞电影排行榜(基于词汇)。
每个级别代表1000个最常见的英语单词。所有的电影都是按等级排列的。1级代表“初级”,3级代表“中级”。一集收视率越高,词汇就越简单。
我还列出了世界上网飞最受欢迎的国产电影,以防网飞的目录在你们国家不同。
以下是网飞十大适合学英语的自制电影:
在高高的草丛里(2019)——在高高的草丛里。
暗恋(2020)——暗恋。
《阳光下》(2020)
危险的谎言(2020)——风险的废话。
鸟盒(2018)——蒙住你的眼睛。
你会带谁去荒岛(2019)
地震鸟(2019)
爱情婚礼重演(2020)
帕德尔顿(2019)
6个气球(2018年)-6个气球。
在向英语学习者展示网飞最好的内容之前,让我们先比较一下最好的内容和最差的内容,只看词汇难度。
网飞自己的剧本用了最容易理解也最难的词汇。
下图显示了前十名和后十名网飞电影在英语词汇难度上的差异。如你所见,在过去的十年里,使用词汇变得越来越困难。比如,你只需要知道最多的1000个英语单词就能知道电影《玩具总建议》中94.5%的单词,但你至少需要3000个单词才能包含电影《蒙上你的眼 ??》中94.5%的对话。被评分的2000字可以成为你听不懂的理由,即使你现在的英语水平很高!
数据集
方法
我用Python做了所有这些分析,这是我准备数据的方法:
符号化:为了分析文字记录中的单词,我将人物所说的所有单词符号化。Python中用于符号化的东西很多,但我用的是CountVectorizer,因为它把收集到的成绩单转换成符号计数的数据模式,然后简化分析。在分析中?在3000部电影中,我进一步解释了计数矢量器是如何工作的。
引理化:符号化之后,我有必要找到每个符号的根方法。您可以通过使用像引理这样的技巧来做到这一点,您可以在NLTK库中找到这些技巧。不过我用了一个类似的词族列表,还根据单词呈现的频率给出了每个单词的难度等级。到2020年,有29个单词家族列表,你可以在这里找到。这些列表评估与语言学和英语作为第二语言学习相关的研究论文。
资料收集:我删除了电影或剪辑中不好听的词,比如场景描述、说话人姓名。我还清理了跨越3.5%与单词族列表不匹配的单词的对话记录(它们可能是异常值或损坏的数据)。
一切都可以编码进去?Github?找到了!
关于分析和结果。
我用来对电视节目中的词进行分类的词表大多来自语料库。词汇水平是根据一个单词在语料库中出现的频率来确定的,也就是说,这些文本中最常见的单词被标记为Level 1。虽然之前的研究已经证明了这个列表是可靠的,但是对于各种意思的单词就没有那么准确了。例如,单词“draw”在列表中标记为级别1。之所以这样说,是因为这个词一般指的是‘射击’,但如果指的是‘拿出武器攻击人或人’或‘下结论’,那么就不属于第一层次。
我花了几周时间寻找、整理和处理数据,然后了解结果。然而,研究成果并不完善。关于电影的研究结果可以比电视节目更准确。电影的书面记录是独一无二的,但电视节目播出的剧集是不同的,这增加了每个电视节的预期书面记录数量。这就是为什么我从每个节目的3到10集收集样本,以便获得电视节目每一集包含的词汇。
总的来说,查询结果建议了很多适合每个词汇层次的内容,但其中有些内容还是让我很惊讶。比如《Spelling The Dream ??》排名第62位,这让我很惊讶。我不是电视节意向的粉丝,但我不认为一个有僵尸的虚拟节目会在对话中使用简单的词语。看过文字记录后,我证明《酒囊饭袋》中的词汇需求在整集有很多层次。也就是说,有些情节可能比其他情节更难理解。
人工智能研究会是一个供人工智能学术青年和人工智能开发者交流技能的在线社区。我们与高校、学术机构、行业合作,提供学习、实战、求职效率,打造AI学术青年与开发者交流、合作、运营的一站式平台,努力成为国内最大的科技创新人才聚集地。
假设你也是一个爱分享的AI爱好者。等待翻译站学习新知识,分享成长。