AI在电视新闻档案中的实践应用 ——范德比尔特电视新闻档案馆(Vanderbilt Television News Archive)的案例研究

新重庆-重庆日报原创

2024-11-28 09:15

编者按:档案史志频道前沿研究栏目关注和介绍档案领域前沿理论研究的进展和成果。通过研究国内外典型案例,编译国外档案文献,为档案爱好者、从业者解读国内外档案事业发展情况。首篇推出的外文档案文献介绍在电视新闻档案中机器学习和人工智能的使用情况,也探讨了AI涉及的伦理考量问题,包括员工裁员的可能性等。作者对部分重要内容进行编译。

引言:国家档案局令第22号公布《电子档案管理办法》自2024年11月1日起施行,进一步对电子档案全过程管理提出规范要求,其标准适用于国家机关、社会团体、企事业单位等办公自动化过程中产生的电子文件及电子档案的管理。当视线转移到外国时,也同样看到了企业集团对档案数字化的重视和广泛运用。

据范德比尔特电视新闻档案馆(以下简称“范德比尔特档案馆”)官网介绍,自1968年8月5日以来,一直在记录、保存美国国家电视网的电视新闻广播,并向大众提供访问途径。核心馆藏包括哥伦比亚广播公司(CBS)和美国全国广播公司(NBC)的每日晚间新闻节目内容。其中,美国有线电视新闻网(CNN)和福克斯新闻网(FOX News)分别在1995年和2004年开启。

在范德比尔特档案馆的案例研究中,实现档案数字化的第一步是用自动语音识别(ASR)创建新闻播报的转录文本,再将这些收集的文本形成数据库,并借助人工智能工具进行档案整理和质量优化,接下来,从录制的视频流以及对应的广播电视音频轨道中提取信息自动生成元数据。

范德比尔特档案馆自成立以来,电视新闻档案经历多次技术变革。2016年,克利福德・安德森(Clifford Anderson)承担起领导电视新闻档案的责任。他很快认识到,鉴于全新的计算工具和研究需求,有必要对多个系统进行升级。2018年,吉姆・杜兰(Jim Duran)被任命为新主任,他指出许多电视新闻档案普遍存在的另一个问题:未报道过的素材积压越来越多。除了素材积压的问题,搜索界面还缺乏开放的API(应用程序接口),并且无法进行统计分析,而这在当时正是馆内研究人员经常提出的需求。

这些挑战面临共同的限制因素——元数据。撰写摘要也就是撰写档案馆数据库中的关键元数据字段,是一个需要大量人力参与的过程,人员需要提前经过培训,并长期持续地从事这项任务。该档案馆每天(包括周末)增加3.5小时的晚间新闻内容,在高峰时段多达13名工作人员,但到2018年减少至5名,其中只有2人全职致力于撰写摘要,而馆内有大约3000集新闻节目需要元数据用于研究。

于是,杜兰开始努力寻找自动创建摘要或生成转录文本的方法,主要目的是消除积压,让馆藏完全可供研究人员使用。他希望这个项目要能够加快馆藏的获取和使用,在此基础上,要能覆盖每日录制容量的增加以及馆藏范围的增大。与此同时,安德森在大学图书馆有了创建数据湖的计划。数据湖是一个集中式的存储库,需要提供足够的数据存储能力。云工程师马库斯・韦弗(Marcus Weaver)将电视新闻数据集导入了新生的数据湖,使工作人员能够对整个语料库进行查询和分析。

如何对档案馆的数据集进行转录和注释且便于在数据湖中提取信息?

一是语音转文本的项目。这一步的目标是为范德比尔特档案馆的用户提供转录文本和字幕并存储在数据湖中便于抓取信息。档案馆不少长期用户都注意到录音材料的不足之处在于不包含字幕信息,即供听障人士使用的语言文本。另一方面,有些受众比起收听新闻,更喜欢阅读文字内容,对于他们而言这类型的文本同样缺失。2022年,档案馆与范德比尔特大学图书馆管理部门以及艺术与科学学院合作,利用自动语音识别(ASR)技术为1968年8月至2022年6月之间录制长达62000小时的电视新闻生成转录文本和字幕。馆内的工作人员很早就认识其重要性,但自动化工具的出现和发展才真正得以推进这个项目。

云计算服务AWS的转录服务使用自动语音识别生成数字视频文件中音频轨道的转录文本。默认情况下,该服务提供一个专有的语言模型,但杜兰想通过应用自定义语言模型来提高转录文本的准确性,而云计算服务还能允许用户为转录这项服务提供文本示例,并通过机器学习来生成用户期待的文本内容。

二是命名实体识别(NER)。为新闻片段生成标题是一项更具挑战性的工作,为此研究人员再次求助于人工智能工具。每个新闻故事和商业广告都需要与之相匹配的标题,大致遵循“地点/主要主题/[可选:子主题]”的模式,例如:“加利福尼亚 / 地震 / 联邦应急管理局”。当然,在引入自动语音识别转录文本之前,标题是由经过训练的内部员工撰写的。杜兰需要一个快速响应且保持风格一致的新解决方案:使用Python脚本、AWS、命令行界面(CLI)和AWS Comprehend,从每个片段的转录文本主体中提取命名实体。

Amazon Comprehend是一种自然语言处理(NLP)服务,使用机器学习来揭示文本中有价值的见解和联系。命名实体可以是一个人、一个地点、一个组织或一个商业产品。AWS Comprehend根据文本内容出现的频率和联系排列组合成新标题,以此匹配撰写人不同的风格。

结果勉强令人满意却未呈现出理想的状态。首先,记者的名字几乎总是最先出现的结果,因为他们通常在故事中被多次提及,理所应当被识别出来,但不应该出现在标题中。杜兰向数据专家史蒂夫・巴斯考夫(Steve Baskauf)寻求建议。巴斯考夫根据已知的记者名单,开发了一个Python函数,利用模糊匹配在标题生成中过滤掉记者的名字。模糊匹配通过识别常见的拼写错误,或像“John”和“Jon”这样的拼写变体,来提高过滤器的准确性。一旦识别出记者的名字,该数据点就会存储在记者字段中。

第二个问题是,有些新闻故事更多地是关于一个概念或主题,而非一个实体,比如枪支暴力、气候变化或外交政策等。这些主题词不是一个具体的实物,它们通常甚至不会在转录文本中被明确提及,而是隐含在整个新闻报道的新闻价值中。电视新闻会报道社会层面上特定的主题,而命名实体识别无法识别这些概念。研究人员尚未解决这个问题,但正在探索使用人工智能自动分类添加主标题的选项。尽管如此,研究人员得出结论,命名实体识别作为一种识别实体的工具非常有效,对每个新闻故事中的人物、地点和其他细节都极具价值。

有了新创建的文字记录和标题,下一个目标是使这些数据便于机器学习的搜索和获取。与此同时,安德森已经为大学图书馆完成一个初步的数据湖。他建议将文字记录和其他与节目相关的元数据添加到这个新生的数据湖中,目的是为范德比尔特大学的教职员工和学生创建一个与新闻相关的数据库。对于部分研究者而言,他们对期刊文献、广播新闻等内容研究十分感兴趣,这个解决方案将成为他们获取资源的新途径。数据湖还可基于新闻来源,创建和微调机器学习的模型。

除了文本转录和摘要的文本数据集之外,研究人员希望数据湖兼具其他便于研究的功能。例如,研究人员可以使用机器学习来识别特定图像,如野火、航空事故等,甚至可以进行更晦涩的研究,如配色方案、音效等方面,让数据湖能提供机器学习中监督学习和无监督学习的环境。

▲该工作流程描述电视新闻档案的视频流获取和处理的全过程并最终使各类用户群体均可访问。

论文中还提及到如今人们关切的另一重大话题——人工智能是否会夺走人们的工作?范德比尔特档案馆的内部人员却并不完全担心这个问题。该档案馆寻求AI来生成文本记录,扩大元数据,任务是用更少的资源做更多的事情,并非为了取代劳动力。在他们看来,目前人工智能并不会威胁到人员配置水平,因为很多文化机构已经出现人手不足的情况。虽然该领域正试图顺应数字信息的浪潮,可能伴随颠覆性的变化,但就算自动化工具真的有取代劳动力的可能,更大程度上也是为了让员工的工作更公平、更可持续。

具体而言,档案馆甚至安排一批新员工来处理积压的工作,发现这个选择不仅成本过高,而且还更加确定撰写摘要的任务不能由临时员工、初级人员或外包人员来完成。他们发现,一个经过充分培训且熟练的摘要撰写人员尚且需要6到8个小时才能完成1小时的视频内容。此外,工作人员需要专注于完成一集的任务,但过程中他们也需要休息以避免疲劳。从本质上讲,摘要总结需要全职的熟练劳动力,而考虑到庞大的工作量和资金不足的情况,寻找AI替代人力的方案是当下满足需求的唯一选择。也就是说,他们确实预见到人工智能和机器学习将影响新员工在未来发展面临的阻碍。随着用于摘要、索引和总结的人工智能改进,可能暂且也不会考虑在这些领域重新招聘人员。但是,与此同时,这些工具并不完美,仍然需要人工的审核,尤其是机器生成的元数据至少也需要一名娴熟的元数据专家来审核,目前的AI无法替代。

原标题:ResponsibleAI at the Vanderbilt Television News Archive:A Case Study

原作者:Clifford Blake Anderson;Jim Duran

发表期刊:Journal of eScience Librarianship

编译:欧阳定馨

(原作者均毕业于美国范德比尔特大学,曾任职于范德比尔特电视新闻档案馆。)

来源: 新重庆-重庆日报  
编辑: 林勇   主编:胡东强      审核: 李苒
版权声明:

凡注明来源重庆日报的作品,版权均属重庆日报所有,未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:重庆日报网”。违反上述声明者,本网将追究其相关法律责任。

除来源署名为重庆日报稿件外,其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考并自行核实。

相关新闻
网站首页| 重报集团| 关于我们| 广告业务| 投稿信箱

Copyright © 2000-2022 CQNEWS Corporation, All Rights Reserved.

重庆日报版权所有 未经书面授权 不得复制或建立镜像

地址:重庆市渝北区同茂大道416号 邮编:401120 广告招商:023-63907707 传真:023-63907104 举报电话:023-63823333   违法和不良信息举报中心热线:12377

互联网新闻信息服务许可证编号50120180001 互联网出版许可证号:(署)网出证(渝)字002号  渝ICP备17015920号

渝公网安备 50011202500747号