用于儿童的Web浏览器的显式词过滤机制外文翻译资料

 2022-11-25 14:39:17

Explicit Words Filtering Mechanism

on Web Browser for Kids

Nurul Athirah Binti Suliman Hazinah Binti Kutty Mammi

Abstract:Kids are introduced to and participated on internet usage from a very young age. Unfortunately, while they can build their skills to use technology quite speedily, this is not the case for their language prowess. There are double meaning words with one of its meaning being indecent or of an adult nature. As most kids cannot distinguish this, there are times when their innocent search leads them to unsuitable sites for their age. Furthermore, as most word filters are not equipped to efficiently filter these words, this problem is compounded. We propose a browser extension that can effectively and accurately filter profanity, bad words and words with double meaning. This solution can better provide a safer environment for kids to traverse through the Internet.

Keywords:component: bad words; kids; extension.

III. FILTERING

According to Whitenton [2], filter is one tool that can analyze a given set of contents which can exclude items that do not meet certain or selected criteria. Filtering also may help users narrow the scope from a large set of search results, but only if the filter matches the selected criteria that have been set in the extension of the web browser. These days, filtering is most crucial during web surfing especially for teenagers and kids. Parental supervision is also important to ensure their kids stay safe in cyberspace.

B. Content Filtering

Content filtering allows the request but the response is inspected at the proxy server [7]. Then, the actual payload of the packet is checked to determine if the payload contains anything that meets certain criteria. Payload is data that being carried out within a packet or other transmission unit [8]. Allow and deny decisions are done after the actual payload is checked.Content filtering gives many added advantages to users as it provides the ability to block certain viruses, e-mail attachments,advertisements, cookies, and also pop-ups.

The content of the pages can be examined without knowing the serverrsquo;s origin and certain contents of the pages can be removed which are intentionally allowed by URL blocking.These two famous filtering techniques, URL blocking and content filtering complement to each other. They offer a more complete Internet access solution for users.Content filtering does not always ensure accurate results [9].Sometimes content filtering will block a website that is not causing any issues in the workplace.

IV. WEB FILTERING TECHNIQUES AND APPROACHES

Current implementations of Web filtering techniques are blacklisting or whitelisting, keyword searching and rating systems. Blacklist and whitelist are Web site list that must be allowed or blocked [5]. Blacklist will examine web sites manually and decide whether the website can be classified as a forbidden class member such as “Violence”. Sites also included in blacklists if their domain contains keywords such as “sex”. A list of allowed sites will be generated and other than that will be blocked. For blacklisting or whitelisting has an advantage of speed but also give some drawbacks which are costly to generate and hard to maintain.

Other than that, keyword filtering is used to block website based on words with keyword dictionary. If a page consists of a certain number of forbidden keywords, then the website cannot be accessed. This filtering technique is simple to implement but the disadvantages for this filtering is prone to spelling mistakes that can be used to bypass the protection [5]. Rating system such as PICS (Platform for Internet Content Selection) can generate rating for websites either in self-rating or third-party rating.Publishers of web page generate their own rating information for self-rating. While in third-party rating, independent third party is used to evaluate the web site and publish the results. In addition, rating system in web filtering generally does not provide a reliable and accurate source of information. Rating or labeling is the evaluation of the content of the website in terms of certain characteristics and factors such as sex and language[5].

Lastly, intelligent content analysis is one of the web filtering techniques which classify websites based on semantic understanding of context in terms of keyword they appear. The disadvantage of this filtering technique is that it is computer processing intensive. So, each technique has some disadvantages. Content analysis can be used by a web filtering system to classify automatically website through their contents[14].

  1. Web Filtering Using Text Classification

Web Filtering by using text classification is widely used these days. This approach is used to determine the pages that must be blocked. Automatic text classification has been growing rapidly due to the increasing number of text documents in recent years [5]. Automatic text classification is one of a supervised learning task that assign predefined category labels to a new document by comparing it with a training set of labeled documents.

There are many approaches to text classification which are Naiuml;ve Bayes, K-Nearest Neighbour (KNN), Decision Tree (DTree), Support Vector Machines (SVM) and Neural Network [5]. Naiuml;ve Bayes (NB) are widely used because of this classifier is simple and provide computational efficiency. Relative frequency of words in the document will be used as word probabilities and these probabilities are used to assign a category to the document. Naiuml;ve Bayes also assumes that the probability of words by a given category is independent for different value of words.

K-Nearest Neighbour (KNN) is one of statistical approach which is the most accurate methods of classifying many documents.

剩余内容已隐藏,支付完成后下载完整资料


用于儿童的Web浏览器的显式词过滤机制

Nurul Athirah Binti Suliman Hazinah Binti Kutty Mammi

摘要:孩子们从很小的时候就被介绍并参与了互联网的使用。不幸的是,尽管他们可以很快掌握使用技术的能力,但他们的语言能力并非如此。有双重含义的词语,其意思之一是不雅的或是成人性质的。由于大多数孩子无法区分这一点,有时他们无知的搜索导致他们进了不适合他们年龄的网站。此外,由于大多数字词过滤器没有配备有效地过滤这些词汇,所以这个问题比较复杂。我们提出了一种浏览器扩展,可以有效准确地过滤不敬,不雅的字词和双重含义的单词。这个解决方案可以更好地为孩子提供一个浏览互联网的更安全的环境。

关键词:组件;敏感词;孩子;扩展

III. 过滤

据Whitenton [2]所说,过滤器是一种工具,可以分析给定的一组内容,这些内容可以排除不符合特定或选定标准的项目。过滤也可以帮助用户从一大组搜索结果中缩小范围,但只有当过滤器与在网络浏览器的扩展中设置的选定标准匹配上。现在,在网上冲浪过程中,过滤是最为至关重要的,尤其是对青少年而言。父母监督也是重要的,以确保他们的孩子处在一个网络安全的空间。

B.内容过滤

内容过滤是被允许的请求,但是是在代理服务器[7]上做出检查响应的。然后,检查包的实际有效载荷,以确定有效载荷是否包含符合某些标准的内容。有效负载是在数据包或其他传输单元内执行的数据[8]。内容过滤为用户提供了许多附加优势,因为它可以阻止某些病毒,电子邮件附件,广告,Cookie和弹出窗口。

在不知道服务器的起源的情况下也可以检查页面的内容,并且可以移除通过URL阻止有意允许的页面的某些内容。这两种著名的过滤技术(URL阻止和内容过滤)相互补充。它们为用户提供了一个更完整的互联网访问解决方案。内容过滤并不总是能够确保准确的结果[9]。有时,内容过滤会阻止一个网站在工作区域中不造成任何问题。

IV. 网络过滤技术与方法

Web过滤技术的当前实现是运用黑名单或白名单,关键字搜索和评级系统的方式。 黑名单和白名单是必须允许或阻止的网站列表[5]。黑名单将手动检查网站,并决定网站是否可以被归类为禁止一类的成员,比如“暴力”。如果网站包含“sex”等关键字,网站也会包含在黑名单中。一系列被允许的站点列表将被生成,除此之外的其他站点将被阻止。对于黑名单或白名单有一个速度优势,但也有一些缺点,就是生成费用昂贵以及难以维护。

除此之外,关键字过滤被用于根据关键词词典内的单词来阻止网站。如果一个页面包含一定数量的被禁止的关键字,那么该网站将无法访问。这种过滤技术很容易实现,但是这种过滤的缺点是很容易出现拼写错误来绕过这层保护[5]。例如PICS(互联网内容选择平台)等评级系统可以为自己的网站或第三方评级生成网站评级。网页的发布者会生成自己的评级信息以进行自我评估。在第三方评级中,独立第三方用于评估网站并发布结果。另外,网页过滤中的评分系统通常不提供可靠和准确的信息来源。评分或标签是根据某些特征和因素(如性别和语言)对网站内容进行评估[5]。

最后,智能内容分析是网页过滤技术之一,它根据关键词的语义理解对网站进行分类。 这种过滤技术的缺点是计算机处理过于密集。所以,每种技术都有一些缺点。内容分析可以被网页过滤系统用来自动分类网站内容[14]。

A.网络过滤使用文本分类

通过使用文本分类的网络过滤现在被广泛使用。 这种方法用于确定必须被阻止的页面。由于近年来文本文档数量的增加,自动文本分类迅速增长[5]。自动文本分类是监督式学习任务之一,它通过将预定义的类别标签与标记文档的训练集进行比较,为新文档分配预定义的类别标签。

文本分类方法有朴素贝叶斯,K近邻算法(KNN),决策树(DTree),支持向量机(SVM)和神经网络[5]。朴素贝叶斯(NB)被广泛使用,因为这种分类器很简单,并提供计算效率。文档中单词的相对频率将用作单词概率,这些概率用于为文档分配一个类别。朴素贝叶斯还假设,对于不同的单词的值来说,通过给定类别的单词概率是独立的。

K近邻算法(KNN)是统计的方法之一,它是对许多文档进行分类的最准确的方法。给定一个文件,KNN将从训练集中选择最相似的文件,并使用这些文件的类别对被分类文件的类别进行分类。文档由单词的向量和使用欧几里德距离测量的两个文档之间的相似度表示。决策树的另一个分类器是机器学习方法,并基于训练数据自动归纳分类树。在决策树中,每个内部节点通过对属性进行测试来评估,并且节点的传出分支对应于测试结果。与决策树中的类别相关的部分是叶。文档的分类从根节点开始,然后访问内部节点,直到到达叶。文档类别是最终节点的类别。

另外,支持向量机(Support Vector Machine,SVM)也是一种应用于文本分类的分类器。SVM中使用决策表面将数据点分成类。训练文档表示为向量,算法将确定超平面以分离不同类别的训练文档。测试文档将根据其超平面的位置进行分类。表5显示了朴素贝叶斯,支持向量机和决策树之间的差异。

功能

朴素贝叶斯

支持向量机

决策树

速度

非常快

精度

在许多领域都准确

在许多领域都准确

在许多领域都准确

透明度

无黑匣子规则

无黑匣子规则

有黑匣子规则

表 5: 朴素贝叶斯,支持向量机和决策树之间的差异 (改编自[15])

朴素贝叶斯是学习和预测数据中速度最快的分类器之一。这三个分类器的准确性在很多领域都是准确的。最后,只有决策树有黑匣子规则,而其他分类器没有黑匣子规则。

B.方法选择

使用较少的项目训练数据集,近邻方法[14]和支持向量机将会更有效,而支持向量机是目前最好的分类算法之一[16]。因此,在许多分类器中,支持向量机被选择用于过滤明确的单词。

支持向量机使用一个进程来找到一个决策面,它可以在多维特征空间中分离正面的用例和负面的用例[16]。向量机中的训练文档可以被表示为向量。

以下图3显示了超平面或称为SVM的支持向量。

图3: 支持向量机的超平面(Chen amp; Hshieh, 2006)

用粗线表示的超平面被分成两类,并由公式(w.x) b = 0定义;其中w是权重矢量,b是定义超平面从原点偏移的偏差。实现的SVM的优点是实现的误码率是最小化的,因为它使用高维空间来寻找超平面来执行二进制分割,并且它在处理大量训练示例时是高效的[17]。

A.数据收集和特征选择

数据采集​​是网页过滤过程的初始阶段。在这个阶段,通过对孩子最近使用的一语双关的词汇进行调查和研究来收集数据。数据收集后,数据将被分类到不同的类别。下一阶段将把这些分类数据用于下一个过程。

在特征选择阶段,通过使用术语加权方案来选择适当的术语特征。在机器学习和统计中,特征选择或称为变量选择,特征减少,属性选择或变量子集选择是选择相关特征子集的技术[6]。它用于构建强大的学习模型。

特征选择也基于交叉验证数据集分类错误的反应,这是由于去除单个特征和特征选择造成的分类错误,是特征提取的特例之一[18]。文本表示阶段中的每个单词都被视为术语特征。采用期权加权方法计算统计权重法,得到期限特征与文献类别的关系。

B.术语加权方案和分类

TFIDF是一个数字统计量,它显示了一个词对文档[6]的重要性.TFIDF实际上是从TF和IDF中导出的,TF和IDF是词汇加权方案中非常基本的标准。TFIDF值将与单词在文档中出现的次数成比例地增加。术语频率将测量文档中经常出现的术语,反向文档频率将测量该术语的重要性。例如,“is”和“the”等术语可能会出现几次而不是重要的术语。因此,很少使用的术语将着重于衡量文档中术语的重要性。 TFIDF权衡该术语或称为每个文档的向量组件,这需要几个步骤。

TFIDF的第一步是计算文档中的术语频率,使术语数量出现在文档中,并确定出现频率更高的术语,这个术语变得更加重要。逆文档频率用于衡量文档中常见或罕见的术语。之后,将使用支持向量机(SVM)对分类过程进行分类以对不需要的网页进行分类。

一个扩展是一个小的软件程序,可以修改和功能在Web浏览器中得到增强。扩展也没有什么可以实现的用户界面。除此之外,它会将所有文件捆绑到一个文件中,以便用户可以下载并使用此扩展程序。扩展程序可以实现过滤图像,文本或网站。在这项研究中,将建立一个扩展部分来过滤最近被孩子们使用的敏感词。

V. 结论

本文研究并解释了互联网搜索,以及具有双重意义的单词如何轻易将孩子带到不适当的网站。我们还考虑了一些可用于过滤不良词汇的不同技术,以找到合适的词汇来实现为孩子始终适当的搜索结果的研究目标。这些技术是根据用户需求提高数据显示准确性的意图来选择的。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22542],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。