FengJiaChunFromSYSU

100个自然语言处理数据集

转自：http://baijiahao.baidu.com/s?id=1599152090408194792&wfr=spider&for=pc

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表（原始未结构化的文本数据），快去按图索骥下载数据自己研究吧！

github地址：https://github.com/niderhoff/nlp-datasets/blob/master/README.md

数据集

Apache软件基金会公开邮件档案：截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。（200 GB）http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

博主原创语料库：包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。（298 MB）http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

亚马逊美食评论[Kaggle]：包含亚马逊用户在2012年10月前留下的568,454条食评。（240MB）https://www.kaggle.com/snap/amazon-fine-food-reviews亚马逊评论：斯坦福收集了3500万条亚马逊评论。（11GB）https://snap.stanford.edu/data/web-Amazon.htmlArXiv上：所有收录论文全文（270GB）+源文件（190GB）http://arxiv.org/help/bulk_data_s3ASAP自动作文评分[Kaggle]：在本次比赛中，有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息，而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分，并采用双评分制。（100MB）https://www.kaggle.com/c/asap-aes/dataASAP简答题评分[Kaggle]：每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息，而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分，并采用双评分制。（35MB）https://www.kaggle.com/c/asap-sas/data政治社交媒体分类：按内容分类来自政客的社交媒体消息。（4MB）https://www.crowdflower.com/data-for-everyone/CLiPS文体学研究（CSI）语料库：每年扩展两种类型的学生写作：文章和综述。这个语料库的目的主要在于文体学研究，当然也可用于其他研究。（数据集需要申请获得）http://www.clips.uantwerpen.be/datasets/csi-corpusClueWeb09 FACC：带有Freebase注释的ClueWeb09（72GB）http://lemurproject.org/clueweb09/FACC1/

ClueWeb11 FACC：带有Freebase注释的ClueWeb11（92GB）http://lemurproject.org/clueweb12/FACC1/常见爬虫语料库：由超过50亿个网页（541TB）爬虫数据构成。http://aws.amazon.com/de/datasets/common-crawl-corpus/

康奈尔电影对话语料库（Cornell Movie Dialog Corpus）：包含大量丰富的元数据，从原始电影剧本中提取的对话集合：617部电影，10,292对电影人物之间的220,579次会话交流。（9.5MB）http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html企业信息：分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息（关于公司或其活动的客观陈述），对话（回复用户等）或行动（要求投票或要求用户点击链接等的信息）。（600KB）http://aws.amazon.com/de/datasets/common-crawl-corpus/Crosswikis：关联英语短语与维基百科文章的数据库。（11GB）http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。（17GB）http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedicDeath Row：自1984年以来处决的每个犯人的遗言。（HTML表格）http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.htmlDel.icio.us：delicious.com上的125万个书签。http://arvindn.livejournal.com/116137.html社交媒体上的灾难推文：1万条推文，注释了是否涉及灾难事件。（2MB）https://www.crowdflower.com/data-for-everyone/经济新闻相关文章：确定新闻文章与美国经济是否相关，如果相关，文章的基调是什么。时间范围从1951年到2014年。（12MB）https://www.crowdflower.com/data-for-everyone/安然公司电子邮件数据：包含1,227,255封电子邮件，其中493,384个附件覆盖151位管理者。（210GB）http://aws.amazon.com/de/datasets/enron-email-data/事件注册：免费工具，可以实时访问全球100,000个媒体的新闻文章。有API接口。（查询工具）http://eventregistry.org/Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]：现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。（200MB）https://www.kaggle.com/therohk/examine-the-examiner联邦采购数据中心的联邦合同（USASpending.gov）：来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。（180GB）http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/Flickr个人分类法：个人标签的树结构数据集。（40MB）http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.htmlFreebase数据库：Freebase中所有当前事实和推断的数据库（26GB）http://aws.amazon.com/de/datasets/freebase-data-dump/Freebase简单主题库：Freebase中每个主题中基本的可识别事实的数据库（5GB）http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/Freebase四元库：Freebase中所有当前事实和推断的数据库[LZ1]。（35GB）http://aws.amazon.com/de/datasets/freebase-quad-dump/GigaOM Wordpress挑战赛[Kaggle]：博客文章，元数据，用户喜好。（1.5GB）https://www.kaggle.com/c/predict-wordpress-likes/data谷歌图书n元语法：也可通过亚马逊S3上hadoop格式文件获取。（2.2TB）http://storage.googleapis.com/books/ngrams/books/datasetsv2.html谷歌网页5元语法：含有英文单词的n元序列，及其观测频率计数（24GB）https://catalog.ldc.upenn.edu/LDC2006T13Gutenberg电子书清单：带注释电子书清单（2MB）http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs加拿大议会文本块：来自加拿大第36届议会正式记录（Hansards）的130万标准文本块（句子或更小的片段）。（82MB）http://www.isi.edu/natural-language/download/hansard/哈佛图书馆：超过1,200万册哈佛图书馆所藏资料的书目记录，包括书籍，期刊，电子资源，手稿，档案资料，乐谱，音频，视频和其他资料。（4GB）http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset仇恨言论识别：志愿人查看短文，并确定它是否a）包含仇恨言论，b）冒犯性的，但没有仇恨言论，或c）一点也没有冒犯性。包含近15千行，每个文本字符串有三个志愿者判断。（3MB）https://github.com/t-davidson/hate-speech-and-offensive-language希拉里克林顿的电子邮件[Kaggle]：整理了近7,000页克林顿的电子邮件。（12MB）https://www.kaggle.com/kaggle/hillary-clinton-emails家得宝公司产品搜索关联[Kaggle]：包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签，家得宝公司将搜索/产品配对众包给多个评分者打分。（65MB）https://www.kaggle.com/c/home-depot-product-search-relevance/data确定文本中的关键短语：问题/答案对和文本组成；判断上下文文本是否与问题/答案相关。（8MB）https://www.crowdflower.com/data-for-everyone/美国电视节目‘危险’：216930个过去出现在‘危险’节目的问题合集。（53MB）http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/200k英语明文笑话：208000种不同来源的明文笑话存档。https://github.com/taivop/joke-dataset欧洲语言机器翻译：（612MB）http://statmt.org/wmt11/translation-task.html#download材料安全数据表：230000材料安全数据表。（3GB）http://aws.amazon.com/de/datasets/material-safety-data-sheets/百万新闻头条-澳大利亚ABC[Kaggle]：由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。（56MB）https://www.kaggle.com/therohk/million-headlinesMCTest：可免费使用的660个故事集和相关问题，可用于研究文本机器理解、问答（1MB）。http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.htmlNegra：德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html新闻头条-印度时报[Kaggle]：印度时报发表的从2001到2017年的270万类新闻头条。（185MB）https://www.crowdflower.com/data-for-everyone/新闻文章/维基百科页面配对：志愿者阅读一篇短文，被问及最匹配的两篇维基百科文章是哪一篇。（6MB）https://www.kaggle.com/benhamner/nips-2015-papers/version/22015 NIPS论文（版本2）[Kaggle]：所有2015年nips论文全文。（335MB）https://www.kaggle.com/benhamner/nips-2015-papers/version/2纽约时报脸谱网数据：所有纽约时报在脸谱网的帖子。（5MB）http://minimaxir.com/2015/07/facebook-scraper/全球新闻一周供稿[Kaggle]：在2017年8月的一周，用20多种语言全球发表的140万篇新闻事件数据集。（115MB）https://www.kaggle.com/therohk/global-news-week句子/概念对的正确性：志愿者读关于两个概念的句子。例如，“狗是一种动物”，或者“船长可以和主人有同样的意思”，然后他们被问到这个句子是否正确，并将其1-5评级。（700KB）https://www.crowdflower.com/data-for-everyone/公开图书馆数据库：公开图书馆中所有记录的修改合集。（16GB）https://openlibrary.org/developers/dumps人物语料库：收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。（获得需要申请）http://www.clips.uantwerpen.be/datasets/personae-corpusReddit评论：截至2015年7月，reddit论坛所有公开的评论。共计17亿条评论。（250GB）https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/Reddit评论（2015年5月）：Kaggle子数据集（8GB）https://www.kaggle.com/reddit/reddit-comments-may-2015Reddit提交语料库：2006年1月-2015年8月31日所有公开可得的Reddit提交内容。（42GB）https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/路透社语料库：一个包含路透社新闻报道的数据集，用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1，它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。（2.5GB）https://trec.nist.gov/data/reuters/reuters.htmlSaudiNewsNet：31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。（2MB）https://github.com/ParallelMazen/SaudiNewsNet垃圾短信数据集：5574条被标记为合法/不合法的、未经编码的真实英文短信消息。（200KB）http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/《南方公园》数据集：csv格式文件，包含季、集、角色和台词的剧本信息。（3.6MB）https://github.com/BobAdamsEE/SouthParkDataStackoverflow：730万条stackoverflow问题和其他stackexchange（问答工具）上的问答。http://data.stackexchange.com/Twitter的Cheng-Caverlee-lee用户定位数据集：2009年9月-2010年1月的推文定位。（400MB）https://archive.org/details/twitter_cikm_2010Twitter上关于新英格兰爱国者队“放气门”事件的舆情：在2015年超级碗比赛前，人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情，以便评估公众对整个事件的感受。（2MB）https://www.figure-eight.com/data-for-everyone/Twitter上对于左倾相关事件的舆情分析：关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文，推文将根据内容推断被分类为For（支持）、Against（反对）、Neutral（中立）或None of the above（以上都不是）。（600KB）https://www.figure-eight.com/data-for-everyone/Twitter的Sentiment140（情感分析数据集）：关于品牌/关键词的推文，网站包括论文和研究想法。（77MB）http://help.sentiment140.com/for-students/Twitter上关于自动驾驶汽车的舆情分析：贡献者们阅读推文后，将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关，他们也要标记出来。（1MB）https://www.figure-eight.com/data-for-everyone/Twitter上定位于东京的推文：20万条来自东京的推文。（47MB）http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/Twitter上定位于英国的推文：17万条来自英国的推文。（47MB）http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/Twitter上定位于美国的推文：20万条来自美国的推文。（45MB）http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/Twitter上对于美国各大航空公司的态度（Kaggle数据集）：这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文，贡献者们将其分类为积极、消极和中立，对于那些分类为消极态度的推文，还会给出原因（例如“飞机晚点”或“服务态度差”等）。（2.5MB）https://www.kaggle.com/crowdflower/twitter-airline-sentiment基于新闻标题的美国经济表现：根据新闻标题头条和摘要，对新闻和美国经济的相关性进行排序。（5MB）https://www.figure-eight.com/data-for-everyone/城市词典（美国在线俚语词典）里的单词和定义：一个经过清洗的CSV语料库，包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。（238MB）https://www.kaggle.com/therohk/urban-dictionary-words-dataset亚马逊的Wesbury Lab Usenet语料库：2005-2010的47,860个英文新闻组的邮件匿名汇编（40GB）http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/维基百科的Wesbury Lab语料库：2010年4月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料（如导航文本等）。语料库是未经标记的原始文本，它被用于Stanford NLP。http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.htmlStanford NLP跳转的链接：https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5维基百科提取（WEX）：经处理后的英文版维基百科（66GB）http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/维基百科的XML格式数据：所有维基媒体（Wikimedia）的完整复制，以维基文本元（wikitext source）和元数据的形式嵌入到XML中。（500GB）http://aws.amazon.com/de/datasets/wikipedia-xml-data/雅虎问答中的综合问题与答案：截至2007年10月25日的雅虎问答语料库，包含4,483,032条问答。（3.6GB）http://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎问答中用法语提问的问题：2006-2015年雅虎问答语料库的子数据集，包含170万条法语问答。（3.8GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎问答中的关于“如何做”的问题[LZ2]：根据语言属性从2007年10月25日雅虎问答语料库选出的子集，包含142,627条问答。（104MB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎从公开网页中提取的HTML格式页面：包含少量复杂HTML格式的页面和267万个复杂格式的页面。（50+ GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎从公开网页页面中提取的元数据：1亿个RDF格式数据的三元组（2GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎的N元语法模型表示（N-Gram Representations）数据：该数据集包含N元语法表示数据，这些数据可以用于IR研究中常见的查询重写（query rewriting）任务，也可以用于NLP研究中常见的词语和句子相似性分析任务。（2.6GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎的N元语法模型数据（版本2.0）：n元语法模型数据（n=1-5），从一个包含1460万个文档（1.26亿条不重复的语句，34亿个运行词）的语料库中提取，这些文档是从12000个面向新闻的站点里爬取的（12 GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎搜索日志的相关性判断：匿名雅虎搜索日志的相关性判断（1.3GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=l雅虎的英语维基百科语义注释快照：包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文维基百科，共有1,490,688个条目。（6GB）https://webscope.sandbox.yahoo.com/catalog.php?datatype=lYelp：包含餐厅排名和220万条评论https://www.yelp.com/datasetYoutube：170万条YouTube视频描述（torrent格式）https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

资源

优秀的公开NLP数据集（包含更多清单）https://github.com/awesomedata/awesome-public-datasets亚马逊公开数据集https://aws.amazon.com/de/datasets/CrowdFlower数据集（包含大量小调查和对特定任务以众包方式获得的数据）https://www.crowdflower.com/data-for-everyone/Kaggle数据集https://www.kaggle.com/datasetsKaggle比赛（请确保这些kaggle比赛数据可以在比赛之外使用）https://www.kaggle.com/competitions开放图书馆https://openlibrary.org/developers/dumpsQuora（大部分为已标注好的语料库）https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpusreddit数据集（无数个数据集，大部分由业余爱好者爬取，但数据的整理和许可可能不够规范）https://www.reddit.com/r/datasetsRs.io：也是一个很长的数据集清单http://rs.io/100-interesting-data-sets-for-statistics/Stackexchange：公开数据http://opendata.stackexchange.com/斯坦福NLP组（大部分为已标注的语料库和TreeBanks，以及实用的NLP工具）https://nlp.stanford.edu/links/statnlp.html雅虎研究院的数据集汇总Webscope（还包含了使用了这些数据的论文列表）http://webscope.sandbox.yahoo.com/

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
《分片终章的哈希裂痕：藏在数据拼接里的隐形逻辑》前端
在大文件分片传输里，有一个令人费解的现象：当所有分片的校验都显示正常，拼接后的整体文件却与源文件的哈希值不符，而问题往往精准地指向最后一片。这并非偶然的技术故障，而是数据传输链条中多重隐形逻辑交织的必然结果，如同钟表的齿轮在最后一圈突然出现难以察觉的错位。文件被切割成固定大小的分片时，最后一片往往是规则的例外。它如同拼图中形状特异的收尾piece，尺寸可能小于其他分片，却承担着衔接整体的关键作用。
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Leetcode 3604. Minimum Time to Reach Destination in Directed Graph Espresso Macchiato leetcode笔记 leetcode 3604 leetcode medium leetcode双周赛160 BFS 广度优先遍历最优路径
Leetcode3604.MinimumTimetoReachDestinationinDirectedGraph1.解题思路2.代码实现题目链接：3604.MinimumTimetoReachDestinationinDirectedGraph1.解题思路这一题思路上就是一个广度优先遍历，我们不断考察当前时间点以及位置的情况下，下一个点可行的位置，然后考察最近的时间点能够到达的位置，遍历全部可能
vue keep-alive标签的运用
keep-alive，想必大家都不会很陌生，在一些选项卡中会使用到。其实，它的作用大概就是把组件的数据给缓存起来。比如果我有一个选项卡，标签一，标签二，标签三。现在，我需要实现，当我在标签一的表单中输入内容后，点击标签二，再回到标签一，表单的内容依然存在。如果按以往的做法，不使用keep-alive，那是不能实现的。然而，我们只需要在选项卡的内容最外层包一个keep-alive标签即可。但这儿有一
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

100个自然语言处理数据集

你可能感兴趣的:(100个自然语言处理数据集)