泥豆

大数据学习资源汇总

编译自：https://github.com/onurakpolat/awesome-bigdata

当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。

为了帮助大家更好深入了解大数据，云栖社区组织翻译了GitHub Awesome Big Data资源，供大家参考。本资源类型主要包括：大数据框架、论文等实用资源集合。

资源列表：

关系数据库管理系统（RDBMS）
框架
分布式编程
分布式文件系统
文件数据模型
Key -Map 数据模型
键-值数据模型
图形数据模型
NewSQL数据库
列式数据库
时间序列数据库
类SQL处理
数据摄取
服务编程
调度
机器学习
基准测试
安全性
系统部署
应用程序
搜索引擎与框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
嵌入式数据库
商业智能
数据可视化
物联网和传感器
文章
论文
视频

关系数据库管理系统（RDBMS）

SQLServer：世界最有活力的数据库；
MySQL：世界最流行的开源数据库；
PostgreSQL：世界最先进的开源数据库；
Oracle 数据库：对象-关系型数据库管理系统。

框架

Apache Hadoop：分布式处理架构，结合了 MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）；
Tigon：高吞吐量实时流处理框架。

分布式编程

AddThis Hydra ：最初在AddThis上开发的分布式数据处理和存储系统；
AMPLab SIMR：用在Hadoop MapReduce v1上运行Spark；
Apache Beam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言；
Apache Crunch：一个简单的Java API，用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务；
Apache DataFu：由LinkedIn开发的针对Hadoop and 和Pig的用户定义的函数集合；
Apache Flink：具有高性能的执行时间和自动程序优化；
Apache Gora：内存中的数据模型和持久性框架；
Apache Hama：BSP（整体同步并行）计算框架；
Apache MapReduce ：在集群上使用并行、分布式算法处理大数据集的编程模型；
Apache Pig ：Hadoop中，用于处理数据分析程序的高级查询语言；
Apache REEF ：用来简化和统一低层大数据系统的保留性评估执行框架；
Apache S4 ：S4中流处理与实现的框架；
Apache Spark ：内存集群计算框架；
Apache Spark Streaming ：流处理框架，同时是Spark的一部分；
Apache Storm ：Twitter流处理框架，也可用于YARN；
Apache Samza ：基于Kafka和YARN的流处理框架；
Apache Tez ：基于YARN，用于执行任务中的复杂DAG（有向无环图）；
Apache Twill ：基于YARN的抽象概念，用于减少开发分布式应用程序的复杂度；
Cascalog：数据处理和查询库；
Cheetah ：在MapReduce之上的高性能、自定义数据仓库；
Concurrent Cascading ：在Hadoop上的数据管理/分析框架；
Damballa Parkour ：用于Clojure的MapReduce库；
Datasalt Pangool ：可选择的MapReduce范例；
DataTorrent StrAM ：为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的影响，实现分布式、异步、实时的内存大数据计算；
Facebook Corona ：为Hadoop做优化处理，从而消除单点故障；
Facebook Peregrine ：MapReduce框架；
Facebook Scuba ：分布式内存数据存储；
Google Dataflow ：创建数据管道，以帮助其分析框架；
Netflix PigPen ：为MapReduce，用于编译成Apache Pig；
Nokia Disco ：由Nokia开发的MapReduc获取、转换和分析数据；
Google MapReduce ：MapReduce框架；
Google MillWheel ：容错流处理框架；
JAQL ：用于处理结构化、半结构化和非结构化数据工作的声明性编程语言；
Kite ：为一组库、工具、实例和文档集，用于使在Hadoop的生态系统上建立系统更加容易；
Metamarkets Druid ：用于大数据集的实时e框架；
Onyx ：分布式云计算；
Pinterest Pinlater ：异步任务执行系统；
Pydoop ：用于Hadoop的Python MapReduce和HDFS API；
Rackerlabs Blueflood ：多租户分布式测度处理系统；
Stratosphere ：通用集群计算框架；
Streamdrill ：用于计算基于不同时间窗口的事件流的活动，并找到最活跃的一个；
Tuktu ：易于使用的用于分批处理和流计算的平台，通过Scala、 Akka和Play所建；
Twitter Scalding：基于Cascading，用于Map Reduce工作的Scala库；
Twitter Summingbird ：在Twitter上使用Scalding和Storm串流MapReduce；
Twitter TSAR ：Twitter上的时间序列聚合器。

分布式文件系统

Apache HDFS：在多台机器上存储大型文件的方式；
BeeGFS：以前是FhGFS，并行分布式文件系统；
Ceph Filesystem：设计的软件存储平台；
Disco DDFS：分布式文件系统；
Facebook Haystack：对象存储系统；
Google Colossus：分布式文件系统(GFS2)；
Google GFS：分布式文件系统；
Google Megastore：可扩展的、高度可用的存储；
GridGain：兼容GGFS、Hadoop内存的文件系统；
Lustre file system：高性能分布式文件系统；
Quantcast File System QFS：开源分布式文件系统；
Red Hat GlusterFS：向外扩展的附网存储（Network-attached Storage）文件系统；
Seaweed-FS：简单的、高度可扩展的分布式文件系统；
Alluxio：以可靠的存储速率在跨集群框架上文件共享；
Tahoe-LAFS：分布式云存储系统；

文件数据模型

Actian Versant：商用的面向对象数据库管理系统；
Crate Data：是一个开源的大规模可扩展的数据存储，需要零管理模式；
Facebook Apollo：Facebook的Paxos算法，类似于NoSQL数据库；
jumboDB：基于Hadoop的面向文档的数据存储；
LinkedIn Espresso：可横向扩展的面向文档的NoSQL数据存储；
MarkLogic：模式不可知的企业版NoSQL数据库技术；
MongoDB：面向文档的数据库系统；
RavenDB：一个事务性的，开源文档数据库；
RethinkDB：支持连接查询和群组依据等查询的文档型数据库。

Key Map 数据模型

注意：业内存在一些术语混乱，有两个不同的东西都叫做“列式数据库”。这里列出的有一些是围绕“key-map”数据模型而建的分布式、持续型数据库，其中所有的数据都有（可能综合了）键，并与映射中的键-值对相关联。在一些系统中，多个这样的值映射可以与键相关联，并且这些映射被称为“列族”（具有映射值的键被称为“列”）。

另一组也可称为“列式数据库”的技术因其存储数据的方式而有别于前一组，它在磁盘上或在存储器中——而不是以传统方式，即所有既定键的键值都相邻着、逐行存储。这些系统也彼此相邻来存储所有列值，但是要得到给定列的所有值却不需要以前那么繁复的工作。

前一组在这里被称为“key map数据模型”，这两者和Key-value 数据模型之间的界限是相当模糊的。后者对数据模型有更多的存储格式，可在列式数据库中列出。若想了解更多关于这两种模型的区分，可阅读Daniel Abadi的博客：Distinguishing two major types of Column Stores。

Apache Accumulo：内置在Hadoop上的分布式键/值存储；
Apache Cassandra：由BigTable授权，面向列的分布式数据存储；
Apache HBase：由BigTable授权，面向列的分布式数据存储；
Facebook HydraBase：Facebook所开发的HBase的衍化品；
Google BigTable：面向列的分布式数据存储；
Google Cloud Datastore：为完全管理型的无模式数据库，用于存储在BigTable上非关系型数据；
Hypertable：由BigTable授权，面向列的分布式数据存储；
InfiniDB：通过MySQL的接口访问，并使用大规模并行处理进行并行查询；
Tephra：用于HBase处理；
Twitter Manhattan：Twitter的实时、多租户分布式数据库。

键-值数据模型

Aerospike：支持NoSQL的闪存优化，数据存储在内存。开源，“'C'（不是Java或Erlang）中的服务器代码可精确地调整从而避免上下文切换和内存拷贝”。
Amazon DynamoDB：分布式键/值存储，Dynamo论文的实现；
Edis：为替代Redis的协议兼容的服务器；
ElephantDB：专门研究Hadoop中数据导出的分布式数据库；
EventStore：分布式时间序列数据库；
GridDB：适用于存储在时间序列中的传感器数据；
LinkedIn Krati：简单的持久性数据存储，拥有低延迟和高吞吐量；
Linkedin Voldemort：分布式键/值存储系统；
Oracle NoSQL Database：Oracle公司开发的分布式键值数据库；
Redis：内存中的键值数据存储；
Riak：分散式数据存储；
Storehaus：Twitter开发的异步键值存储的库；
Tarantool：一个高效的NoSQL数据库和Lua应用服务器；
TiKV：由Google Spanner和HBase授权，Rust提供技术支持的分布式键值数据库；
TreodeDB：可复制、共享的键-值存储，能提供多行原子写入。

图形数据模型

Apache Giraph：基于Hadoop的Pregel实现；
Apache Spark Bagel：可实现Pregel，为Spark的一部分；
ArangoDB：多层模型分布式数据库；
DGraph：一个可扩展的、分布式、低时延、高吞吐量的图形数据库，旨在为Google生产水平规模和吞吐量提供足够的低延迟，用于TB级的结构化数据的实时用户查询；
Facebook TAO：TAO是facebook广泛用来存储和服务于社交图形的分布式数据存储；
GCHQ Gaffer：GCHQ中的Gaffer是一个易于存储大规模图形的框架，其中节点和边缘都有统计数据；
Google Cayley：开源图形数据库；
Google Pregel ：图形处理框架；
GraphLab PowerGraph：核心C ++ GraphLab API和建立在GraphLab API之上的高性能机器学习和数据挖掘工具包的集合；
GraphX：Spark中的弹性分布式图形系统；
Gremlin：图形追踪语言；
Infovore：以RDF为中心的Map / Reduce框架；
Intel GraphBuilder：在Hadoop上构建大规模图形的工具；
MapGraph：用于在GPU上大规模并行图形处理；
Neo4j：完全用Java写入的图形数据库；
OrientDB：文档和图形数据库；
Phoebus：大型图形处理框架；
Titan：建于Cassandra的分布式图形数据库；
Twitter FlockDB：分布式图形数据库。

NewSQL数据库

Actian Ingres：由商业支持，开源的SQL关系数据库管理系统；
Amazon RedShift：基于PostgreSQL的数据仓库服务；
BayesDB：面向统计数值的SQL数据库；
CitusDB：通过分区和复制横向扩展PostgreSQL；
Cockroach：可扩展、地址可复制、交易型的数据库；
Datomic：旨在产生可扩展、灵活的智能应用的分布式数据库；
FoundationDB：由F1授意的分布式数据库；
Google F1：建立在Spanner上的分布式SQL数据库；
Google Spanner：全球性的分布式半关系型数据库；
H-Store：是一个实验性主存并行数据库管理系统，用于联机事务处理（OLTP）应用的优化；
Haeinsa：基于Percolator，HBase的线性可扩展多行多表交易库；
HandlerSocket：MySQL/MariaDB的NoSQL插件；
InfiniSQL：无限可扩展的RDBMS；
MemSQL：内存中的SQL数据库，其中有优化的闪存列存储；
NuoDB：SQL / ACID兼容的分布式数据库；
Oracle TimesTen in-Memory Database：内存中具有持久性和可恢复性的关系型数据库管理系统；
Pivotal GemFire XD：内存中低延时的分布式SQL数据存储，可为内存列表数据提供SQL接口，在HDFS中较持久化；
SAP HANA：是在内存中面向列的关系型数据库管理系统；
SenseiDB：分布式实时半结构化的数据库；
Sky：用于行为数据的灵活、高性能分析的数据库；
SymmetricDS：用于文件和数据库同步的开源软件；
Map-D：为GPU内存数据库，也为大数据分析和可视化平台；
TiDB：TiDB是分布式SQL数据库，基于谷歌F1的设计灵感；
VoltDB：自称为最快的内存数据库。

列式数据库

注意：请在键-值数据模型阅读相关注释。

Columnar Storage：解释什么是列存储以及何时会需要用到它；
Actian Vector：面向列的分析型数据库；
C-Store：面向列的DBMS；
MonetDB：列存储数据库；
Parquet：Hadoop的列存储格式；
Pivotal Greenplum：专门设计的、专用的分析数据仓库，类似于传统的基于行的工具，提供了一个列式工具；
Vertica：用来管理大规模、快速增长的大量数据，当用于数据仓库时，能够提供非常快的查询性能；
Google BigQuery ：谷歌的云产品，由其在Dremel的创始工作提供支持；
Amazon Redshift ：亚马逊的云产品，它也是基于柱状数据存储后端。

时间序列数据库

Cube：使用MongoDB来存储时间序列数据；
Axibase Time Series Database：在HBase之上的分布式时间序列数据库，它包括内置的Rule Engine、数据预测和可视化；
Heroic：基于Cassandra和Elasticsearch的可扩展的时间序列数据库；
InfluxDB：分布式时间序列数据库；
Kairosdb：类似于OpenTSDB但会考虑到Cassandra；
OpenTSDB：在HBase上的分布式时间序列数据库；
Prometheus：一种时间序列数据库和服务监测系统；
Newts：一种基于Apache Cassandra的时间序列数据库。

类SQL处理

Actian SQL for Hadoop：高性能交互式的SQL，可访问所有的Hadoop数据；
Apache Drill：由Dremel授意的交互式分析框架；
Apache HCatalog：Hadoop的表格和存储管理层；
Apache Hive：Hadoop的类SQL数据仓库系统；
Apache Optiq：一种框架，可允许高效的查询翻译，其中包括异构性及联合性数据的查询；
Apache Phoenix：Apache Phoenix 是 HBase 的 SQL 驱动；
Cloudera Impala：由Dremel授意的交互式分析框架；
Concurrent Lingual：Cascading中的类SQL查询语言；
Datasalt Splout SQL：用于大数据集的完整的SQL查询工具；
Facebook PrestoDB：分布式SQL查询工具；
Google BigQuery：交互式分析框架，Dremel的实现；
Pivotal HAWQ：Hadoop的类SQL的数据仓库系统；
RainstorDB：用于存储大规模PB级结构化和半结构化数据的数据库；
Spark Catalyst：用于Spark和Shark的查询优化框架；
SparkSQL：使用Spark操作结构化数据；
Splice Machine：一个全功能的Hadoop上的SQL RDBMS，并带有ACID事务；
Stinger：用于Hive的交互式查询；
Tajo：Hadoop的分布式数据仓库系统；
Trafodion：为企业级的SQL-on-HBase针对大数据的事务或业务工作负载的解决方案。

数据摄取

Amazon Kinesis：大规模数据流的实时处理；
Apache Chukwa：数据采集系统；
Apache Flume：管理大量日志数据的服务；
Apache Kafka：分布式发布-订阅消息系统；
Apache Sqoop：在Hadoop和结构化的数据存储区之间传送数据的工具；
Cloudera Morphlines：帮助 Solr、HBase和HDFS完成ETL的框架；
Facebook Scribe：流日志数据聚合器；
Fluentd：采集事件和日志的工具；
Google Photon：实时连接多个数据流的分布式计算机系统，具有高可扩展性和低延迟性；
Heka：开源流处理软件系统；
HIHO：用Hadoop连接不同数据源的框架；
Kestrel：分布式消息队列系统；
LinkedIn Databus：对数据库更改捕获的事件流；
LinkedIn Kamikaze：压缩已分类整型数组的程序包；
LinkedIn White Elephant：日志聚合器和仪表板；
Logstash：用于管理事件和日志的工具；
Netflix Suro：像基于Chukwa 的Storm和Samza一样的日志聚合器；
Pinterest Secor：是实现Kafka日志持久性的服务；
Linkedin Gobblin：LinkedIn的通用数据摄取框架；
Skizze：是一种数据存储略图，使用概率性数据结构来处理计数、略图等相关的问题；
StreamSets Data Collector：连续大数据采集的基础设施，可简单地使用IDE。

服务编程

Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间；
Apache Avro：数据序列化系统；
Apache Curator：Apache ZooKeeper的Java库；
Apache Karaf：在任何OSGi框架之上运行的OSGi运行时间；
Apache Thrift：构建二进制协议的框架；
Apache Zookeeper：流程管理集中式服务；
Google Chubby：一种松耦合分布式系统锁服务；
Linkedin Norbert：集群管理器；
OpenMPI：消息传递框架；
Serf：服务发现和协调的分散化解决方案；
Spotify Luigi：一种构建批处理作业的复杂管道的Python包，它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题；
Spring XD：数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统；
Twitter Elephant Bird：LZO压缩数据的工作库；
Twitter Finagle：JVM的异步网络堆栈。

调度

Apache Aurora：在Apache Mesos之上运行的服务调度程序；
Apache Falcon：数据管理框架；
Apache Oozie：工作流作业调度程序；
Chronos：分布式容错调度；
Linkedin Azkaban：批处理工作流作业调度；
Schedoscope：Hadoop作业敏捷调度的Scala DSL；
Sparrow：调度平台；
Airflow：一个以编程方式编写、调度和监控工作流的平台。

机器学习

Apache Mahout：Hadoop的机器学习库；
brain：JavaScript中的神经网络；
Cloudera Oryx：实时大规模机器学习；
Concurrent Pattern：Cascading的机器学习库；
convnetjs：Javascript中的机器学习，在浏览器中训练卷积神经网络（或普通网络）；
Decider：Ruby中灵活、可扩展的机器学习；
ENCOG：支持多种先进算法的机器学习框架，同时支持类的标准化和处理数据；
etcML：机器学习文本分类；
Etsy Conjecture：Scalding中可扩展的机器学习；
Google Sibyl：Google中的大规模机器学习系统；
GraphLab Create：Python的机器学习平台，包括ML工具包、数据工程和部署工具的广泛集合；
H2O：Hadoop统计性的机器学习和数学运行时间；
MLbase：用于BDAS堆栈的分布式机器学习库；
MLPNeuralNet：针对iOS和Mac OS X的快速多层感知神经网络库；
MonkeyLearn：使文本挖掘更为容易，从文本中提取分类数据；
nupic：智能计算的Numenta平台，它是一个启发大脑的机器智力平台，基于皮质学习算法的精准的生物神经网络；
PredictionIO：建于Hadoop、Mahout和Cascading上的机器学习服务器；
SAMOA：分布式流媒体机器学习框架；
scikit-learn：scikit-learn为Python中的机器学习；
Spark MLlib：Spark中一些常用的机器学习（ML）功能的实现；
Vowpal Wabbit：微软和雅虎发起的学习系统；
WEKA：机器学习软件套件；
BidMach：CPU和加速GPU的机器学习库。

基准测试

Apache Hadoop Benchmarking：测试Hadoop性能的微基准；
Berkeley SWIM Benchmark：现实大数据工作负载基准测试；
Intel HiBench：Hadoop基准测试套件；
PUMA Benchmarking：MapReduce应用的基准测试套件；
Yahoo Gridmix3：雅虎工程师团队的Hadoop集群基准测试。

安全性

Apache Knox Gateway：Hadoop集群安全访问的单点；
Apache Sentry：存储在Hadoop的数据安全模块。

系统部署

Apache Ambari：Hadoop管理的运作框架；
Apache Bigtop：Hadoop生态系统的部署框架；
Apache Helix：集群管理框架；
Apache Mesos：集群管理器；
Apache Slider：一种YARN应用，用来部署YARN中现有的分布式应用程序；
Apache Whirr：运行云服务的库集；
Apache YARN：集群管理器；
Brooklyn：用于简化应用程序部署和管理的库；
Buildoop：基于Groovy语言，和Apache BigTop类似；
Cloudera HUE：和Hadoop进行交互的Web应用程序；
Facebook Prism：多数据中心复制系统；
Google Borg：作业调度和监控系统；
Google Omega：作业调度和监控系统；
Hortonworks HOYA：可在YARN上部署HBase集群的应用；
Marathon：用于长期运行服务的Mesos框架。

应用程序

Adobe spindle：使用Scala、Spark和Parquet处理的下一代web分析；
Apache Kiji：基于HBase，实时采集和分析数据的框架；
Apache Nutch：开源网络爬虫；
Apache OODT：用于NASA科学档案中数据的捕获、处理和共享；
Apache Tika：内容分析工具包；
Argus：时间序列监测和报警平台；
Countly：基于Node.js和MongoDB，开源的手机和网络分析平台；
Domino：运行、规划、共享和部署模型——没有任何基础设施；
Eclipse BIRT：基于Eclipse的报告系统；
Eventhub：开源的事件分析平台；
Hermes：建于Kafka上的异步消息代理；
HIPI Library：在Hadoop's MapReduce上执行图像处理任务的API；
Hunk：Hadoop的Splunk分析；
Imhotep：大规模分析平台；
MADlib：RDBMS的用于数据分析的数据处理库；
Kylin：来自eBay 的开源分布式分析工具；
PivotalR：Pivotal HD / HAWQ和PostgreSQL中的R；
Qubole：为自动缩放Hadoop集群，内置的数据连接器；
Sense：用于数据科学和大数据分析的云平台；
SnappyData：用于实时运营分析的分布式内存数据存储，提供建立在Spark单一集成集群中的数据流分析、OLTP（联机事务处理）和OLAP（联机分析处理）；
Snowplow：企业级网络和事件分析，由Hadoop、Kinesis、Redshift 和Postgres提供技术支持；
SparkR：Spark的R前端；
Splunk：用于机器生成的数据的分析；
Sumo Logic：基于云的分析仪，用于分析机器生成的数据；
Talend：用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的统一开源环境；
Warp：利用大数据（OS X app）的实例查询工具。

搜索引擎与框架

Apache Lucene：搜索引擎库；
Apache Solr：用于Apache Lucene的搜索平台；
ElasticSearch：基于Apache Lucene的搜索和分析引擎；
Enigma.io：为免费增值的健壮性web应用，用于探索、筛选、分析、搜索和导出来自网络的大规模数据集；
Facebook Unicorn：社交图形搜索平台；
Google Caffeine：连续索引系统；
Google Percolator：连续索引系统；
TeraGoogle：大型搜索索引；
HBase Coprocessor：为Percolator的实现，HBase的一部分；
Lily HBase Indexer：快速、轻松地搜索存储在HBase的任何内容；
LinkedIn Bobo：完全由Java编写的分面搜索的实现，为Apache Lucene的延伸；
LinkedIn Cleo：为一个一个灵活的软件库，使得局部、无序、实时预输入的搜索实现了快速发展；
LinkedIn Galene：LinkedIn搜索架构；
LinkedIn Zoie：是用Java编写的实时搜索/索引系统；
Sphinx Search Server：全文搜索引擎

MySQL的分支和演化

Amazon RDS：亚马逊云的MySQL数据库；
Drizzle：MySQL的6.0的演化；
Google Cloud SQL：谷歌云的MySQL数据库；
MariaDB：MySQL的增强版嵌入式替代品；
MySQL Cluster：使用NDB集群存储引擎的MySQL实现；
Percona Server：MySQL的增强版嵌入式替代品；
ProxySQL：MySQL的高性能代理；
TokuDB：用于MySQL和 MariaDB的存储引擎；
WebScaleSQL：运行MySQL时面临类似挑战的几家公司，它们的工程师之间的合作。

PostgreSQL的分支和演化

Yahoo Everest - multi-peta-byte database / MPP derived by PostgreSQL.
HadoopDB：MapReduce和DBMS的混合体；
IBM Netezza：高性能数据仓库设备；
Postgres-XL：基于PostgreSQL，可扩展的开源数据库集群；
RecDB：完全建立在PostgreSQL内部的开源推荐引擎；
Stado：开源MPP数据库系统，只针对数据仓库和数据集市的应用程序；
Yahoo Everest：PostgreSQL可以推导多字节P比特数据库/MPP。

Memcached的分支和演化

Facebook McDipper：闪存的键/值缓存；
Facebook Memcached：Memcache的分支；
Twemproxy：Memcached和Redis的快速、轻型代理；
Twitter Fatcache：闪存的键/值缓存；
Twitter Twemcache：Memcache的分支。

嵌入式数据库

Actian PSQL：Pervasive Software公司开发的ACID兼容的DBMS，在应用程序中嵌入了优化；
BerkeleyDB：为键/值数据提供一个高性能的嵌入式数据库的一个软件库；
HanoiDB：Erlang LSM BTree存储；
LevelDB：谷歌写的一个快速键-值存储库，它提供了从字符串键到字符串值的有序映射；
LMDB：Symas开发的超快、超紧凑的键-值嵌入的式数据存储；
RocksDB：基于性LevelDB，用于快速存储的嵌入式持续性键-值存储。

商业智能

BIME Analytics：商业智能云平台；
Chartio：精益业务智能平台，用于可视化和探索数据；
datapine：基于云的自助服务商业智能工具；
Jaspersoft：功能强大的商业智能套件；
Jedox Palo：定制的商业智能平台；
Microsoft：商业智能软件和平台；
Microstrategy：商业智能、移动智能和网络应用软件平台；
Pentaho：商业智能平台；
Qlik：商业智能和分析平台；
Saiku：开源的分析平台；
SpagoBI：开源商业智能平台；
Tableau：商业智能平台；
Zoomdata：大数据分析；
Jethrodata：交互式大数据分析。

数据可视化

Airpal：用于PrestoDB的网页UI；
Arbor：利用网络工作者和jQuery的图形可视化库；
Banana：对存储在Kibana中Solr. Port的日志和时戳数据进行可视化；
Bokeh：一个功能强大的Python交互式可视化库，它针对要展示的现代web浏览器，旨在为D3.js风格的新奇的图形提供优雅简洁的设计，同时在大规模数据或流数据集中，通过高性能交互性来表达这种能力；
C3：基于D3可重复使用的图表库；
CartoDB：开源或免费增值的虚拟主机，用于带有强大的前端编辑功能和API的地理空间数据库；
chartd：只带Img标签的反应灵敏、兼容Retina的图表；
Chart.js：开源的HTML5图表可视化效果；
Chartist.js：另一个开源HTML5图表可视化效果；
Crossfilter：JavaScript库，用于在浏览器中探索多元大数据集，用Dc.js和D3.js.效果很好；
Cubism：用于时间序列可视化的JavaScript库；
Cytoscape：用于可视化复杂网络的JavaScript库；
DC.js：维度图表，和Crossfilter一起使用，通过D3.js呈现出来，它比较擅长连接图表/附加的元数据，从而徘徊在D3的事件附近；
D3：操作文件的JavaScript库；
D3.compose：从可重复使用的图表和组件构成复杂的、数据驱动的可视化；
D3Plus：一组相当强大的可重用的图表，还有D3.js的样式；
Echarts：百度企业场景图表；
Envisionjs：动态HTML5可视化；
FnordMetric：写SQL查询，返回SVG图表，而不是表；
Freeboard：针对IOT和其他Web混搭的开源实时仪表盘构建；
Gephi：屡获殊荣的开源平台，可视化和操纵大型图形和网络连接，有点像Photoshop，但是针对于图表，适用于Windows和Mac OS X；
Google Charts：简单的图表API；
Grafana：石墨仪表板前端、编辑器和图形组合器；
Graphite：可扩展的实时图表；
Highcharts：简单而灵活的图表API；
IPython：为交互式计算提供丰富的架构；
Kibana：可视化日志和时间标记数据；
Matplotlib：Python绘图；
Metricsgraphic.js：建立在D3之上的库，针对时间序列数据进行最优化；
NVD3：d3.js的图表组件；
Peity：渐进式SVG条形图，折线和饼图；
Plot.ly：易于使用的Web服务，它允许快速创建从热图到直方图等复杂的图表，使用图表Plotly的在线电子表格上传数据进行创建和设计；
Plotly.js：支持plotly的开源JavaScript图形库；
Recline：简单但功能强大的库，纯粹利用JavaScript和HTML构建数据应用；
Redash：查询和可视化数据的开源平台；
Shiny：针对R的Web应用程序框架；
Sigma.js：JavaScript库，专门用于图形绘制；
Vega：一个可视化语法；
Zeppelin：一个笔记本式的协作数据分析；
Zing Charts：用于大数据的JavaScript图表库。

物联网和传感器

TempoIQ：基于云的传感器分析；
2lemetry：物联网平台；
Pubnub：数据流网络；
ThingWorx：ThingWorx 是让企业快速创建和运行互联应用程序平台；
IFTTT：IFTTT 是一个被称为 “网络自动化神器” 的创新型互联网服务，它的全称是 If this then that，意思是“如果这样，那么就那样”；
Evrythng：Evrythng则是一款真正意义上的大众物联网平台，使得身边的很多产品变得智能化。

文章推荐

NoSQL Comparison（NoSQL 比较）- Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison；
Big Data Benchmark（大数据基准）- Redshift, Hive, Shark, Impala and Stiger/Tez的基准；
The big data successor of the spreadsheet（电子表格的大数据继承者） - 电子表格的继承者应该是大数据。

论文

2015 - 2016

2015 - Facebook - One Trillion Edges: Graph Processing at Facebook-Scale.（一兆边：Facebook规模的图像处理）

2013 - 2014

2014 - Stanford - Mining of Massive Datasets.（海量数据集挖掘）
2013 - AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. （Presto：稀疏矩阵的分布式机器学习和图像处理）
2013 - AMPLab - MLbase: A Distributed Machine-learning System. （MLbase：分布式机器学习系统）
2013 - AMPLab - Shark: SQL and Rich Analytics at Scale. （Shark: 大规模的SQL 和丰富的分析）
2013 - AMPLab - GraphX: A Resilient Distributed Graph System on Spark. （GraphX:基于Spark的弹性分布式图计算系统）
2013 - Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. （HyperLogLog实践:一个艺术形态的基数估算算法）
2013 - Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.（云端大数据的可扩展性渐进分析）
2013 - Metamarkets - Druid: A Real-time Analytical Data Store. （Druid：实时分析数据存储）
2013 - Google - Online, Asynchronous Schema Change in F1.（F1中在线、异步模式的转变）
2013 - Google - F1: A Distributed SQL Database That Scales. （F1: 分布式SQL数据库）
2013 - Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale.（MillWheel: 互联网规模下的容错流处理）
2013 - Facebook - Scuba: Diving into Data at Facebook. （Scuba: 深入Facebook的数据世界）
2013 - Facebook - Unicorn: A System for Searching the Social Graph. （Unicorn: 一种搜索社交图的系统）
2013 - Facebook - Scaling Memcache at Facebook. （Facebook 对 Memcache 伸缩性的增强）

2011 - 2012

2012 - Twitter - The Unified Logging Infrastructure for Data Analytics at Twitter. （Twitter数据分析的统一日志基础结构）
2012 - AMPLab –Blink and It’s Done: Interactive Queries on Very Large Data. （Blink及其完成：超大规模数据的交互式查询）
2012 - AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. （Spark上 Hadoop数据的快速交互式分析）
2012 - AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. （Shark：使用粗粒度的分布式内存快速数据分析）
2012 - Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. （Paxos的复制状态机——高性能数据存储的基础）
2012 - Microsoft –Paxos Made Parallel. （Paxos算法实现并行）
2012 - AMPLab – BlinkDB：BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.（超大规模数据中有限误差与有界响应时间的查询）
2012 - Google –Processing a trillion cells per mouse click.（每次点击处理一兆个单元格）
2012 - Google –Spanner: Google’s Globally-Distributed Database.（Spanner：谷歌的全球分布式数据库）
2011 - AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.（Scarlett：应对MapReduce集群中的偏向性内容）
2011 - AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.（Mesos：数据中心中细粒度资源共享的平台）
2011 - Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.（Megastore：为交互式服务提供可扩展，高度可用的存储）

2001 - 2010

2010 - Facebook - Finding a needle in Haystack: Facebook’s photo storage.（探究Haystack中的细微之处： Facebook图片存储）
2010 - AMPLab - Spark: Cluster Computing with Working Sets.（Spark:工作组上的集群计算）
2010 - Google - Storage Architecture and Challenges.（存储架构与挑战）
2010 - Google - Pregel: A System for Large-Scale Graph Processing.（Pregel: 一种大型图形处理系统）
2010 - Google - Large-scale Incremental Processing Using Distributed Transactions and Noti?0?3cations base of Percolator and Caffeine.（使用基于Percolator 和 Caffeine平台分布式事务和通知的大规模增量处理）
2010 - Google - Dremel: Interactive Analysis of Web-Scale Datasets.（Dremel: Web规模数据集的交互分析）
2010 - Yahoo - S4: Distributed Stream Computing Platform.（S4:分布式流计算平台）
2009 - HadoopDB：An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.（混合MapReduce和DBMS技术用于分析工作负载的的架构）
2008 - AMPLab - Chukwa: A large-scale monitoring system.（Chukwa: 大型监控系统）
2007 - Amazon - Dynamo: Amazon’s Highly Available Key-value Store.（Dynamo: 亚马逊的高可用的关键价值存储）
2006 - Google - The Chubby lock service for loosely-coupled distributed systems.（面向松散耦合的分布式系统的锁服务）
2006 - Google - Bigtable: A Distributed Storage System for Structured Data.（Bigtable: 结构化数据的分布式存储系统）
2004 - Google - MapReduce: Simplied Data Processing on Large Clusters.（MapReduce: 大型集群上简化数据处理）
2003 - Google - The Google File System.（谷歌文件系统）

视频

数据可视化

数据可视化之美
Noah Iliinsky 的数据可视化设计
Hans Rosling's 200 Countries, 200 Years, 4 Minutes
冰桶挑战的数据可视化

你可能感兴趣的:(大数据与人工智能,大数据,物联网,人工智能,学习资源汇总)

基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
web前端期末大作业：婚纱网页主题网站设计——唯一旅拍婚纱公司网站HTML+CSS+JavaScript IT-司马青衫前端课程设计 html
‍静态网站的编写主要是用HTMLDⅣV+CSSJS等来完成页面的排版设计‍，一般的网页作业需要融入以下知识点：div布局、浮动定位、高级css、表格、表单及验证、js轮播图、音频视频Fash的应用、uli、下拉导航栏、鼠标划过效果等知识点，学生网页作业源码，制作水平和原创度都适合学习或交作业用，记得点赞。精彩专栏推荐【作者主页——获取更多优质源码】【web前端期末大作业——毕设项目精品实战案例(1
【Go语言圣经1.1】 Pyroyster golang 开发语言后端
目标学习Go的编译方式、包的组织方式以及工具链的统一调用方式概念与定义packageGo语言通过包来组织代码。包类似于其它语言的库librarries或模块modules，每个包通常对应一个目录，目录中的所有.go文件都属于同一个包。特殊的main包:当代码使用packagemain声明时，表示这是一个可独立执行的程序而非一个库。程序的执行入口就是main函数import通过import语句，编译
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
Flutter中使用NetworkImage加载网络图片缓存问题学习实践云水-禅心 flutter 缓存
Flutter中默认的NetworkImage会有缓存机制，如果图片的url不变化，但是url的图片已经发生变化，NetworkImage不会下载新的图片deepseek是这么解决问题的，但是在鸿蒙上禁用缓存无效在Flutter中，NetworkImage默认会使用缓存机制来优化性能。如果你想禁用缓存，可以通过以下几种方式实现：1.使用NetworkImage的headers参数你可以通过设置he
什么是XSS 藤原千花的败北 web漏洞 xss 前端 web安全网络安全
文章目录前言1.前端知识2.什么是XSS3.漏洞挖掘4.参考前言之前对XSS的理解就是停留在弹窗，认为XSS这种漏洞真的是漏洞吗？安全学习了蛮久了，也应该对XSS有更进一步的认识了。1.前端知识现代浏览器是一个高度复杂的软件系统，由多个核心组件协同工作，旨在高效、安全地呈现网页内容并执行交互逻辑。对一般用户来讲，其主要功能就是向服务器发出请求，在窗口中展示用户所选择的网络资源。这里所说的资源一般是
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
CSS入门指南：从零开始学习网页开发——（一）简介 GIS小白吃 css 学习前端
一、什么是CSS？CSS（CascadingStyleSheets，层叠样式表）是一种用于描述网页的外观和布局的样式表语言。它通过定义网页元素的样式（如颜色、字体、边距等）来与HTML内容分离，提升了网页的可维护性和设计的灵活性。CSS的核心目的是增强网页的表现力。早期的网页仅使用HTML来进行内容的展示，但由于HTML只能描述内容的结构，页面设计和内容变得难以管理。于是，CSS作为一种辅助技术应
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
学习笔记10——并发编程2线程安全问题与同步机制码代码的小仙女高级开发必备技能 java知识学习笔记
线程安全问题与同步机制线程安全的本质问题线程安全问题源于多线程环境下对共享资源（数据或状态）的非原子性、非可见性、非有序性访问，导致程序行为不符合预期。主要表现如下：竞态条件（RaceCondition）：多个线程对同一资源进行非原子操作，导致结果依赖线程执行顺序。示例：两个线程同时执行count++（非原子操作，实际包含读-改-写三步）。内存可见性问题：线程修改共享变量后，其他线程无法立即看到最
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
50 种不同编程语言的“Hello World”，你知多少？逗逗逗逗666 编程 hello world 编程语言
当我们学习一门编程语言时，都是从“Hello,World!”开始。所有程序员在其职业生涯中，都至少接触过一个经典的“Hello,World!”程序。通常程序员会使用多种编程语言，多的甚至实现了十几种。还有一种称为TTHW（Timeto“Hello,World!”）的方法，来衡量程序员创建一个新的“Hello,World!”程序的时间。你可以用多少种不同的语言编写一个“Hello,World!”程序
【C语言】八进制、十六进制 Octopus2077 c语言开发语言算法 visual studio
前言在我们日常生活中使用的数往往是十进制的，而当我们学习C语言后我们会接触到许多不同的进制并且时常需要去思考与使用这些不同的进制（尤其是2的幂相关的进制，因为这种计数系统比十进制更接近于计算机的二进制系统），所以学习和掌握这些不同进制是非常重要的。本文将对八进制和十六进制（8和16都为2的幂）进行一些讲解。通常情况C语言都假定整型常量是十进制的数，但在表达与计算机相关的值时，八进制和十六进制却十分
C# &Unity 唐老狮 No.8 模拟面试题咩咩-哈基米版 C#&&Unity 面试题与算法合集 c#unity 开发语言
本文章不作任何商业用途仅作学习与交流安利唐老狮与其他老师合作的网站,内有大量免费资源和优质付费资源,我入门就是看唐老师的课程打好坚实的基础非常非常重要:全部-游习堂-唐老狮创立的游戏开发在线学习平台-PoweredByEduSoho如果你发现了文章内特殊的字体格式,那是AI补充的知识,我发现原网站下面有答案,我将会把答案以不同样式穿插在回答之中目录C#1.如果我们想为Unity中的Transfor
学习笔记12——并发编程之线程之间协作方式码代码的小仙女高级开发必备技能 java jvm 开发语言
线程之间协作有哪些方式当多个线程可以一起工作去解决某个问题时，如果某些部分必须在其他部分之前完成，那么就需要对线程进行协调。共享变量和轮询方式实现：定义一个共享变量（如volatile修饰的布尔标志）。线程通过检查共享变量的状态来决定是否继续执行。publicclassTest{ privatestaticvolatilebooleanflag=false; publicstaticvoi
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
使用LangChain访问个人数据第八章-总结明志刘明大模型学习手册 langchain 人工智能
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序本部分前几个章节请查看使用LangChain访问个人数据第一章-简介使用LangChain访问个人数据第二章-文档加载使用LangChain访问个人数据第三章-文档分割使用LangChain访问个人数据第四章
基于 LangChain 开发应用程序第一章-简介明志刘明大模型学习手册 langchain 人工智能
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统本部分章节目录如下：基于LangChain开发应用程序第一章-简介基于LangChain开发应用程序第二章-提示和输出基于LangChain开发应用程序第三章-储存基于LangChain开发应用程序第四章-模型链基于LangChain开发应用程序第五章-基于文档的问答基于LangCh
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
docker运行容器命令 redis 指定端口 big maom~~ docker redis eureka 容器运维
我整理的一些关于【Docker】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://edu.51cto.com/surl=QsXoR2使用Docker运行Redis容器并指定端口的详细指南本文旨在帮助初学者理解如何使用Docker来运行Redis容器，并指定端口。Docker是一个开源平台，允许开发者将应用和其依赖打包成一个标准的单元——容器。通过使用Docker，开发者可以确保
《Natural Actor-Critic》译读笔记 songyuc 笔记
《NaturalActor-Critic》摘要本文提出了一种新型的强化学习架构，即自然演员-评论家（NaturalActor-Critic）。Theactor的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现，而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力，因为这些梯度与所选策略表示的坐标框架无关，并且比常规策
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》