樱桃小丸犊子_q

数据分析作业四-基于用户及物品数据进行内容推荐

## 导入支持库
import pandas as pd
import matplotlib.pyplot as plt
import sklearn.metrics as metrics
import numpy as np
from sklearn.neighbors import NearestNeighbors
from scipy.spatial.distance import correlation
from sklearn.metrics.pairwise import pairwise_distances
import ipywidgets as widgets
from IPython.display import display, clear_output
from contextlib import contextmanager
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import os, sys
import re
import seaborn as sns

## 加载数据集并检查书籍，用户和评级数据集的形状
books = pd.read_csv('F:\\data\\bleeding_data\\BX-Books.csv',
                    sep=None,encoding="latin-1")
books.columns = ['ISBN', 'bookTitle', 'bookAuthor',
                 'yearOfPublication', 'publisher',
                 'imageUrlS', 'imageUrlM', 'imageUrlL']

users = pd.read_csv('F:\\data\\bleeding_data\\BX-Users.csv',
                    sep=None, encoding="latin-1")
users.columns = ['userID', 'Location', 'Age']


ratings = pd.read_csv('F:\\data\\bleeding_data\\BX-Book-Ratings.csv',
                      sep=None, encoding="latin-1")
ratings.columns = ['userID', 'ISBN', 'bookRating']

print (books.shape)
print (users.shape)
print (ratings.shape)

(271360, 8)
(278858, 3)
(1149780, 3)

## 一、图书数据集
books.head()

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher	imageUrlS	imageUrlM	imageUrlL
0	0195153448	Classical Mythology	Mark P. O. Morford	2002	Oxford University Press	http://images.amazon.com/images/P/0195153448.0...	http://images.amazon.com/images/P/0195153448.0...	http://images.amazon.com/images/P/0195153448.0...
1	0002005018	Clara Callan	Richard Bruce Wright	2001	HarperFlamingo Canada	http://images.amazon.com/images/P/0002005018.0...	http://images.amazon.com/images/P/0002005018.0...	http://images.amazon.com/images/P/0002005018.0...
2	0060973129	Decision in Normandy	Carlo D'Este	1991	HarperPerennial	http://images.amazon.com/images/P/0060973129.0...	http://images.amazon.com/images/P/0060973129.0...	http://images.amazon.com/images/P/0060973129.0...
3	0374157065	Flu: The Story of the Great Influenza Pandemic...	Gina Bari Kolata	1999	Farrar Straus Giroux	http://images.amazon.com/images/P/0374157065.0...	http://images.amazon.com/images/P/0374157065.0...	http://images.amazon.com/images/P/0374157065.0...
4	0393045218	The Mummies of Urumchi	E. J. W. Barber	1999	W. W. Norton & Company	http://images.amazon.com/images/P/0393045218.0...	http://images.amazon.com/images/P/0393045218.0...	http://images.amazon.com/images/P/0393045218.0...

## url不需要分析，进行删除
books.drop(['imageUrlS', 'imageUrlM', 'imageUrlL'],axis=1,inplace=True)
books.head()

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
0	0195153448	Classical Mythology	Mark P. O. Morford	2002	Oxford University Press
1	0002005018	Clara Callan	Richard Bruce Wright	2001	HarperFlamingo Canada
2	0060973129	Decision in Normandy	Carlo D'Este	1991	HarperPerennial
3	0374157065	Flu: The Story of the Great Influenza Pandemic...	Gina Bari Kolata	1999	Farrar Straus Giroux
4	0393045218	The Mummies of Urumchi	E. J. W. Barber	1999	W. W. Norton & Company

## books.dtypes
books.dtypes

ISBN                 object
bookTitle            object
bookAuthor           object
yearOfPublication    object
publisher            object
dtype: object

## 现在检查属性的唯一值
books.bookTitle.unique()

array(['Classical Mythology', 'Clara Callan', 'Decision in Normandy', ...,
       'Lily Dale : The True Story of the Town that Talks to the Dead',
       "Republic (World's Classics)",
       "A Guided Tour of Rene Descartes' Meditations on First Philosophy with Complete Translations of the Meditations by Ronald Rubin"],
      dtype=object)

books.yearOfPublication.unique()

array(['2002', '2001', '1991', '1999', '2000', '1993', '1996', '1988',
       '2004', '1998', '1994', '2003', '1997', '1983', '1979', '1995',
       '1982', '1985', '1992', '1986', '1978', '1980', '1952', '1987',
       '1990', '1981', '1989', '1984', '0', '1968', '1961', '1958',
       '1974', '1976', '1971', '1977', '1975', '1965', '1941', '1970',
       '1962', '1973', '1972', '1960', '1966', '1920', '1956', '1959',
       '1953', '1951', '1942', '1963', '1964', '1969', '1954', '1950',
       '1967', '2005', '1957', '1940', '1937', '1955', '1946', '1936',
       '1930', '2011', '1925', '1948', '1943', '1947', '1945', '1923',
       '2020', '1939', '1926', '1938', '2030', '1911', '1904', '1949',
       '1932', '1928', '1929', '1927', '1931', '1914', '2050', '1934',
       '1910', '1933', '1902', '1924', '1921', '1900', '2038', '2026',
       '1944', '1917', '1901', '2010', '1908', '1906', '1935', '1806',
       '2021', '2012', '2006', 'DK Publishing Inc', 'Gallimard', '1909',
       '2008', '1378', '1919', '1922', '1897', '2024', '1376', '2037'],
      dtype=object)

books.loc[books.yearOfPublication == 'DK Publishing Inc',:]
books.yearOfPublication.unique()

array(['2002', '2001', '1991', '1999', '2000', '1993', '1996', '1988',
       '2004', '1998', '1994', '2003', '1997', '1983', '1979', '1995',
       '1982', '1985', '1992', '1986', '1978', '1980', '1952', '1987',
       '1990', '1981', '1989', '1984', '0', '1968', '1961', '1958',
       '1974', '1976', '1971', '1977', '1975', '1965', '1941', '1970',
       '1962', '1973', '1972', '1960', '1966', '1920', '1956', '1959',
       '1953', '1951', '1942', '1963', '1964', '1969', '1954', '1950',
       '1967', '2005', '1957', '1940', '1937', '1955', '1946', '1936',
       '1930', '2011', '1925', '1948', '1943', '1947', '1945', '1923',
       '2020', '1939', '1926', '1938', '2030', '1911', '1904', '1949',
       '1932', '1928', '1929', '1927', '1931', '1914', '2050', '1934',
       '1910', '1933', '1902', '1924', '1921', '1900', '2038', '2026',
       '1944', '1917', '1901', '2010', '1908', '1906', '1935', '1806',
       '2021', '2012', '2006', 'DK Publishing Inc', 'Gallimard', '1909',
       '2008', '1378', '1919', '1922', '1897', '2024', '1376', '2037'],
      dtype=object)

print(books.loc[books.yearOfPublication == 'DK Publishing Inc',:])

              ISBN                                          bookTitle  \
209538  078946697X  DK Readers: Creating the X-Men, How It All Beg...   
221678  0789466953  DK Readers: Creating the X-Men, How Comic Book...   

       bookAuthor  yearOfPublication  \
209538       2000  DK Publishing Inc   
221678       2000  DK Publishing Inc   

                                                publisher  
209538  http://images.amazon.com/images/P/078946697X.0...  
221678  http://images.amazon.com/images/P/0789466953.0...

books.loc[books.yearOfPublication == 'DK Publishing Inc',:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
209538	078946697X	DK Readers: Creating the X-Men, How It All Beg...	2000	DK Publishing Inc	http://images.amazon.com/images/P/078946697X.0...
221678	0789466953	DK Readers: Creating the X-Men, How Comic Book...	2000	DK Publishing Inc	http://images.amazon.com/images/P/0789466953.0...

## 从上面可以看出，bookAuthor错误地装载了bookTitle，因此需要进行修正。
# ISBN '0789466953'
books.loc[books.ISBN == '0789466953','yearOfPublication'] = 2000
books.loc[books.ISBN == '0789466953','bookAuthor'] = "James Buckley"
books.loc[books.ISBN == '0789466953','publisher'] = "DK Publishing Inc"
books.loc[books.ISBN == '0789466953','bookTitle'] = "DK Readers: Creating the X-Men, How Comic Books Come to Life (Level 4: Proficient Readers)"

#ISBN '078946697X'
books.loc[books.ISBN == '078946697X','yearOfPublication'] = 2000
books.loc[books.ISBN == '078946697X','bookAuthor'] = "Michael Teitelbaum"
books.loc[books.ISBN == '078946697X','publisher'] = "DK Publishing Inc"
books.loc[books.ISBN == '078946697X','bookTitle'] = "DK Readers: Creating the X-Men, How It All Began (Level 4: Proficient Readers)"

books.loc[(books.ISBN == '0789466953') | (books.ISBN == '078946697X'),:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
209538	078946697X	DK Readers: Creating the X-Men, How It All Beg...	Michael Teitelbaum	2000	DK Publishing Inc
221678	0789466953	DK Readers: Creating the X-Men, How Comic Book...	James Buckley	2000	DK Publishing Inc

## 继续纠正出版年鉴的类型
books.yearOfPublication=pd.to_numeric(books.yearOfPublication, errors='coerce')
sorted(books['yearOfPublication'].unique())

[0.0,
 1376.0,
 1378.0,
 1806.0,
 1897.0,
 1900.0,
 1901.0,
 1902.0,
 1904.0,
 1906.0,
 1908.0,
 1909.0,
 1910.0,
 1911.0,
 1914.0,
 1917.0,
 1919.0,
 1920.0,
 1921.0,
 1922.0,
 1923.0,
 1924.0,
 1925.0,
 1926.0,
 1927.0,
 1928.0,
 1929.0,
 1930.0,
 1931.0,
 1932.0,
 1933.0,
 1934.0,
 1935.0,
 1936.0,
 1937.0,
 1938.0,
 1939.0,
 1940.0,
 1941.0,
 1942.0,
 1943.0,
 1944.0,
 1945.0,
 1946.0,
 1947.0,
 1948.0,
 1949.0,
 1950.0,
 1951.0,
 1952.0,
 1953.0,
 1954.0,
 1955.0,
 1956.0,
 1957.0,
 1958.0,
 1959.0,
 1960.0,
 1961.0,
 1962.0,
 1963.0,
 1964.0,
 1965.0,
 1966.0,
 1967.0,
 1968.0,
 1969.0,
 1970.0,
 1971.0,
 1972.0,
 1973.0,
 1974.0,
 1975.0,
 1976.0,
 1977.0,
 1978.0,
 1979.0,
 1980.0,
 1981.0,
 1982.0,
 1983.0,
 1984.0,
 1985.0,
 1986.0,
 1987.0,
 1988.0,
 1989.0,
 1990.0,
 1991.0,
 1992.0,
 1993.0,
 1994.0,
 1995.0,
 1996.0,
 1997.0,
 1998.0,
 1999.0,
 2000.0,
 2001.0,
 2002.0,
 2003.0,
 2004.0,
 2005.0,
 2006.0,
 2008.0,
 2010.0,
 2011.0,
 2012.0,
 2020.0,
 2021.0,
 2024.0,
 2026.0,
 2030.0,
 2037.0,
 2038.0,
 2050.0,
 nan]

## 现在可以看出yearOfPublication的类型为int，其值范围为0-2050。

## 由于该数据集建于2004年，我假设2006年之后的所有年份都无效，保留两年的保证金，以防数据集可能已更新。

## 对于所有无效条目（包括0），我将这些条目转换为NaN，然后用剩余年份的平均值替换它们。
books.loc[(books.yearOfPublication > 2006) | (books.yearOfPublication == 0),'yearOfPublication'] = np.NAN

# 用年出版的平均价值代替NaNs在案例数据集被更新的情况下保留一定的空白
books.yearOfPublication.fillna(round(books.yearOfPublication.mean()), inplace=True)
books.yearOfPublication.isnull().sum()

books.yearOfPublication = books.yearOfPublication.astype(np.int32)

## publisher
books.loc[books.publisher.isnull(),:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
128890	193169656X	Tyrant Moon	Elaine Corvidae	2002	NaN
129037	1931696993	Finders Keepers	Linnea Sinclair	2001	NaN

## 检查行是否有书签作为查找器，看看我们是否能得到任何线索

## 与不同的出版商和图书作者的所有行
books.loc[(books.bookTitle == 'Tyrant Moon'),:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
128890	193169656X	Tyrant Moon	Elaine Corvidae	2002	NaN

books.loc[(books.bookTitle == 'Finders Keepers'),:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
10799	082177364X	Finders Keepers	Fern Michaels	2002	Zebra Books
42019	0070465037	Finders Keepers	Barbara Nickolae	1989	McGraw-Hill Companies
58264	0688118461	Finders Keepers	Emily Rodda	1993	Harpercollins Juvenile Books
66678	1575663236	Finders Keepers	Fern Michaels	1998	Kensington Publishing Corporation
129037	1931696993	Finders Keepers	Linnea Sinclair	2001	NaN
134309	0156309505	Finders Keepers	Will	1989	Voyager Books
173473	0973146907	Finders Keepers	Sean M. Costello	2002	Red Tower Publications
195885	0061083909	Finders Keepers	Sharon Sala	2003	HarperTorch
211874	0373261160	Finders Keepers	Elizabeth Travis	1993	Worldwide Library

## 由图书作者检查以找到模式

## 都有不同的出版商。这里没有线索
books.loc[(books.bookAuthor == 'Elaine Corvidae'),:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
126762	1931696934	Winter's Orphans	Elaine Corvidae	2001	Novelbooks
128890	193169656X	Tyrant Moon	Elaine Corvidae	2002	NaN
129001	0759901880	Wolfkin	Elaine Corvidae	2001	Hard Shell Word Factory

## 由图书作者检查以找到模式
books.loc[(books.bookAuthor == 'Linnea Sinclair'),:]

	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
129037	1931696993	Finders Keepers	Linnea Sinclair	2001	NaN

## 因为没有什么共同的东西可以推断出NaNs的发布者，将它们替换为“other”
books.loc[(books.ISBN == '193169656X'),'publisher'] = 'other'
books.loc[(books.ISBN == '1931696993'),'publisher'] = 'other'

## 二、用户数据集
print (users.shape)
users.head()

(278858, 3)

	userID	Location	Age
0	1	nyc, new york, usa	NaN
1	2	stockton, california, usa	18.0
2	3	moscow, yukon territory, russia	NaN
3	4	porto, v.n.gaia, portugal	17.0
4	5	farnborough, hants, united kingdom	NaN

users.dtypes

userID        int64
Location     object
Age         float64
dtype: object

users.userID.values

array([     1,      2,      3, ..., 278856, 278857, 278858], dtype=int64)

## Age 
sorted(users.Age.unique())

[nan,
 0.0,
 1.0,
 2.0,
 3.0,
 4.0,
 5.0,
 6.0,
 7.0,
 8.0,
 9.0,
 10.0,
 11.0,
 12.0,
 13.0,
 14.0,
 15.0,
 16.0,
 17.0,
 18.0,
 19.0,
 20.0,
 21.0,
 22.0,
 23.0,
 24.0,
 25.0,
 26.0,
 27.0,
 28.0,
 29.0,
 30.0,
 31.0,
 32.0,
 33.0,
 34.0,
 35.0,
 36.0,
 37.0,
 38.0,
 39.0,
 40.0,
 41.0,
 42.0,
 43.0,
 44.0,
 45.0,
 46.0,
 47.0,
 48.0,
 49.0,
 50.0,
 51.0,
 52.0,
 53.0,
 54.0,
 55.0,
 56.0,
 57.0,
 58.0,
 59.0,
 60.0,
 61.0,
 62.0,
 63.0,
 64.0,
 65.0,
 66.0,
 67.0,
 68.0,
 69.0,
 70.0,
 71.0,
 72.0,
 73.0,
 74.0,
 75.0,
 76.0,
 77.0,
 78.0,
 79.0,
 80.0,
 81.0,
 82.0,
 83.0,
 84.0,
 85.0,
 86.0,
 87.0,
 88.0,
 89.0,
 90.0,
 91.0,
 92.0,
 93.0,
 94.0,
 95.0,
 96.0,
 97.0,
 98.0,
 99.0,
 100.0,
 101.0,
 102.0,
 103.0,
 104.0,
 105.0,
 106.0,
 107.0,
 108.0,
 109.0,
 110.0,
 111.0,
 113.0,
 114.0,
 115.0,
 116.0,
 118.0,
 119.0,
 123.0,
 124.0,
 127.0,
 128.0,
 132.0,
 133.0,
 136.0,
 137.0,
 138.0,
 140.0,
 141.0,
 143.0,
 146.0,
 147.0,
 148.0,
 151.0,
 152.0,
 156.0,
 157.0,
 159.0,
 162.0,
 168.0,
 172.0,
 175.0,
 183.0,
 186.0,
 189.0,
 199.0,
 200.0,
 201.0,
 204.0,
 207.0,
 208.0,
 209.0,
 210.0,
 212.0,
 219.0,
 220.0,
 223.0,
 226.0,
 228.0,
 229.0,
 230.0,
 231.0,
 237.0,
 239.0,
 244.0]

## 年龄栏有一些无效的条目，比如nan，0和非常高的值，比如100和以上
users.loc[(users.Age > 90) | (users.Age < 5), 'Age'] = np.nan

## 用平均值代替NaN
## 将数据类型设置为int
users.Age = users.Age.fillna(users.Age.mean())
users.Age = users.Age.astype(np.int32)

sorted(users.Age.unique())

[5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90]

## 三、评级数据集
ratings.shape

(1149780, 3)

## 如果每个用户对每个条目进行评级，那么评级数据集将有nusers * nbooks条目，这表明数据集非常稀疏。
n_users = users.shape[0]
n_books = books.shape[0]
print (n_users * n_books)

75670906880

ratings.head(5)

	userID	ISBN	bookRating
0	276725	034545104X	0
1	276726	0155061224	5
2	276727	0446520802	0
3	276729	052165615X	3
4	276729	0521795028	6

ratings.bookRating.unique()

array([ 0,  5,  3,  6,  8,  7, 10,  9,  4,  1,  2], dtype=int64)

ratings_new = ratings[ratings.ISBN.isin(books.ISBN)]

print (ratings.shape)
print (ratings_new.shape)

(1149780, 3)
(1031136, 3)

## 没有新用户添加，因此我们将使用高于数据集的新用户（1031136，3）
print ("number of users: " + str(n_users))
print ("number of books: " + str(n_books))

number of users: 278858
number of books: 271360

sparsity=1.0-len(ratings_new)/float(n_users*n_books)
print ('图书交叉数据集的稀疏级别是 ' +  str(sparsity*100) + ' %')

图书交叉数据集的稀疏级别是 99.99863734155898 %

ratings.bookRating.unique()

array([ 0,  5,  3,  6,  8,  7, 10,  9,  4,  1,  2], dtype=int64)

ratings_explicit = ratings_new[ratings_new.bookRating != 0]
ratings_implicit = ratings_new[ratings_new.bookRating == 0]

print (ratings_new.shape)
print( ratings_explicit.shape)
print (ratings_implicit.shape)

(1031136, 3)
(383842, 3)
(647294, 3)

## 统计
sns.countplot(data=ratings_explicit , x='bookRating')
plt.show()

## 基于简单流行度的推荐系统
ratings_count = pd.DataFrame(ratings_explicit.groupby(['ISBN'])['bookRating'].sum())
top10 = ratings_count.sort_values('bookRating', ascending = False).head(10)
print ("推荐下列书籍")
top10.merge(books, left_index = True, right_on = 'ISBN')

推荐下列书籍

	bookRating	ISBN	bookTitle	bookAuthor	yearOfPublication	publisher
408	5787	0316666343	The Lovely Bones: A Novel	Alice Sebold	2002	Little, Brown
748	4108	0385504209	The Da Vinci Code	Dan Brown	2003	Doubleday
522	3134	0312195516	The Red Tent (Bestselling Backlist)	Anita Diamant	1998	Picador USA
2143	2798	059035342X	Harry Potter and the Sorcerer's Stone (Harry P...	J. K. Rowling	1999	Arthur A. Levine Books
356	2595	0142001740	The Secret Life of Bees	Sue Monk Kidd	2003	Penguin Books
26	2551	0971880107	Wild Animus	Rich Shapero	2004	Too Far
1105	2524	0060928336	Divine Secrets of the Ya-Ya Sisterhood: A Novel	Rebecca Wells	1997	Perennial
706	2402	0446672211	Where the Heart Is (Oprah's Book Club (Paperba...	Billie Letts	1998	Warner Books
231	2219	0452282152	Girl with a Pearl Earring	Tracy Chevalier	2001	Plume Books
118	2179	0671027360	Angels & Demons	Dan Brown	2001	Pocket Star

users_exp_ratings = users[users.userID.isin(ratings_explicit.userID)]
users_imp_ratings = users[users.userID.isin(ratings_implicit.userID)]

print (users.shape)
print (users_exp_ratings.shape)
print (users_imp_ratings.shape)

(278858, 3)
(68091, 3)
(52451, 3)

## 基于协同过滤的推荐系统
counts1 = ratings_explicit['userID'].value_counts()
ratings_explicit = ratings_explicit[ratings_explicit['userID'].isin(counts1[counts1 >= 100].index)]
counts = ratings_explicit['bookRating'].value_counts()
ratings_explicit = ratings_explicit[ratings_explicit['bookRating'].isin(counts[counts >= 100].index)]

ratings_matrix = ratings_explicit.pivot(index='userID', columns='ISBN', values='bookRating')
userID = ratings_matrix.index
ISBN = ratings_matrix.columns
print(ratings_matrix.shape)
ratings_matrix.head()

(449, 66574)

ISBN	0000913154	0001046438	000104687X	0001047213	0001047973	000104799X	0001048082	0001053736	0001053744	0001055607	...	B000092Q0A	B00009EF82	B00009NDAN	B0000DYXID	B0000T6KHI	B0000VZEJQ	B0000X8HIE	B00013AX9E	B0001I1KOG	B000234N3A
userID
2033	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2110	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2276	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4017	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4385	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

5 rows × 66574 columns

n_users = ratings_matrix.shape[0] #只考虑那些给出明确评级的用户
n_books = ratings_matrix.shape[1]
print (n_users, n_books)

449 66574

ratings_matrix.fillna(0, inplace = True)
ratings_matrix = ratings_matrix.astype(np.int32)

ratings_matrix.head(5)

ISBN	0000913154	0001046438	000104687X	0001047213	0001047973	000104799X	0001048082	0001053736	0001053744	0001055607	...	B000092Q0A	B00009EF82	B00009NDAN	B0000DYXID	B0000T6KHI	B0000VZEJQ	B0000X8HIE	B00013AX9E	B0001I1KOG	B000234N3A
userID
2033	0	0	0	0	0	0	0	0	0	0	...	0	0	0	0	0	0	0	0	0	0
2110	0	0	0	0	0	0	0	0	0	0	...	0	0	0	0	0	0	0	0	0	0
2276	0	0	0	0	0	0	0	0	0	0	...	0	0	0	0	0	0	0	0	0	0
4017	0	0	0	0	0	0	0	0	0	0	...	0	0	0	0	0	0	0	0	0	0
4385	0	0	0	0	0	0	0	0	0	0	...	0	0	0	0	0	0	0	0	0	0

5 rows × 66574 columns

sparsity=1.0-len(ratings_explicit)/float(users_exp_ratings.shape[0]*n_books)
print ('图书交叉数据集的稀疏级别是 ' +  str(sparsity*100) + ' %')

图书交叉数据集的稀疏级别是 99.99772184106935 %

## 基于用户的协同过滤
global metric,k
k=10
metric='cosine'
def findksimilarusers(user_id, ratings, metric = metric, k=k):
    similarities=[]
    indices=[]
    model_knn = NearestNeighbors(metric = metric, algorithm = 'brute') 
    model_knn.fit(ratings)
    loc = ratings.index.get_loc(user_id)
    distances, indices = model_knn.kneighbors(ratings.iloc[loc, :].values.reshape(1, -1), n_neighbors = k+1)
    similarities = 1-distances.flatten()
            
    return similarities,indices

def predict_userbased(user_id, item_id, ratings, metric = metric, k=k):
    prediction=0
    user_loc = ratings.index.get_loc(user_id)
    item_loc = ratings.columns.get_loc(item_id)
    similarities, indices=findksimilarusers(user_id, ratings,metric, k) #similar users based on cosine similarity
    mean_rating = ratings.iloc[user_loc,:].mean() #to adjust for zero based indexing
    sum_wt = np.sum(similarities)-1
    product=1
    wtd_sum = 0 
    
    for i in range(0, len(indices.flatten())):
        if indices.flatten()[i] == user_loc:
            continue;
        else: 
            ratings_diff = ratings.iloc[indices.flatten()[i],item_loc]-np.mean(ratings.iloc[indices.flatten()[i],:])
            product = ratings_diff * (similarities[i])
            wtd_sum = wtd_sum + product
    
    #在非常稀疏的数据集的情况下，使用基于协作的方法的相关度量可能会给出负面的评价
    #在这里的处理如下
    if prediction <= 0:
        prediction = 1   
    elif prediction >10:
        prediction = 10
    
    prediction = int(round(mean_rating + (wtd_sum/sum_wt)))
    print ('用户预测等级 {0} -> item {1}: {2}'.format(user_id,item_id,prediction))
 
    return prediction

## 测试
predict_userbased(11676,'0001056107',ratings_matrix)

用户预测等级 11676 -> item 0001056107: 2





2

## 基于项目的协同过滤
def findksimilaritems(item_id, ratings, metric=metric, k=k):
    similarities=[]
    indices=[]
    ratings=ratings.T
    loc = ratings.index.get_loc(item_id)
    model_knn = NearestNeighbors(metric = metric, algorithm = 'brute')
    model_knn.fit(ratings)
    
    distances, indices = model_knn.kneighbors(ratings.iloc[loc, :].values.reshape(1, -1), n_neighbors = k+1)
    similarities = 1-distances.flatten()
 
    return similarities,indices

def predict_itembased(user_id, item_id, ratings, metric = metric, k=k):
    prediction= wtd_sum =0
    user_loc = ratings.index.get_loc(user_id)
    item_loc = ratings.columns.get_loc(item_id)
    similarities, indices=findksimilaritems(item_id, ratings) #similar users based on correlation coefficients
    sum_wt = np.sum(similarities)-1
    product=1
    for i in range(0, len(indices.flatten())):
        if indices.flatten()[i] == item_loc:
            continue;
        else:
            product = ratings.iloc[user_loc,indices.flatten()[i]] * (similarities[i])
            wtd_sum = wtd_sum + product                              
    prediction = int(round(wtd_sum/sum_wt))
    
    #在非常稀疏的数据集的情况下，使用基于协作的方法的相关度量可能会给出负面的评价
    #在这里处理的是下面的//代码，没有下面的代码片段，下面的代码片段是为了避免负面影响
    #在使用相关度规时，可能会出现非常稀疏的数据集的预测
    if prediction <= 0:
        prediction = 1   
    elif prediction >10:
        prediction = 10
 
    print ('用户预测等级 {0} -> item {1}: {2}'.format(user_id,item_id,prediction)    )  
    
    return prediction

## 测试
prediction = predict_itembased(11676,'0001056107',ratings_matrix)

用户预测等级 11676 -> item 0001056107: 1

你可能感兴趣的:(数据分析,数据挖掘)

chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
实战指南：使用Wireshark捕获并解密HTTPS数据包 md_1008 wireshark https 测试工具
在网络安全和数据分析领域，捕获和分析网络数据包是理解网络行为、诊断问题和进行安全审计的重要手段。HTTPS（HyperTextTransferProtocolSecure）作为现代Web通信的主要协议，通过SSL/TLS加密确保了数据的安全传输。然而，在某些情况下，如网络调试、安全测试或故障排除时，我们可能需要解密HTTPS数据包以查看其详细内容。本文将提供一份实战指南，教你如何使用Wiresha
AI赋能人力资源：效率提升新路径前端
引言人工智能(AI)正以前所未有的速度改变着各行各业，从自动驾驶到医疗诊断，AI的应用日益广泛。而人力资源领域，作为企业运营的核心环节，也正经历着AI带来的深刻变革。传统的人力资源管理面临诸多挑战，例如招聘效率低、候选人筛选精准度不足、员工培训成本高昂以及数据分析能力有限等。这些问题不仅影响企业的招聘速度和效率，也制约了企业的发展。为了应对这些挑战，越来越多的企业开始探索AI技术在人力资源领域的应
云原生周刊：K8s 生产环境架构设计及成本分析云计算
开源项目推荐KubeZoneNetKubeZoneNet旨在帮助监控和优化Kubernetes集群中的跨可用区（Cross-Zone）网络流量。这个项目提供了一种简便的方式来跟踪和分析Kubernetes集群中跨不同可用区的通信，帮助用户优化集群的网络架构、提高资源利用效率并减少网络延迟。通过实时监控和数据分析，KubeZoneNet能有效地识别跨可用区的网络瓶颈，并提供改进建议，以支持Kuber
【一点分享】Python数据分析（1）：Jupyterlab搭建，练习Python和Sql的神器。或许能用上 Python python sql mysql
在之前Mysql专栏分享过程中，一直用的Sequel客户端进行sql编写和说明注解，及时执行的结果不能保存，得写一条sql截图一次，麻烦。而Jupyterlab就可以很好解决这个问题，代码过程与执行结果都会相邻挨着保留，随时可以查看，导出或截图都非常方便。而且，Jupyterlab还天然支持Python环境，学Python甚是方便，单步执行和结果就是亮点。其他的shell等各种语言环境也可以安装插
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
一个.NET开源、性能优异的Excel数据读取库 dotNET跨平台 excel
项目介绍Sylvan.Data.Excel是一个开源、免费、跨平台的.NET库，专注于读取和写入Excel数据文件。支持多种文件格式，并提供高效的数据访问和数据绑定功能。该库在.NET生态系统中是读取Excel数据文件的最快且内存分配最低的库之一。使用场景适用于需要从Excel文件中读取数据并进行进一步处理（如数据分析、报告生成等）的应用程序。适用于需要将数据从数据库或其他数据源导出到Excel文
SQL数据分析（简单版）编程星空扩展知识 sql 数据库
一、常见数据库分类（1）关系型数据库采用关系模型组织数据的数据库，以行和列的形式存储数据，形成数据表，一组数据表组成了数据库（2）非关系型数据库非关系型数据库在严格意义上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。二、数据库常用功能（1）表数据表是数据库中存储数据的基本组成单位，例如用户信息表、订单表、采购表等。（2）查询查询是数据库中应用最多的对象之一，最常用的功
水位监测系统|远程水位监测|水位自动监测 Susie酱科技自动驾驶物联网
计讯物联水位监测系统，远程自动化全方位实时监控。监测点部署包括：目标因子采集传感器及仪器仪表、无线采集通信终端-水利RTU、数据实时采集自动上报，管理人员可通过监控中心平台远程监控，动态掌握监测点水位信息，数据分析处理，为政策规划提供决策依据，异常数据告警提示避免水生态灾害。远程水位自动监测系统组成感知层：水位计、雨量计、流量计、工业摄像头、(水质检测仪)网络传输层：计讯物联水利RTU遥测终端应用
Pandas数据预处理——drop_duplicates()函数 Vous oublie@ python学习数据分析 python pandas 数据分析
Pandas是一个强大的数据分析工具，可以用于数据预处理、数据清洗、数据分析和可视化等多个领域。在数据预处理中，数据去重是非常重要的一个步骤。Pandas提供了drop_duplicates()函数来实现数据去重，可以根据指定的列或行进行去重操作。下面是使用drop_duplicates()函数实现数据去重的示例代码：importpandasaspd#读取csv文件df=pd.read_csv('
《数据关联的艺术：揭开MySQL与图数据库结合的高级可视化探索》墨夶数据库学习资料2 数据库 mysql
在这个信息爆炸的时代，企业和研究者们面临着从海量数据中挖掘有价值信息的巨大挑战。传统的关系型数据库如MySQL虽然擅长处理结构化数据，但在面对复杂的关系网络时显得力不从心。而图数据库以其独特的架构优势，能够高效地表示和查询实体之间的多层关系。当我们将这两种技术结合起来，并辅以强大的可视化工具时，便开启了一扇通往更深层次数据分析的大门。本文将深入探讨如何通过MySQL与图数据库的结合来实现高级可视化
Prometheus Alertmanager设置与告警规则配置详解范范0825 prometheus
PrometheusAlertmanager设置与告警规则配置详解Prometheus是一个开源的监控和告警系统，其设计理念是通过时间序列数据库存储指标数据，并通过多维数据模型和查询语言进行数据分析。Prometheus的告警系统由两部分组成：Prometheus服务器本身和Alertmanager。Alertmanager负责接收来自Prometheus的告警，执行通知的分发、抑制和聚合。本文将
Redis学习：从基础到应用的全面探索来恩1003 Redis redis 学习数据库
Redis学习资料Redis学习资料Redis学习资料在当今数字化时代，数据处理与存储的效率成为众多应用的关键所在。Redis作为一款高性能的内存数据库，凭借其独特的优势，在众多领域发挥着不可或缺的作用。无论是高并发的Web应用、实时数据分析，还是缓存机制的构建，Redis都展现出了卓越的性能。下面将为你详细介绍Redis的学习路径，助你从入门走向精通。一、Redis初相识：基础概念与安装Redi
探索数据之美：用Python生成词云图进击的六角龙 Python python 开发语言数据可视化
导语在这个信息爆炸的时代，数据无处不在，而如何从海量数据中提取有价值的信息并可视化展示，成为了数据分析与可视化领域的重要课题。今天，我们将一起探索如何使用Python中的wordcloud库来生成词云图，让数据“说话”，用图形讲述数据背后的故事。wordcloud是一个在Python中广泛使用的第三方库，主要用于根据文本数据生成词云（WordClouds）。词云是一种可视化技术，它能够有效地展示文
预见未来：基于MySQL的实时用户行为影响预测系统，掌握商业先机墨夶数据库学习资料2 mysql 数据库
在这个信息瞬息万变的时代，企业如何能够迅速响应市场变化，准确捕捉用户需求，成为竞争中的佼佼者？答案在于构建一个高效的实时用户行为影响预测系统。通过利用MySQL的强大功能和先进的数据分析技术，我们可以深入挖掘用户的每一次点击、浏览乃至购买背后的故事，不仅帮助公司更好地理解现有客户群体的行为模式，还能提前预测未来的趋势走向。今天，我们将带您走进这个神奇的世界，探索如何用代码编织出一张精准描绘用户心理
MySQL 进阶：运维与架构 - 延迟复制墨夶数据库学习资料1 mysql 运维架构
MySQL进阶：运维与架构-延迟复制在MySQL的主从复制架构中，延迟复制（DelayedReplication）是一种特殊的复制策略，它允许从服务器（Slave）在接收到主服务器（Master）的二进制日志事件后，延迟一段时间再执行这些事件。这种机制在多种场景下都非常有用，例如，当需要在从服务器上保留旧的数据版本以供审计或备份时，或者当需要在从服务器上进行一些非实时的数据分析时。本文将详细介绍M
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
MATLAB语言的数据库交互 Quantum&Coder 包罗万象 golang 开发语言后端
MATLAB语言的数据库交互引言在当今数据驱动的时代，掌握数据库的使用和管理是非常重要的。MATLAB作为一种强大的数值计算和数据分析工具，广泛应用于科学研究、工程设计和数据分析等领域。为了更有效地处理和分析数据，MATLAB提供了与各类数据库交互的功能。本文将探讨MATLAB语言如何与数据库进行交互，包括连接数据库、执行SQL查询、读取和写入数据等基本操作，并结合实例进行详细说明，以帮助读者理解
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
一文了解数字孪生是什么？数字孪生赋能哪些行业应用场景橙子吖21 数字孪生区块链人工智能数学建模交互
导语数字孪生是物理系统向信息空间映射的关键技术，通过传感器和数据分析实现实时模拟和控制。与元宇宙不同，数字孪生强调物理对象的复现，是元宇宙的技术基础。NewIT技术支撑数字孪生的广泛应用，助力工业、城市等多领域实现虚拟与现实融合，促进经济社会创新发展。01什么是数字孪生？数字孪生，英文名为DiditalTwin(数字双胞胎)，也成为数字映射、数字镜像。它的官方定义非常复杂，是这么说的：是充分利用物
【数据分析（二）】初探 Pandas dandellion_ Python语法数据分析 pandas 数据挖掘
目录引言1.基本数据结构1.1.Series的初始化和简单操作1.2.DataFrame的初始化和简单操作1.2.1.初始化与持久化1.2.2.读取查看1.2.3.行操作1.2.4.列操作1.2.5.选中筛查2.数据预处理2.0.生成样例表2.1.缺失值处理2.2.类型转换和排序2.3.统计分析3.数据透视3.0.生成样例表3.1.生成透视表4.数据重塑4.1.层次化索引4.1.1.双层索引的Se
数字孪生：物联+数据打造洞察世界新视角 CServer_01 数字孪生模拟仿真工业软件
引言：数字孪生是物理系统向信息空间映射的关键技术，通过传感器、数据分析、物联网，实现实时模拟和控制。新一代信息技术支撑数字孪生的广泛应用，使其在工业、城市、交通、医疗、水利等多领域实现虚拟与现实融合，促进经济社会创新发展。如果，您可以打造任何物品、场景、城市的另一种表达形式。就如同打开上帝视角一样，可以随时随地及时监控物它的性能，预测物品的状况，并提高其效率。这种实时、持续的信息更新、交换，使得您
Python人工智能在气象中的应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统 xiao5kou4chang6kai4 气象气候预报天气预测气候模拟.降雨量和降水预测气象数据分析气象预警系统 python
Python人工智能在气象中有多种应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。人工智
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
体育比分网站搭建的常规流程参考教程翱翔的猪脑花信息可视化
一、项目策划与需求分析在启动体育比分直播网站搭建项目前，首要任务是对市场进行深入的研究与分析，考察现有竞品的优势Atlaslive与CAF与不足，找准目标用户群体的需求痛点。例如，用户可能关注实时比分更新的速度与精确度，全面的赛事覆盖范围，深度的数据分析，以及便利的社交互动功能等。基于此，明确网站的定位和特色，设计出包括实时比分直播、赛事前瞻与回顾、详尽数据分析、体育新闻报道、互动社区等在内的核心
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟